Python爬虫获取页面所有URL链接过程详解

 更新时间:2020年06月04日 15:00:01   作者:程序员的人生A  
这篇文章主要介绍了Python爬虫获取页面所有URL链接过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。

什么是Beautiful Soup?

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快。

全部代码:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接:Python爬虫获取网页上的链接,通过beautifulsoup的findall()方法对匹配的标签进行查找。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Tensorflow加载与预处理数据详解实现方法

    Tensorflow加载与预处理数据详解实现方法

    读取大型数据集并对其进行有效预处理可能对其他深度学习库来说很难实现,但是TensorFlow借助Data API很容易实现:只需创建一个数据集对象,并告诉它如何从何处获取数据以及如何对其进行转换
    2022-11-11
  • numpy.sum()的使用详解

    numpy.sum()的使用详解

    这篇文章主要介绍了numpy.sum()的使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • Python入门教程(八)PythonCasting用法

    Python入门教程(八)PythonCasting用法

    这篇文章主要介绍了Python入门教程(八)PythonCasting用法,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
    2023-04-04
  • Python编程图形库之Pillow使用方法讲解

    Python编程图形库之Pillow使用方法讲解

    今天小编就为大家分享一篇关于Python编程图形库之Pillow使用方法讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • python远程连接MySQL数据库

    python远程连接MySQL数据库

    这篇文章主要为大家详细介绍了python远程连接MySQL数据库,拉取数据存至本地文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • python利用pymysql和openpyxl实现操作MySQL数据库并插入数据

    python利用pymysql和openpyxl实现操作MySQL数据库并插入数据

    这篇文章主要为大家详细介绍了如何使用Python连接MySQL数据库,并从Excel文件中读取数据,将其插入到MySQL数据库中,有需要的小伙伴可以参考一下
    2023-10-10
  • python提取内容关键词的方法

    python提取内容关键词的方法

    这篇文章主要介绍了python提取内容关键词的方法,适用于英文关键词的提取,非常具有实用价值,需要的朋友可以参考下
    2015-03-03
  • Python3 pandas 操作列表实例详解

    Python3 pandas 操作列表实例详解

    这篇文章主要介绍了Python3 pandas 操作列表实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • Django在admin后台集成TinyMCE富文本编辑器的例子

    Django在admin后台集成TinyMCE富文本编辑器的例子

    今天小编就为大家分享一篇Django在admin后台集成TinyMCE富文本编辑器的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Keras使用tensorboard显示训练过程的实例

    Keras使用tensorboard显示训练过程的实例

    今天小编就为大家分享一篇Keras使用tensorboard显示训练过程的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02

最新评论