Python爬虫获取页面所有URL链接过程详解

更新时间：2020年06月04日 15:00:01 作者：程序员的人生A

这篇文章主要介绍了Python爬虫获取页面所有URL链接过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

如何获取一个页面内所有URL链接？在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。

什么是Beautiful Soup？

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快。

全部代码：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接：Python爬虫获取网页上的链接，通过beautifulsoup的findall()方法对匹配的标签进行查找。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python3导入CSV文件的实例(跟Python2有些许的不同)
今天小编就为大家分享一篇Python3导入CSV文件的实例(跟Python2有些许的不同)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
使用Pandas实现数据的清理的入门详解
数据清理是数据分析过程中的关键步骤，它涉及识别缺失值、重复行、异常值和不正确的数据类型，本文将介绍6个经常使用的数据清理操作，希望对大家有所帮助
2023-08-08
python 移除字符串尾部的数字方法
今天小编就为大家分享一篇python 移除字符串尾部的数字方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
django authentication 登录注册的实现示例
本文主要介绍了使用Django内置的authentication功能实现用户注册和登录功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2024-11-11
Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统
这篇文章主要为大家详细介绍了Python FastAPI如何结合Celery以及RabbitMQ实现简单的分布式图片水印处理系统,感兴趣的小伙伴可以跟随小编一起学习一下
2025-04-04
Django自带的加密算法及加密模块详解
今天小编就为大家分享一篇Django自带的加密算法及加密模块详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
python之随机数函数的实现示例
这篇文章主要介绍了python之随机数函数的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-12-12
python实现梯度下降和逻辑回归
这篇文章主要为大家详细介绍了python实现梯度下降和逻辑回归，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
使用pygame模块编写贪吃蛇的实例讲解
下面小编就为大家分享一篇使用pygame模块编写贪吃蛇的实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-02-02
Python实现爬取需要登录的网站完整示例
这篇文章主要介绍了Python实现爬取需要登录的网站,结合完整实例形式分析了Python登陆网站及数据抓取相关操作技巧,需要的朋友可以参考下
2017-08-08

Python爬虫获取页面所有URL链接过程详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具