Python提取网页中超链接的方法

 更新时间:2016年09月18日 10:19:32   投稿:daisy  
很多人在一开始学习Python,会打算用作爬虫开发。既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址。这篇文章给大家分享一个简单的方法,有需要的可以参考借鉴。

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

相关文章

  • python 爬取知乎回答下的微信8.0状态视频

    python 爬取知乎回答下的微信8.0状态视频

    这篇文章主要介绍了python 爬取知乎的微信8.0状态视频的方法,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python爬虫之request模块深入讲解

    python爬虫之request模块深入讲解

    requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,下面这篇文章主要给大家介绍了关于python爬虫之request模块的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-03-03
  • 详解python深浅拷贝区别

    详解python深浅拷贝区别

    在本篇文章里小编给大家整理了关于python深浅拷贝区别的相关知识点总结,有兴趣的朋友们可以参考下。
    2019-06-06
  • Python函数学习笔记

    Python函数学习笔记

    Python探测局部作用域的时候:是在python编译代码时检测,而不是通过他们在运行时的赋值。
    2008-10-10
  • Python元组知识点总结

    Python元组知识点总结

    在本篇文章里小编给大家分享了关于Python元组的相关知识点内容,有兴趣的朋友们学习下。
    2019-02-02
  • Python SQLAlchemy简介及基本用法

    Python SQLAlchemy简介及基本用法

    SQLAlchemy是一个基于Python实现的ORM对象关系映射框架,该框架建立在DB API之上,使用关系对象映射进行数据库操作,这篇文章主要介绍了SQLAlchemy简介以及基本使用,需要的朋友可以参考下
    2023-08-08
  • Python调用scp向服务器上传文件示例

    Python调用scp向服务器上传文件示例

    今天小编就为大家分享一篇Python调用scp向服务器上传文件示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python顺序执行多个py文件的方法

    python顺序执行多个py文件的方法

    今天小编大家分享一篇python顺序执行多个py文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python实现将MySQL数据库查询结果导出到Excel

    Python实现将MySQL数据库查询结果导出到Excel

    在实际工作中,我们经常需要将数据库中的数据导出到Excel表格中进行进一步的分析和处理,Python中的pymysql和xlsxwriter库提供了很好的解决方案,下面我们就来看看具体操作方法吧
    2023-11-11
  • 解决pycharm无法调用pip安装的包问题

    解决pycharm无法调用pip安装的包问题

    今天小编就为大家分享一篇解决pycharm无法调用pip安装的包问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05

最新评论