python实现从web抓取文档的方法

 更新时间:2014年09月26日 09:28:02   投稿:shichen2014  
这篇文章主要介绍了python实现从web抓取文档的方法,以抓取人人网页面为例讲述了完整的web文档抓取方法,需要的朋友可以参考下

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • 使用Python创建简单的HTTP服务器的方法步骤

    使用Python创建简单的HTTP服务器的方法步骤

    这篇文章主要介绍了使用Python创建简单的HTTP服务器的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • Python3爬楼梯算法示例

    Python3爬楼梯算法示例

    这篇文章主要介绍了Python3爬楼梯算法,涉及Python基于面向对象的字符串遍历、切片、运算等相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • python3中布局背景颜色代码分析

    python3中布局背景颜色代码分析

    在本篇文章里小编给大家分享了一篇关于python3中布局背景颜色代码分析的相关内容,有兴趣的朋友们可以学习参考下。
    2020-12-12
  • Python + selenium + requests实现12306全自动抢票及验证码破解加自动点击功能

    Python + selenium + requests实现12306全自动抢票及验证码破解加自动点击功能

    这篇文章主要介绍了Python + selenium + requests实现12306全自动抢票及验证码破解加自动点击功能,需要的朋友可以参考下
    2018-11-11
  • Python实现数据可视化看如何监控你的爬虫状态【推荐】

    Python实现数据可视化看如何监控你的爬虫状态【推荐】

    今天主要是来说一下怎么可视化来监控你的爬虫的状态。文中通过实例代码给大家分析了Python实现数据可视化看如何监控你的爬虫状态,感兴趣的朋友一起看看吧
    2018-08-08
  • 使用Python更换外网IP的方法

    使用Python更换外网IP的方法

    这篇文章主要介绍了使用Python更换外网IP的方法,,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • python单向链表实例详解

    python单向链表实例详解

    这篇文章主要为大家详细介绍了python单向链表实例,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • Python实现备份文件实例

    Python实现备份文件实例

    这篇文章主要介绍了Python实现备份文件的方法,可实现针对各类常见扩展名的文件进行备份的功能,需要的朋友可以参考下
    2014-09-09
  • Python实现监控远程主机实时数据的示例详解

    Python实现监控远程主机实时数据的示例详解

    这篇文章主要为大家详细介绍了Python如何使用Socket库和相应的第三方库来监控远程主机的实时数据,比如CPU使用率、内存使用率、网络带宽等,感兴趣的可以了解一下
    2023-04-04
  • python 魔法函数实例及解析

    python 魔法函数实例及解析

    这篇文章主要介绍了python 魔法函数实例及解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09

最新评论