Python编写百度贴吧的简单爬虫

更新时间：2015年04月02日 09:31:23 投稿：hebedich

这篇文章主要介绍了Python编写百度贴吧的简单爬虫，简单实现了下载对应页码的页面并存为以当前时间命名的html文件，这里分享给大家，抛砖引玉。

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数

功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名

代码：

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序：百度贴吧的小爬虫
#  日期：2015/03/28
#  语言：Python 2.7
#  操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数
#  功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页，并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了，希望能够对大家学习Python制作爬虫有所帮助。

您可能感兴趣的文章:

Python经验总结:两种Type Error问题
这篇文章主要介绍了Python经验总结:两种Type Error问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-09-09
Mysql分组查询group by与with rollup方式
这篇文章主要介绍了Mysql分组查询group by与with rollup方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
Python使用py2neo操作图数据库neo4j的方法详解
这篇文章主要介绍了Python使用py2neo操作图数据库neo4j的方法,结合实例形式详细分析了Python使用py2neo操作图数据库neo4j的具体步骤、原理、相关使用技巧与操作注意事项,需要的朋友可以参考下
2020-01-01
对Python中for复合语句的使用示例讲解
今天小编就为大家分享一篇对Python中for复合语句的使用示例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
如何在Python函数执行前后增加额外的行为
有的时候会需要在函数前后添点额外的功能（比如过滤、计时等）时，以前总是首先想到装饰器。最近学习了Python的上下文管理器，所以本文就给大家介绍了如何在Python函数执行前后增加额外的行为，有需要的朋友们可以参考借鉴，下面来一起看看吧。
2016-10-10
python得到qq句柄,并显示在前台的方法
今天小编就为大家分享一篇python得到qq句柄,并显示在前台的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
浅谈django 模型类使用save()方法的好处与注意事项
这篇文章主要介绍了浅谈django 模型类使用save()方法的好处与注意事项，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
windows下的pycharm安装及其设置中文菜单
这篇文章主要介绍了windows下的pycharm安装及其设置中文菜单，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
基于Python实现报表自动化并发送到邮箱
作为数据分析师，我们需要经常制作统计分析图表。但是报表太多的时候往往需要花费我们大部分时间去制作报表。本文将利用Python实现报表自动化并发送到邮箱，需要的可以参考一下
2022-07-07
Linux下python3.7.0安装教程
这篇文章主要为大家详细介绍了Linux下python3.7.0安装教程，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-07-07

Python编写百度贴吧的简单爬虫

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具