Python编写百度贴吧的简单爬虫

 更新时间:2015年04月02日 09:31:23   投稿:hebedich  
这篇文章主要介绍了Python编写百度贴吧的简单爬虫,简单实现了下载对应页码的页面并存为以当前时间命名的html文件,这里分享给大家,抛砖引玉。

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

相关文章

  • Python经验总结:两种Type Error问题

    Python经验总结:两种Type Error问题

    这篇文章主要介绍了Python经验总结:两种Type Error问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • Mysql分组查询group by与with rollup方式

    Mysql分组查询group by与with rollup方式

    这篇文章主要介绍了Mysql分组查询group by与with rollup方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python使用py2neo操作图数据库neo4j的方法详解

    Python使用py2neo操作图数据库neo4j的方法详解

    这篇文章主要介绍了Python使用py2neo操作图数据库neo4j的方法,结合实例形式详细分析了Python使用py2neo操作图数据库neo4j的具体步骤、原理、相关使用技巧与操作注意事项,需要的朋友可以参考下
    2020-01-01
  • 对Python中for复合语句的使用示例讲解

    对Python中for复合语句的使用示例讲解

    今天小编就为大家分享一篇对Python中for复合语句的使用示例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • 如何在Python函数执行前后增加额外的行为

    如何在Python函数执行前后增加额外的行为

    有的时候会需要在函数前后添点额外的功能(比如过滤、计时等)时,以前总是首先想到装饰器。最近学习了Python的上下文管理器,所以本文就给大家介绍了如何在Python函数执行前后增加额外的行为,有需要的朋友们可以参考借鉴,下面来一起看看吧。
    2016-10-10
  • python得到qq句柄,并显示在前台的方法

    python得到qq句柄,并显示在前台的方法

    今天小编就为大家分享一篇python得到qq句柄,并显示在前台的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • 浅谈django 模型类使用save()方法的好处与注意事项

    浅谈django 模型类使用save()方法的好处与注意事项

    这篇文章主要介绍了浅谈django 模型类使用save()方法的好处与注意事项,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • windows下的pycharm安装及其设置中文菜单

    windows下的pycharm安装及其设置中文菜单

    这篇文章主要介绍了windows下的pycharm安装及其设置中文菜单,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • 基于Python实现报表自动化并发送到邮箱

    基于Python实现报表自动化并发送到邮箱

    作为数据分析师,我们需要经常制作统计分析图表。但是报表太多的时候往往需要花费我们大部分时间去制作报表。本文将利用Python实现报表自动化并发送到邮箱,需要的可以参考一下
    2022-07-07
  • Linux下python3.7.0安装教程

    Linux下python3.7.0安装教程

    这篇文章主要为大家详细介绍了Linux下python3.7.0安装教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07

最新评论