零基础写python爬虫之抓取百度贴吧代码分享

 更新时间:2014年11月06日 08:52:17   投稿:hebedich  
前面几篇都是以介绍基础知识为主,各位童鞋估计都在犯嘀咕了,你到底写不写爬虫啊??额,好吧,本文就给大家写一个简单的百度贴吧的python爬虫代码。

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

复制代码 代码如下:

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:百度贴吧爬虫
#   版本:0.1
#   作者:why
#   日期:2013-05-14
#   语言:Python 2.7
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
#   功能:下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
#定义百度函数
def baidu_tieba(url,begin_page,end_page):  
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
        f = open(sName,'w+')
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()
#-------- 在这里输入参数 ------------------
# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
#-------- 在这里输入参数 ------------------
#调用
baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

相关文章

  • Python+Pygame实现简单的单词小游戏

    Python+Pygame实现简单的单词小游戏

    语言是一种艺术,但是作为语言的基础——词汇,却不像艺术那样赏心悦目。不断的记忆与复习,让词汇成为很多孩子在学习英语时,最难完全攻克的关卡。本文就来用Python制作一个简单的英语单词游戏吧
    2023-03-03
  • Python可视化神器pyecharts绘制柱状图

    Python可视化神器pyecharts绘制柱状图

    这篇文章主要介绍了Python可视化神器pyecharts绘制柱状图,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-07-07
  • 各种Python库安装包下载地址与安装过程详细介绍(Windows版)

    各种Python库安装包下载地址与安装过程详细介绍(Windows版)

    这篇文章主要介绍了Windows版的各种Python库安装包下载地址与安装过程详细介绍,本文给大家提供了windows版的各种Python库安装包下载地址等相关知识,非常不错具有参考借鉴价值,需要的朋友可以参考下
    2016-11-11
  • Python中的深拷贝和浅拷贝详解

    Python中的深拷贝和浅拷贝详解

    这篇文章主要介绍了Python中的深拷贝和浅拷贝详解,本文讲解了变量-对象-引用、可变对象-不可变对象、拷贝等内容,需要的朋友可以参考下
    2015-06-06
  • Python中的chr()函数与ord()函数解析

    Python中的chr()函数与ord()函数解析

    这篇文章主要介绍了Python中的chr()函数与ord()函数解析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • 解决python的空格和tab混淆而报错的问题

    解决python的空格和tab混淆而报错的问题

    这篇文章主要介绍了解决python的空格和tab混淆而报错的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • Python使用pyperclip库操作剪切板

    Python使用pyperclip库操作剪切板

    本文将介绍如何使用pyperclip库来进行剪切板操作,包括复制、粘贴文本和图片,以及清空剪切板内容等功能,具有一定的参考价值,感兴趣的 可以了解一下
    2024-03-03
  • OpenCV图像分割之分水岭算法与图像金字塔算法详解

    OpenCV图像分割之分水岭算法与图像金字塔算法详解

    本文主要介绍了OpenCV中的分水岭算法、图像金字塔对图像进行分割的方法。文中的示例代码讲解详细,对我们学习OpenCV有一定的帮助,需要的可以参考一下
    2021-12-12
  • python 变量初始化空列表的例子

    python 变量初始化空列表的例子

    今天小编就为大家分享一篇python 变量初始化空列表的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • pytorch模型部署到onnx的详细过程

    pytorch模型部署到onnx的详细过程

    这篇文章主要介绍了如何简单的将pytorch模型部署到onnx,本文结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-08-08

最新评论