零基础写python爬虫之抓取百度贴吧代码分享

更新时间：2014年11月06日 08:52:17 投稿：hebedich

前面几篇都是以介绍基础知识为主，各位童鞋估计都在犯嘀咕了，你到底写不写爬虫啊？？额，好吧，本文就给大家写一个简单的百度贴吧的python爬虫代码。

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：why
#   日期：2013-05-14
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
#定义百度函数
def baidu_tieba(url,begin_page,end_page):
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'
        f = open(sName,'w+')
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()
#-------- 在这里输入参数 ------------------
# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
#-------- 在这里输入参数 ------------------
#调用
baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码，非常的实用吧，各位可以自行扩展下。

您可能感兴趣的文章:

Python+Pygame实现简单的单词小游戏
语言是一种艺术，但是作为语言的基础——词汇，却不像艺术那样赏心悦目。不断的记忆与复习，让词汇成为很多孩子在学习英语时，最难完全攻克的关卡。本文就来用Python制作一个简单的英语单词游戏吧
2023-03-03
Python可视化神器pyecharts绘制柱状图
这篇文章主要介绍了Python可视化神器pyecharts绘制柱状图，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
2022-07-07
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
这篇文章主要介绍了Windows版的各种Python库安装包下载地址与安装过程详细介绍,本文给大家提供了windows版的各种Python库安装包下载地址等相关知识，非常不错具有参考借鉴价值，需要的朋友可以参考下
2016-11-11
Python中的深拷贝和浅拷贝详解
这篇文章主要介绍了Python中的深拷贝和浅拷贝详解,本文讲解了变量-对象-引用、可变对象-不可变对象、拷贝等内容,需要的朋友可以参考下
2015-06-06
Python中的chr()函数与ord()函数解析
这篇文章主要介绍了Python中的chr()函数与ord()函数解析，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
解决python的空格和tab混淆而报错的问题
这篇文章主要介绍了解决python的空格和tab混淆而报错的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-02-02
Python使用pyperclip库操作剪切板
本文将介绍如何使用pyperclip库来进行剪切板操作,包括复制、粘贴文本和图片,以及清空剪切板内容等功能,具有一定的参考价值,感兴趣的可以了解一下
2024-03-03
OpenCV图像分割之分水岭算法与图像金字塔算法详解
本文主要介绍了OpenCV中的分水岭算法、图像金字塔对图像进行分割的方法。文中的示例代码讲解详细，对我们学习OpenCV有一定的帮助，需要的可以参考一下
2021-12-12
python 变量初始化空列表的例子
今天小编就为大家分享一篇python 变量初始化空列表的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
pytorch模型部署到onnx的详细过程
这篇文章主要介绍了如何简单的将pytorch模型部署到onnx,本文结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-08-08

零基础写python爬虫之抓取百度贴吧代码分享

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具