详解Python网络爬虫功能的基本写法

更新时间：2016年01月28日 14:57:25 投稿：lijiao

这篇文章主要介绍了Python网络爬虫功能的基本写法，网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛，对网络爬虫感兴趣的朋友可以参考本文

网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

1. 网络爬虫的定义

网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。网络爬虫的基本操作是抓取网页。

2. 浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。

HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

3. 基于python实现的网络爬虫功能

1). python获取html页面

其实，最基本的抓站，两句话就可以了:

import urllib2
content = urllib2.urlopen('http://XXXX').read()

这样可以得到整个 html 文档，关键的问题是我们可能需要从这个文档中获取我们需要的有用信息，而不是整个文档。这就需要解析充满了各种标签的 html。

2). python爬虫抓取页面后解析html方法

python爬虫html解析库SGMLParser

Python 默认自带 HTMLParser 以及 SGMLParser 等等解析器，前者实在是太难用了，我就用 SGMLParser 写了一个示例程序：

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
 
content = urllib2.urlopen('http://169it.com/xxx.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')

很简单，这里定义了一个叫做 ListName 的类，继承 SGMLParser 里面的方法。使用一个变量 is_h4 做标记判定 html 文件中的 h4 标签，如果遇到 h4 标签，则将标签内的内容加入到 List 变量 name 中。解释一下 start_h4() 和 end_h4() 函数，他们原型是 SGMLParser 中的

start_tagname(self, attrs)
end_tagname(self)

tagname 就是标签名称，比如当遇到 <pre>，就会调用 start_pre，遇到 </pre>，就会调用 end_pre。attrs 为标签的参数，以 [(attribute, value), (attribute, value), ...] 的形式传回。

python爬虫html解析库pyQuery

pyQuery 是 jQuery 在 python 中的实现，能够以 jQuery 的语法来操作解析 HTML 文档，十分方便。使用前需要安装，easy_install pyquery 即可，或者 Ubuntu 下

sudo apt-get install python-pyquery

以下例子：

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://169it.com/xxx.html')
cts=doc('.market-cat')
 
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'

python爬虫html解析库BeautifulSoup

有个头痛的问题是，大部分的网页都没有完全遵照标准来写，各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题，我们可以选择著名的 BeautifulSoup 来解析html 文档，它具有很好的容错能力。

以上就是本文的全部内容，对Python网络爬虫功能的实现进行了详细的分析介绍，希望对大家的学习有所帮助。

您可能感兴趣的文章:

python3.7中安装paddleocr及paddlepaddle包的多种方法
这篇文章主要介绍了python3.7中安装paddleocr及paddlepaddle包,本文通过多种方法给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-11-11
python 杀死自身进程的实现方法
今天小编就为大家分享一篇python 杀死自身进程的实现方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Python数据展示之生成表格图片
这篇文章主要介绍了Python数据展示之生成表格图片，文章基于Python库的相关资料展开对主题的详细介绍，具有一定的参考价值需要的小伙伴可以参考一下
2022-04-04
python中数组和列表的简单实例
,Python数据类型分为很多种,其中包括元组、字典、列表等,下面这篇文章主要给大家介绍了python中数组和列表使用的相关资料,以及python列表和Numpy数组的区别,需要的朋友可以参考下
2022-03-03
Anaconda环境改名的实现步骤
本文主要介绍了Anaconda环境改名的实现步骤，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-07-07
python列表删除元素的三种实现方法
本文主要介绍了python列表删除元素的三种实现方法,主要包括pop方法,remove方法,del方法这三种,具有一定的参考价值,感兴趣的可以了解一下
2024-01-01
python 实现turtle画图并导出图片格式的文件
今天小编就为大家分享一篇python 实现turtle画图并导出图片格式的文件，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
python 回溯法模板详解
今天小编就为大家分享一篇python 回溯法模板详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python Flask-Login构建强大的用户认证系统实例探究
这篇文章主要为大家介绍了Python Flask-Login构建强大的用户认证系统示例探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
python用pyecharts实现地图数据可视化
这篇文章主要介绍了python用pyecharts实现地图数据可视化，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-03-03

详解Python网络爬虫功能的基本写法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具