在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

更新时间：2015年04月25日 10:53:52 作者：程康

这篇文章主要介绍了在Python中使用cookielib和rllib2配合PyQuery抓取网页信息的教程,主要是利用PyQuery解析HTML来实现,需要的朋友可以参考下

刚才好无聊，突然想起来之前做一个课表的点子，于是百度了起来。

刚开始，我是这样想的：在写微信墙的时候，用到了urllib2【两行代码抓网页】，那么就只剩下解析html了。于是百度：python解析html。发现一篇好文章，其中介绍到了pyQuery。

pyQuery 是 jQuery 在 Python 中的实现，能够以 jQuery 的语法來操作解析 HTML 文档。使用前需要安装，Mac安装方法如下：

sudo easy_install pyquery

OK！安装好了！

我们来试一试吧：

from pyquery import PyQuery as pq
html = pq(url=u'http://seam.ustb.edu.cn:8080/jwgl/index.jsp')
#现在已经获取了本科教学网首页的html
classes = html('.haveclass')
#通过类名获取元素
#如果你对jQuery熟悉的话，那么你现在肯定明白pyQuery的方便了
更多用法参见pyQuery API

好像学会了使用pyQuery就能抓课表了呢，但是，如果你直接用我的源码，肯定会出错。因为还没有登录啊！

所以，在运行这一行抓取正确的代码之前，我们需要模拟登录本科教学网。这个时候，我想起来urllib有模拟post请求的函数，于是我百度了：urllib post。

这是一个最简的模拟post请求例子：

import urllib
import urllib2
import cookielib

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)')]
urllib2.install_opener(opener)
req = urllib2.Request("http://seam.ustb.edu.cn:8080/jwgl/Login",urllib.urlencode({"username":"41255029","password":"123456","usertype":"student"}))
req.add_header("Referer","http://xxoo.com")
resp = urllib2.urlopen(req)
#这里面用到了cookielib，我不太清楚，以后慢慢了解吧
#还用到了urllib和urllib2，urllib2大概是urllib的扩展包【233想到了三国杀

在这个最简的实例里，用我的校园网账号向登录页面提交表单数据，模拟登录。

现在，我们已经登录了本科教学网，然后结合之前的pyQuery解析html就可以获取网页内的课表了。

html = pq(url=u'http://seam.ustb.edu.cn:8080/jwgl/index.jsp')
self.render("index.html",data=html('.haveclass'))

结果展示如图：

最后：

我发现，pyQuery不但用于解析html非常方便，而且可以作为跨域抓取数据的工具，NICE!!!

希望对大家有帮助。

您可能感兴趣的文章:

Python

python删除某个字符
这篇文章主要介绍了python删除某个字符,现在发布的是一个比较简单易行的方法，就是遇到该字符便跳过去，不对其进行操作，完美呈现出删除该字符的功能,需要的朋友可以参考下
2018-03-03
python scrapy脚本报错问题及解决
这篇文章主要介绍了python scrapy脚本报错问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02
Python检查ping终端的方法
今天小编就为大家分享一篇Python检查ping终端的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Python安装Graphviz 超详细图文教程
这篇文章主要介绍了Python安装Graphviz 详细教程,在Python安装Graphviz画图器，首先要明确他是一个独立的软件，如果大家用pip的方法装了graphviz可以先卸载，本文通过图文并茂的形式详细讲解，需要的朋友参考下吧
2023-02-02
在cmd中查看python的安装路径方法
在本篇文章里小编给大家整理的是关于怎样在cmd中查看python的安装路径的相关内容，有兴趣的朋友们学习参考下。
2019-07-07
python 中的列表生成式、生成器表达式、模块导入
这篇文章主要介绍了python中的列表生成式、生成器表达式、模块导入 ,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-06-06
Python+Opencv身份证号码区域提取及识别实现
这篇文章主要介绍了Python+Opencv身份证号码区域提取及识别实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-08-08
python&MongoDB爬取图书馆借阅记录
这篇文章主要介绍了python&MongoDB爬取图书馆借阅记录的相关资料,需要的朋友可以参考下
2016-02-02
python和mysql交互操作实例详解【基于pymysql库】
这篇文章主要介绍了python和mysql交互操作,结合实例形式详细分析了Python基于pymysql库实现mysql数据库的连接、增删改查等各种常见操作技巧,需要的朋友可以参考下
2019-06-06
python 遍历pd.Series的index和value
今天小编就为大家分享一篇python 遍历pd.Series的index和value，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11

在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具