Phantomjs抓取渲染JS后的网页(Python代码)

 更新时间:2016年05月13日 09:09:10   投稿:hebedich  
phantomjs:我的理解就是它是一个无显示的浏览器,也就是说除了不能显示页面内容以外,浏览器能干的活儿它基本上都能干。下面我们就来利用他做点有趣的事情

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

准备工作

你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)
用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的

from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模拟浏览器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient数量
  async=False # 同步还是异步
  )
# 开始连接Phantomjs的代码,可以渲染JS!
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

相关文章

  • python中xrange用法分析

    python中xrange用法分析

    这篇文章主要介绍了python中xrange用法,实例分析了xrange的功能、作用以及与range在使用中的区别,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-04-04
  • jupyter如何安装自动代码补全提示

    jupyter如何安装自动代码补全提示

    这篇文章主要介绍了jupyter如何安装自动代码补全提示问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-06-06
  • python Graham求凸包问题并画图操作

    python Graham求凸包问题并画图操作

    这篇文章主要介绍了python Graham求凸包问题并画图操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • python获取百度热榜链接的实例方法

    python获取百度热榜链接的实例方法

    在本篇文章里小编给大家整理了关于python获取百度热榜链接的实例方法,需要的朋友们可以学习参考下。
    2020-08-08
  • python实现ftp文件传输功能

    python实现ftp文件传输功能

    这篇文章主要为大家详细介绍了python实现ftp文件传输功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • python 解析XML python模块xml.dom解析xml实例代码

    python 解析XML python模块xml.dom解析xml实例代码

    这篇文章主要介绍了分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法,有需要的朋友参考下
    2014-02-02
  • Python读取图片属性信息的实现方法

    Python读取图片属性信息的实现方法

    这篇文章介绍了利用Python读取图片属性信息的方法,读取的内容包括GPS 信息、图片分辨率、图片像素、设备商、拍摄设备等,有需要的朋友们可以参考借鉴。
    2016-09-09
  • opencv+python实现图像矫正

    opencv+python实现图像矫正

    这篇文章主要为大家详细介绍了opencv+python实现图像矫正,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • PyTorch学习笔记之回归实战

    PyTorch学习笔记之回归实战

    这篇文章主要介绍了PyTorch学习笔记之回归实战,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • Python实现的金山快盘的签到程序

    Python实现的金山快盘的签到程序

    正在学习python而且自己一直在用金山快盘,所以就写来个签到的功能,每天定时跑
    2013-01-01

最新评论