python+selenium+PhantomJS抓取网页动态加载内容

 更新时间:2020年02月25日 13:14:16   投稿:mdxy-dxy  
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此 时,我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面,下面实现一个简单的爬取

环境搭建

准备工具:pyton3.5,selenium,phantomjs

我的电脑里面已经装好了python3.5

安装Selenium

pip3 install selenium

安装Phantomjs  

按照系统环境下载phantomjs,下载完成之后,将phantomjs.exe解压到python的script文件夹下

使用selenium+phantomjs实现简单爬虫

from selenium import webdriver
 
 
driver = webdriver.PhantomJS()
driver.get('http://www.baidu.com')  #加载网页
data = driver.page_source  #获取网页文本
driver.save_screenshot('1.png')  #截图保存
print(data)
driver.quit()

selenium+phantomjs的一些使用方法

设置请求头里的user-Agent

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 
 
dcap = dict(DesiredCapabilities.PHANTOMJS) #设置useragent
dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ') #根据需要设置具体的浏览器信息
driver = webdriver.PhantomJS(desired_capabilities=dcap) #封装浏览器信息
driver.get('http://www.baidu.com')  #加载网页
data = driver.page_source  #获取网页文本
driver.save_screenshot('1.png')  #截图保存
print(data)
driver.quit()

请求超时设置

webdriver类中有三个和时间相关的方法:

1.pageLoadTimeout 设置页面完全加载的超时时间,完全加载即完全渲染完成,同步和异步脚本都执行完

2.setScriptTimeout 设置异步脚本的超时时间

3.implicitlyWait 识别对象的智能等待时间

from selenium import webdriver
 
driver = webdriver.PhantomJS()
driver.set_page_load_timeout(5) #设置超时时间
driver.get('http://www.baidu.com')
print(driver.title)
driver.quit()

设置浏览器窗口大小

调用启动的浏览器不是全屏的,有时候会影响我们的某些操作,所以我们可以设置全屏

driver.maximize_window() #设置全屏
driver.set_window_size('480','800') #设置浏览器宽480,高800  

元素定位

from selenium import webdriver
 
driver = webdriver.PhantomJS()
driver.set_page_load_timeout(5)
driver.get('http://www.baidu.com')
try:
  driver.get('http://www.baidu.com')
  driver.find_element_by_id('kw') # 通过ID定位
  driver.find_element_by_class_name('s_ipt') # 通过class属性定位
  driver.find_element_by_name('wd') # 通过标签name属性定位
  driver.find_element_by_tag_name('input') # 通过标签属性定位
  driver.find_element_by_css_selector('#kw') # 通过css方式定位
  driver.find_element_by_xpath("//input[@id='kw']") # 通过xpath方式定位
  driver.find_element_by_link_text("贴吧") # 通过xpath方式定位
  print(driver.find_element_by_id('kw').tag_name ) # 获取标签的类型
except Exception as e:
  print(e)
driver.quit()

操作浏览器前进或后退

from selenium import webdriver
driver = webdriver.PhantomJS()
try:
  driver.get('http://www.baidu.com')  #访问百度首页
  driver.save_screenshot('1.png')
  driver.get('http://www.sina.com.cn') #访问新浪首页
  driver.save_screenshot('2.png')
  driver.back()              #回退到百度首页
  driver.save_screenshot('3.png')
  driver.forward()            #前进到新浪首页
  driver.save_screenshot('4.png')
except Exception as e:
  print(e)
driver.quit()

到此这篇关于python+selenium+PhantomJS抓取网页动态加载内容的文章就介绍到这了,更多相关python PhantomJS抓取内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django修改端口号与地址的三种方式

    Django修改端口号与地址的三种方式

    Django是一个开放源代码的Web应用框架,由Python写成,下面这篇文章主要给大家介绍了关于Django修改端口号与地址的三种方式,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-02-02
  • Python实现网站注册验证码生成类

    Python实现网站注册验证码生成类

    这篇文章主要为大家详细介绍了Python实现网站注册验证码生成类,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • Python基于OpenCV库Adaboost实现人脸识别功能详解

    Python基于OpenCV库Adaboost实现人脸识别功能详解

    这篇文章主要介绍了Python基于OpenCV库Adaboost实现人脸识别功能,结合实例形式分析了Python下载与安装OpenCV库及相关人脸识别操作实现技巧,需要的朋友可以参考下
    2018-08-08
  • python使用tkinter实现简单计算器

    python使用tkinter实现简单计算器

    这篇文章主要为大家详细介绍了python使用tkinter实现简单计算器,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • Python面向对象编程基础解析(二)

    Python面向对象编程基础解析(二)

    这篇文章主要介绍了Python面向对象编程基础解析,具有一定参考价值,需要的朋友可以了解下。
    2017-10-10
  • python版opencv摄像头人脸实时检测方法

    python版opencv摄像头人脸实时检测方法

    今天小编就为大家分享一篇python版opencv摄像头人脸实时检测方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-08-08
  • 详解Python如何生成优雅的二维码

    详解Python如何生成优雅的二维码

    二维码作为一种信息传递的工具,在当今社会发挥了重要作用。从手机用户登录到手机支付,生活的各个角落都能看到二维码的存在。下面我们就来看看Python如何生成一个优雅的二维码吧
    2022-09-09
  • Python常见数据结构之栈与队列用法示例

    Python常见数据结构之栈与队列用法示例

    这篇文章主要介绍了Python常见数据结构之栈与队列用法,结合实例形式简单介绍了数据结构中栈与队列的概念、功能及简单使用技巧,需要的朋友可以参考下
    2019-01-01
  • python使用beautifulsoup4爬取酷狗音乐代码实例

    python使用beautifulsoup4爬取酷狗音乐代码实例

    这篇文章主要介绍了python使用beautifulsoup4爬取酷狗音乐代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • Python Matplotlib通过plt.subplots创建子绘图

    Python Matplotlib通过plt.subplots创建子绘图

    这篇文章主要介绍了Python Matplotlib通过plt.subplots创建子绘图,plt.subplots调用后将会产生一个图表和默认网格,与此同时提供一个合理的控制策略布局子绘图,更多相关需要的朋友可以参考下面文章内容
    2022-07-07

最新评论