Python爬虫基础初探selenium

 更新时间:2021年05月31日 10:54:05   作者:松鼠爱吃饼干  
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。本文给大家分享Python爬虫基础selenium知识,包括selenium工作原理,感兴趣的朋友跟随小编一起看看吧

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

Selenium

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。

Selenium测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生等。

selenium的用途

  (1)、selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,那我们也可以拿它来做爬虫。

  (2)、selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器

selenium是优缺点

  (1)优点
    优点就是可以帮我们避开一系列复杂的通信流程,例如在我们之前学习的requests模块,那么requests模块在模拟请求的时候是不是需要把素有的通信流程都分析完成后才能通过请求,然后返回响应。假如目标站点有一系列复杂的通信流程,例如的登录时的滑动验证等...那么你使用requests模块的时候是不是就特别麻烦了。不过你也不需要担心,因为网站的反爬策略越高,那么用户的体验效果就越差,所以网站都需要在用户的淫威之下降低安全策略。
    再看一点requests请求库能不能执行js?是不是不能呀!那么如果你的网站需要发送ajax请求,异步获取数据渲染到页面上,是不是就需要使用js发送请求了。那浏览器的特点是什么?是不是可以直接访问目标站点,然后获取对方的数据,从而渲染到页面上。那这些就是使用selenium的好处!
  (2)缺点
    使用selenium本质上是驱动浏览器对目标站点发送请求,那浏览器在访问目标站点的时候,是不是都需要把静态资源都加载完毕。html、css、js这些文件是不是都要等待它加载完成。是不是速度特别慢。那用它的坏处就是效率极低!所以我们一般用它来做登录验证。

1. Selenium工作原理

Python爬虫基础讲解:初探selenium


 

如图所示,通过Python来控制Selenium,然后让Selenium 控制浏览器,操纵浏览器,这样就实现了使用Python间接的操控浏览器。

1.1 Selenium配置

Selenium支持多种浏览器,最常见的就是火狐和谷歌浏览器。首先在电脑上下载浏览器,浏览器版本不宜过新。

火狐:截图如下

Python爬虫基础讲解:初探selenium

谷歌:截图如下

Python爬虫基础讲解:初探selenium

1.2 浏览器驱动

Selenium具体怎么就能操纵浏览器呢?这要归功于浏览器驱动,Selenium可以通过API接口实现和浏览器驱动的交互,进而实现和浏览器的交互。所以要配置浏览器驱动。

火狐驱动下载地址:
http://npm.taobao.org/mirrors/geckodriver/
谷歌驱动下载地址:
https://npm.taobao.org/mirrors/chromedriver/

配置浏览器驱动:

将下载好的浏览器驱动解压,将解压出的exe文件放到Python的安装目录下,也就是和python.exe同目录即可。

Python爬虫基础讲解:初探selenium

1.3 使用Selenium

安装selenium模块,python借助这个模块驱动浏览器,使用如下命令行安装这个模块即可

pip install selenium

2 快速入门

# 打开百度首页
 
from selenium import webdriver
 
driver = webdriver.chrome()
url = 'https : / /www.baidu . com/ '
driver.get(url)
#打开get就类似与在浏览器地址栏里面放入网址
driver.get(url)
#退出浏览器
driver.quit()

以上就是Python爬虫基础初探selenium的详细内容,更多关于Python爬虫基础selenium的资料请关注脚本之家其它相关文章!

相关文章

  • python爬取网页内容转换为PDF文件

    python爬取网页内容转换为PDF文件

    这篇文章主要为大家详细介绍了python爬取网页内容转换为PDF文件,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • 基于Python编写windows电脑用户操作记录查看器

    基于Python编写windows电脑用户操作记录查看器

    这篇文章主要为大家详细介绍了如何基于Python编写一个windows电脑用户操作记录查看器,可以读取系统现有的日志记录用户,感兴趣的小伙伴可以了解下
    2025-02-02
  • numpy中实现ndarray数组返回符合特定条件的索引方法

    numpy中实现ndarray数组返回符合特定条件的索引方法

    下面小编就为大家分享一篇numpy中实现ndarray数组返回符合特定条件的索引方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • matplotlib实现区域颜色填充

    matplotlib实现区域颜色填充

    这篇文章主要为大家详细介绍了matplotlib实现区域颜色填充,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • 如何使用Python实现PPT批量转图片

    如何使用Python实现PPT批量转图片

    这篇文章主要为大家详细介绍了如何使用Python开发一个带有图形界面的PPT批量转图片工具,文中的示例代码讲解详细,有需要的小伙伴可以了解下
    2025-02-02
  • python求斐波那契数列示例分享

    python求斐波那契数列示例分享

    这篇文章主要介绍了python求斐波那契数列的示例,需要的朋友可以参考下
    2014-02-02
  • python使用TensorFlow进行图像处理的方法

    python使用TensorFlow进行图像处理的方法

    本篇文章主要介绍了使用TensorFlow进行图像处理的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02
  • 深入理解Python虚拟机中描述器的实现原理

    深入理解Python虚拟机中描述器的实现原理

    这篇文章主要给大家介绍一个我们在使用类的时候经常使用但是却很少在意的黑科技——描述器的实现原理,文中的示例代码讲解详细,需要的可以参考一下
    2023-05-05
  • python--字典(dict)和集合(set)详解

    python--字典(dict)和集合(set)详解

    本文通过实例给大家介绍了python中字典和集合的知识小结,非常不错,具有参考借鉴价值,需要的的朋友参考下吧,希望能够给你带来帮助
    2021-09-09
  •  分享Python 中的 7 种交叉验证方法

     分享Python 中的 7 种交叉验证方法

    这篇文章主要给大家分享的是Python 中的 7 种交叉验证方法,交叉验证是一种用于估计机器学习模型性能的统计方法,它是一种评估统计分析结果如何推广到独立数据集的方法,下文相关介绍,需要的朋友可以参考一下
    2022-03-03

最新评论