Python selenium模块的安装和配置教程

 更新时间:2022年10月28日 11:41:31   作者:IT工藤新一  
这篇文章主要为大家介绍了python中selenium模块的安装和配置环境变量教程、提取数据操作、无头模式,有需要的朋友可以借鉴参考下,希望能够对大家有所帮助

一、selenium的安装以及简单应用

我们以谷歌浏览器的chromedriver为例

1、在Python虚拟环境中安装selenium模块

pip/pip3 install selenium

2、下载版本符合的webdriver

以chrome谷歌浏览器为例

查看谷歌浏览器的版本

鼠标点击右上角的竖排的三个点,然后选择“帮助”,选择“关于 Google Chrome”,进去之后即可查看谷歌浏览器的版本

访问下载chromedriver网站

访问chromedriver下载地址,点击进入不同版本的chromedriver下载页面

点击notes.txt进入版本说明页面 

查看chrome和chromedriver匹配的版本

根据操作系统下载正确版本的chromedriver

解压压缩包后获取python代码可以调用的谷歌浏览器的webdriver可执行文件

  • windows为 chromedriver.exe
  • linux和macos为 chromedriver

chromedriver环境的配置

  • windows环境下需要将 chromedriver.exe 所在的目录设置为path环境变量中的路径
  • linux/mac环境下,将 chromedriver 所在的目录设置到系统的PATH环境值中

3、chromedriver环境配置的教程

windows环境下将 chromedriver.exe 所在的目录设置为path环境变量中的路径的过程

鼠标右键点击“Google Chrome” ,然后点击“打开文件所在位置”复制 chrome.exe 所在的文件路径

接着打开“控制面板” 搜索输入 “环境变量” 并搜索,然后点击 “编辑系统环境变量”

 

二、selenium的简单使用

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的。

Selenium 可以直接调用浏览 器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页 面,获取需要的数据,甚至页面截屏等。

我们可以使用selenium很容易完成之前编写的爬虫,接下来我们就来 看一下selenium的运行效果

接下来我们就通过代码来模拟百度搜索(展示效果)

import time 
from selenium import webdriver 
 
# 通过指定chromedriver的路径来实例化driver对象,chromedriver放在当前目录。 
# driver = webdriver.Chrome(executable_path='./chromedriver') 
# 这里的chromedriver已经添加环境变量 
driver = webdriver.Chrome() 
 
# 控制浏览器访问url地址 
driver.get("https://www.baidu.com/") 
time.sleep(3)
# 在百度搜索框中搜索'python' 
driver.find_element_by_id('kw').send_keys('python') 
# 点击'百度搜索' 
driver.find_element_by_id('su').click() 
time.sleep(6) 
# 退出浏览器 
driver.quit()

运行结果

webdriver.Chrome(executable_path='./chromedriver') 中executable参数指定的是下载好的

chromedriver文件的路径

driver.find_element_by_id('kw').send_keys('python') 定位id属性值是'kw'的标签,并向其中输入字符 串'python'

driver.find_element_by_id('su').click() 定位id属性值是su的标签,并点击

click函数作用是:触发标签的js的click事件

三、selenium提取数据

1、driver对象常用的属性和方法

在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法

  • driver.page_source 获取当前标签页浏览器渲染之后的网页源代码
  • driver.current_url获取当前标签页的url
  • driver.close() 关闭当前标签页,如果只个一个标签页则关闭整个浏览器
  • driver.quit() 关闭浏览器
  • driver.forward() 页面前进
  • driver.back() 页面后退
  • driver.screen_shot(img_name) 页面截图

示例

打印当前标签页的url

import time
from selenium import webdriver
 
driver = webdriver.Chrome()
# 控制浏览器访问url地址
driver.get("https://www.baidu.com/")
time.sleep(3)
# 打印当前标签页的url
print(driver.current_url)
driver.quit()

运行结果:

2、driver对象定位标签元素获取标签对象的方法

在selenium中可以通过多种方式来定位标签,返回标签元素对象

方式功能
find_element_by_id返回一个元素
find_element(s)_by_class_name根据类名获取元素列表
find_element(s)_by_name根据标签的name属性值返回包含标签对象元素的列表
find_element(s)_by_xpath返回一个包含元素的列表
find_element(s)_by_link_text根据连接文本获取元素列表
find_element(s)_by_partial_link_text根据链接包含的文本获取元素列表
find_element(s)_by_tag_name;根据标签名获取元素列表
find_element(s)_by_css_selector根据css选择器来获取元素列表

注意

find_element和find_elements的区别:

  • 多了个s就返回列表,没有s就返回匹配到的第一个标签对象
  • find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表

by_link_text 和 by_partial_link_tex 的区别:全部文本和包含某个文本

以上函数的使用方法:

driver.find_element_by_id('id_str')

id_str是id值

示例

接下来我们就通过代码来模拟百度搜索(具体讲解)

首先我们先打开百度页面,然后点击网页检查 ,定位搜索框,可以看见搜索框的input标签的id值为kw

  • 于是开始编写基础代码
  • 通过driver.get()获取网页
  • 通过find_element_by_id('kw')定位搜索框
  • 通过.send_keys('python')向搜索框输入搜索信息
import time
from selenium import webdriver
 
driver = webdriver.Chrome()
 
# 控制浏览器访问url地址
driver.get("https://www.baidu.com/")
time.sleep(3)
# 在百度搜索框中搜索'python'
driver.find_element_by_id('kw').send_keys('python')

再定位搜索按钮:“百度一下” ,其id值为su

完善代码,通过 .click() 实现点击搜索

import time
from selenium import webdriver
 
driver = webdriver.Chrome()
 
# 控制浏览器访问url地址
driver.get("https://www.baidu.com/")
time.sleep(3)
# 在百度搜索框中搜索'python'
driver.find_element_by_id('kw').send_keys('python')
# 点击'百度搜索'
driver.find_element_by_id('su').click()
time.sleep(6)
# 退出浏览器
driver.quit()

运行结果

3、标签对象提取文本内容和属性值

find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法

对元素执行点击操作: element.click()

对定位到的标签对象进行点击操作

向输入框输入数据: element.send_keys(data)

对定位到的标签对象输入数据

获取文本: element.text

通过定位获取的标签对象的 text 属性,获取文本内容

获取属性值: element.get_attribute("属性名")

通过定位获取的标签对象的 get_attribute 函数,传入属性名,来获取属性的值

获取 “百度一下”搜索按钮的value属性值

import time
from selenium import webdriver
 
driver = webdriver.Chrome()
 
# 控制浏览器访问url地址
driver.get("https://www.baidu.com/")
time.sleep(3)
# 点击'百度搜索',用ele变量接受获取的元素
ele = driver.find_element_by_id('su')
print(ele.get_attribute('value'))
time.sleep(6)
# 退出浏览器
driver.quit()

运行结果

四、selenium无头模式

我们知道,当我们利用 dirver.get() 获取网页时会自动打开一个网页,但是有时候我们可能不需要通过打开浏览器获取数据,于是就可以通过给driver对象设置无头模式 。

# 给driver对象设置无头模式
op = webdriver.ChromeOptions()
op.add_argument('--headless')
driver = webdriver.Chrome(options=op)

以上就是Python selenium模块的安装和配置教程的详细内容,更多关于Python selenium模块的资料请关注脚本之家其它相关文章!

相关文章

  • 详解Python 正则表达式模块

    详解Python 正则表达式模块

    这篇文章主要介绍了Python 正则表达式模块详解,分为两部分,包括基础语法总结,re模块的相关知识,需要的朋友可以参考下
    2018-11-11
  • python和Appium移动端多设备自动化测试框架实现

    python和Appium移动端多设备自动化测试框架实现

    这篇文章主要介绍了python和Appium移动端多设备自动化测试框架实现,基于pytest和Appium框架,支持Android和iOS功能自动化的测试框架的相关内容,需要的小伙伴可以参考一下
    2022-04-04
  • opencv对多种颜色小球的形状及位置判断方式

    opencv对多种颜色小球的形状及位置判断方式

    在这段时间参加了一个竞赛,写下了这个代码,但是总感觉有一些地方是不完善!这是一个关于使用opencv库判断颜色小球形状及位置的功能实现,其中也参考了一些前辈的代码,希望能对迷茫中的小伙帮有所帮助
    2022-11-11
  • Python单例模式的两种实现方法

    Python单例模式的两种实现方法

    这篇文章主要介绍了Python单例模式的相关资料,这里提供了两种实现方法,及注意事项,需要的朋友可以参考下
    2017-08-08
  • Python的字符串操作简单实例

    Python的字符串操作简单实例

    这篇文章主要介绍了Python的字符串操作简单实例,字符串有许多种操作方式,本文带来几个操作实例,快来一起看看吧
    2023-04-04
  • python实现飞机大战游戏(pygame版)

    python实现飞机大战游戏(pygame版)

    这篇文章主要为大家详细介绍了python实现pygame版的飞机大战游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • Python Tornado核心及相关原理详解

    Python Tornado核心及相关原理详解

    这篇文章主要介绍了Python Tornado核心及相关原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python实现递归遍历文件夹并删除文件

    Python实现递归遍历文件夹并删除文件

    本文给大家汇总了3个Python实现遍历文件夹并删除的代码,主要是给大家分享下这3种方法的实现思路,有需要的小伙伴可以参考下
    2016-04-04
  • Python模拟登录网易云音乐并自动签到

    Python模拟登录网易云音乐并自动签到

    时隔三周没有和大家见过面了,最近在研究python模拟登陆专题,话不多说,让我们愉快地开始实现模拟登陆实现网易云自动签到,需要的朋友可以参考下
    2021-06-06
  • 使用Python paramiko模块利用多线程实现ssh并发执行操作

    使用Python paramiko模块利用多线程实现ssh并发执行操作

    ssh是一个协议,OpenSSH是其中一个开源实现,paramiko是Python的一个库,实现了SSHv2协议(底层使用cryptography)。这篇文章主要介绍了使用Python paramiko模块利用多线程实现ssh并发执行操作,需要的朋友可以参考下
    2019-12-12

最新评论