selenium+python设置爬虫代理IP的方法

 更新时间:2018年11月29日 11:04:25   作者:Kosmoo  
这篇文章主要介绍了selenium+python设置爬虫代理IP的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

1. 背景

在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:

第一,提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。

第二,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)

# 查看本机ip,查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)

# 退出,清除浏览器缓存
browser.quit()

注意事项:

第一,代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。

第二,代理IP的速度。因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。

第三,电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。

第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

参考文章:

Selenium chrome配置代理Python版:https://www.jb51.net/article/151634.htm

GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python实现文本文件拆分写入到多个文本文件的方法

    Python实现文本文件拆分写入到多个文本文件的方法

    这篇文章主要介绍了Python实现文本文件拆分写入到多个文本文件的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Python如何处理JSON数据详解

    Python如何处理JSON数据详解

    读取json数据实际上是把json格式变成python中字典、列表等格式化的数据,极大地方便索引查找,下面这篇文章主要给大家介绍了关于Python如何处理JSON数据的相关资料,需要的朋友可以参考下
    2022-10-10
  • Python实现将xml导入至excel

    Python实现将xml导入至excel

    本文给大家讲解的是使用Python的Testlink实现将实现将xml导入至excel表格中,方法非常的简单,另外附上其他小伙伴的方法,有需要的童鞋们可以参考下。
    2015-11-11
  • python数据分析之单因素分析线性拟合及地理编码

    python数据分析之单因素分析线性拟合及地理编码

    这篇文章主要介绍了python数据分析之单因素分析线性拟合及地理编码,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • Python打印酷炫日志的方法详解

    Python打印酷炫日志的方法详解

    在Python中,日志是一种非常重要的工具,可以帮助我们更好地了解程序的运行情况,本文将介绍如何使用logging模块来打印炫酷的日志,需要的可以参考一下
    2023-06-06
  • python+matplotlib绘制饼图散点图实例代码

    python+matplotlib绘制饼图散点图实例代码

    这篇文章主要介绍了python+matplotlib绘制饼图散点图实例代码,本实例是官网的一个实例,不过也很简单,大家可以参考下
    2018-01-01
  • python中关于decimal使用出现的一些问题

    python中关于decimal使用出现的一些问题

    这篇文章主要介绍了python中关于decimal使用出现的一些问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • Python截图并保存的具体实例

    Python截图并保存的具体实例

    在本篇文章里小编给大家分享了一篇关于Python截图并保存的具体实例,对此有兴趣的朋友们可以参考下。
    2021-01-01
  • 使用Python设置、更改及移除Word文档密码

    使用Python设置、更改及移除Word文档密码

    给Word文档设置打开密码是常见的Word文档加密方式,如果我们需要对大量的Word文档进行加密、解密处理,Python是一个不错的选择,本文将介绍如何使用Python设置、更改或移除Word文档的加密,需要的朋友可以参考下
    2024-03-03
  • 人工智能深度学习OpenAI baselines的使用方法

    人工智能深度学习OpenAI baselines的使用方法

    这篇文章主要为大家介绍了人工智能深度学习OpenAI baselines的使用方法,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05

最新评论