python爬取免费代理并验证代理是否可用

 更新时间:2022年01月06日 16:10:52   作者:小军递  
这篇文章主要介绍了python爬取免费代理并验证是否可用,通过本文给大家介绍了在什么情况下会用到代理并分享脚本的完整代码,需要的朋友可以参考下

分享一个python脚本,使用代理ip来访问网页,方便抓取数据什么的~并自动验证ip是否可以用

什么情况下会用到代理IP?比如你要抓取一个网站数据,该网站有100万条内容,他们做了IP限制,每个IP每小时只能抓1000条,如果单个IP去抓因为受限,需要40天左右才能采集完,如果用了代理IP,不停的切换IP,就可以突破每小时1000条的频率限制,从而提高效率。

脚本开始:

import requests
from lxml import etree
# 获取快代理首页的代理
def get_proxy_list():
    url = "https://www.jxmtjt.com/"
    payload = {}
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
        'Accept': 'application/json, text/javascript, */*; q=0.01',
    }
    response = requests.request("GET", url, headers=headers, data=payload)
    res = []
    _ = etree.HTML(response.text)
    type_dct = {
        "HTTP": "http://",
        "HTTPS": "https://"
    }
    data_list = _.xpath("//tbody/tr")
    for data in data_list:
        ip = data.xpath("./td[1]/text()")[0]
        port = data.xpath("./td[2]/text()")[0]
        type = data.xpath("./td[4]/text()")[0]
        res.append(type_dct[type] + ip + ':' + port)
    return res
# 测试代理
def check(proxy):
    href = 'http://www.baidu.com/'
    if 'https' in proxy:
        proxies = {'https': proxy}
    else:
        proxies = {'http': proxy}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
    }
    try:
        r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
        if r.status_code == 200:
            return True
    except:
        return False
if __name__ == '__main__':
    proxy_list = get_proxy_list()
    print(proxy_list)
    for p in proxy_list:
        print(p, check(p))
大家代码复制后,把获取代理ip的网址改一改就可以用了,代码我一直在用,大家也可以cnblogs,百度搜索一下有没有免费的代理ip获取网址~

到此这篇关于python爬取免费代理并验证是否可用的文章就介绍到这了,更多相关python爬取免费代理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python用scipy生成特殊矩阵

    Python用scipy生成特殊矩阵

    本文主要介绍了Pytho用scipy生成特殊矩阵详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们可以参考一下
    2023-04-04
  • PyTorch使用CNN实现图像分类

    PyTorch使用CNN实现图像分类

    图像分类是计算机视觉领域的一项基本任务,也是深度学习技术的一个常见应用,近年来,卷积神经网络(cnn)和PyTorch库的结合由于其易用性和鲁棒性已经成为执行图像分类的流行选择,所以本文给大家介绍了PyTorch使用CNN实现图像分类的示例,需要的朋友可以参考下
    2025-03-03
  • Python通过Manager方式实现多个无关联进程共享数据的实现

    Python通过Manager方式实现多个无关联进程共享数据的实现

    这篇文章主要介绍了Python通过Manager方式实现多个无关联进程共享数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • python语音信号处理详细教程

    python语音信号处理详细教程

    在深度学习中,语音的输入都是需要处理的,下面这篇文章主要给大家介绍了关于python语音信号处理的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-01-01
  • Python将PDF转换为HTML的实现方法

    Python将PDF转换为HTML的实现方法

    PDF文件是共享和分发文档的常用选择,但提取和再利用PDF文件中的内容可能会非常麻烦,本文重点介绍如何在Python程序中将PDF转换为HTML,文中有详细的代码示例,需要的朋友可以参考下
    2024-03-03
  • Python设计模式之备忘录模式原理与用法详解

    Python设计模式之备忘录模式原理与用法详解

    这篇文章主要介绍了Python设计模式之备忘录模式原理与用法,结合实例形式详细分析了备忘录模式的相关概念、原理及Python相关实现技巧,需要的朋友可以参考下
    2019-01-01
  • python如何将两个数据表中的对应数据相加

    python如何将两个数据表中的对应数据相加

    这篇文章主要介绍了python如何将两个数据表中的对应数据相加问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • 计算python脚本执行时间的多种方法

    计算python脚本执行时间的多种方法

    在编写Python脚本时,了解脚本的执行时间通常是很有用的,特别是在优化代码或评估性能时,Python提供了多种方法来测量脚本的执行时间,从内置模块到第三方库,可以选择适合你需求的方式,本文将介绍计算 Python 脚本执行时间的多种方法,需要的朋友可以参考下
    2023-11-11
  • Django框架静态文件使用/中间件/禁用ip功能实例详解

    Django框架静态文件使用/中间件/禁用ip功能实例详解

    这篇文章主要介绍了Django框架静态文件使用/中间件/禁用ip功能,结合实例形式详细分析了Django框架静态文件的使用、中间件的原理、操作方法以及禁用ip功能相关实现技巧,需要的朋友可以参考下
    2019-07-07
  • python logging日志模块的详解

    python logging日志模块的详解

    这篇文章主要介绍了python logging日志模块的详解的相关资料,希望通过本文能帮助到大家,让大家理解掌握这部分内容,需要的朋友可以参考下
    2017-10-10

最新评论