Python实现采集网站ip代理并检测是否可用

更新时间：2022年01月23日 10:03:04 作者：松鼠爱吃饼干

这篇文章主要介绍了如何利用Python爬虫实现采集网站ip代理，并检测IP代理是否可用。文中的示例代码讲解详细，感兴趣的可以试一试

开发环境

Python 3.8

Pycharm

模块使用

requests >>> pip install requests

parsel >>> pip install parsel

代理ip结构

proxies_dict = {
    "http": "http://" + ip:端口,
    "https": "http://" + ip:端口,
}

代码实现步骤

1. 导入模块

# 导入数据请求模块
import requests  # 数据请求模块 第三方模块 pip install requests
# 导入 正则表达式模块
import re  # 内置模块
# 导入数据解析模块
import parsel  # 数据解析模块 第三方模块 pip install parsel  >>> 这个是scrapy框架核心组件

2. 发送请求

对于目标网址发送请求 https://www.kuaidaili.com/free/

url = f'https://www.kuaidaili.com/free/inha/{page}/'  # 确定请求url地址
# 用requests模块里面get 方法 对于url地址发送请求, 最后用response变量接收返回数据
response = requests.get(url)

3. 获取数据

获取服务器返回响应数据(网页源代码)

print(response.text)

4. 解析数据

提取我们想要的数据内容

解析数据方式方法：

正则: 可以直接提取字符串数据内容
xpath: 根据标签节点提取数据内容
css选择器: 根据标签属性提取数据内容

哪一种方面用那种, 那是喜欢用那种

正则表达式提取数据内容

正则提取数据 re.findall() 调用模块里面的方法

正则遇事不决 .*? 可以匹配任意字符(除了换行符\n以外) re.S

ip_list = re.findall('<td data-title="IP">(.*?)</td>', response.text, re.S)
port_list = re.findall('<td data-title="PORT">(.*?)</td>', response.text, re.S)
print(ip_list)
print(port_list)

css选择器

css选择器提取数据需要把获取下来html字符串数据(response.text) 进行转换

# #list > table > tbody > tr > td:nth-child(1)
# //*[@id="list"]/table/tbody/tr/td[1]
selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.css('#list tbody tr td:nth-child(1)::text').getall()
port_list = selector.css('#list tbody tr td:nth-child(2)::text').getall()
print(ip_list)
print(port_list)

xpath 提取数据

selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()').getall()
port_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()').getall()

提取ip

for ip, port in zip(ip_list, port_list):
    # print(ip, port)
    proxy = ip + ':' + port
    proxies_dict = {
        "http": "http://" + proxy,
        "https": "http://" + proxy,
    }
    print(proxies_dict)

5. 检测ip质量

try:
    response = requests.get(url=url, proxies=proxies_dict, timeout=1)
    if response.status_code == 200:
        print('当前代理IP: ', proxies_dict,  '可以使用')
        lis_1.append(proxies_dict)
except:
    print('当前代理IP: ', proxies_dict,  '请求超时, 检测不合格')


print('获取的代理IP数量: ', len(lis))
print('获取可用的IP代理数量: ', len(lis_1))
print('获取可用的IP代理: ', lis_1)

总共爬取了150个，最后测试出只有一个是能用的，所以还是付费的好

到此这篇关于Python实现采集网站ip代理并检测是否可用的文章就介绍到这了,更多相关Python采集网站ip代理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python Pandas对缺失值的处理方法
这篇文章主要给大家介绍了关于Python Pandas对缺失值的处理方法，文中通过示例代码介绍的非常详细，对大家学习或者使用Python Pandas具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-09-09
利用Python爬虫给孩子起个好名字
每个人一生中都会遇到一件事情，在事情出现之前不会关心，但是事情一旦来临就发现它极其重要，并且需要在很短的时间内做出重大决定，那就是给自己的新生宝宝起个名字。下面这篇文章主要介绍了如何利用Python爬虫给孩子起个好名字，需要的朋友可以参考下。
2017-02-02
Python实现五子棋联机对战小游戏
本文主要介绍了通过Python实现简单的支持联机对战的游戏——支持局域网联机对战的五子棋小游戏。废话不多说，快来跟随小编一起学习吧
2021-12-12
python游戏实战项目之智能五子棋
下五子棋吗？信不信我让你几步你也赢不了？本篇为你带来用python编写的五子棋小游戏，文中给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值
2021-09-09
Python实现的插入排序，冒泡排序，快速排序，选择排序算法示例
这篇文章主要介绍了Python实现的插入排序，冒泡排序，快速排序，选择排序算法,结合实例形式总结分析了Python插入排序，冒泡排序，快速排序，选择排序等算法的实现与使用技巧,需要的朋友可以参考下
2019-05-05
python中的np.round()函数示例详解
np.round()是NumPy库中的一个函数,用于对数组或单个数值进行四舍五入,该函数返回一个与输入类型相同的数组或数值,并可以通过可选的参数来指定保留的小数位数,这篇文章主要介绍了python中的np.round()函数,需要的朋友可以参考下
2024-06-06
Python3 利用face_recognition实现人脸识别的方法
这篇文章主要介绍了Python3 利用face_recognition实现人脸识别的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-03-03
Python read函数按字节(字符)读取文件的实现
这篇文章主要介绍了Python read函数按字节(字符)读取文件的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
在python中实现求输出1-3+5-7+9-......101的和
这篇文章主要介绍了在python中实现求输出1-3+5-7+9-......101的和，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
python 生成器需注意的小问题
这篇文章主要介绍了python 生成器需注意的小问题，帮助大家更好的理解和学习python 生成器，感兴趣的朋友可以了解下
2020-09-09