Python采集代理ip并判断是否可用和定时更新的方法

 更新时间:2018年05月07日 11:05:16   作者:lilongsy  
今天小编就为大家分享一篇Python采集代理ip并判断是否可用和定时更新的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。

代码如下:

# -*- coding: utf-8 -*-
import re
import urllib2
import json
import os
import time
import socket

class ProxyIp(object):
  def __init__(self):
    self.path = os.path.split(os.path.realpath(__file__))[0]
  # Get latest proxy ip and download to json
  def update_ip(self):
    print 'Update Ip'
    url = 'http://www.ip3366.net/free/'
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    matches = re.findall(
      ur'(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>',
      response.read(),
      re.I
    )
    ls = []
    for match in matches:
      if self.is_open(match[0], match[1]):
        ls.append({'ip':match[0], 'port':match[1], 'protocol': match[2]})
    with open('%s/ip.json' % self.path, 'w') as f:
      json.dump(ls, f)
    return ls
  # whether the ips is last or old.
  def is_last(self):
    m_time = int(os.path.getmtime('%s/ip.json' % self.path))
    now_time = int(time.time())
    return (now_time - m_time) > 60*60*4 # 4 hours
  @staticmethod
  def is_open(ip, port):
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
      s.connect(ip, int(port))
      return True
    except:
      print 'Faild IP: %s:%s' % (ip, port)
      return False
  def get_proxy_ips(self):
    if not self.is_last():
      return self.update_ip()
    else:
      with open('%s/ip.json' % self.path, 'r') as f:
        return json.load(f)

以上这篇Python采集代理ip并判断是否可用和定时更新的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python实现rar解压和压缩的方法(附源码)

    python实现rar解压和压缩的方法(附源码)

    数据量现在越来越大,压缩文件在日常生活中很常用,这篇文章主要给大家介绍了关于python实现rar解压和压缩的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-10-10
  • Python使用os模块实现更高效地读写文件

    Python使用os模块实现更高效地读写文件

    os是python标准库,包含几百个函数常用路径操作、进程管理、环境参数等好多类。本文将使用os模块实现更高效地读写文件,感兴趣的可以学习一下
    2022-07-07
  • python常用的各种排序算法原理与实现方法小结

    python常用的各种排序算法原理与实现方法小结

    这篇文章主要介绍了python常用的各种排序算法原理与实现方法,结合实例形式总结分析了冒泡排序、插入排序、选择排序、快速排序等排序算法的相关原理与实现方法,需要的朋友可以参考下
    2023-04-04
  • python opencv通过4坐标剪裁图片

    python opencv通过4坐标剪裁图片

    图片剪裁是常用的方法,那么如何通过4坐标剪裁图片,本文就详细的来介绍一下,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • Selenium chrome配置代理Python版的方法

    Selenium chrome配置代理Python版的方法

    这篇文章主要介绍了Selenium chrome配置代理Python版的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • Python爬虫实例爬取网站搞笑段子

    Python爬虫实例爬取网站搞笑段子

    这篇文章主要介绍了Python爬虫实例爬取网站搞笑段子,具有一定参考价值,看完了代码不妨看看段子,希望大家每天开心。
    2017-11-11
  • python笔记(2)

    python笔记(2)

    python笔记,参考上一篇文章大家继续
    2012-10-10
  • Python Flask 转换器的使用详解

    Python Flask 转换器的使用详解

    这篇文章主要介绍了Python_Flask 转换器的使用,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • 点球小游戏python脚本

    点球小游戏python脚本

    这篇文章主要为大家详细介绍了点球小游戏python脚本,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Python使用pymysql小技巧

    Python使用pymysql小技巧

    pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。
    2017-06-06

最新评论