Python爬虫抓取代理IP并检验可用性的实例

 更新时间:2018年05月07日 10:59:43   作者:lukaishilong  
今天小编就为大家分享一篇Python爬虫抓取代理IP并检验可用性的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!!

至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太频繁了,所以被封IP了。

但是,还是可以去IP巴士试试的,条条大路通罗马嘛,不能吊死在一棵树上。

不废话,上代码。

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
 'Accept-Encoding':'en-us',
 'Connection':'keep-alive',
 'Referer':'http://www.baidu.com/'
 }
req_timeout = 5
testUrl = "http://www.baidu.com/"
testStr = "wahaha"
file1 = open('proxy.txt' , 'w')
# url = ""
# req = urllib2.Request(url,None,req_header)
# jsondatas = urllib2.urlopen(req,None,req_timeout).read()
cookies = urllib2.HTTPCookieProcessor()
checked_num = 0
grasp_num = 0
for page in range(1, 160):
 req = urllib2.Request('http://www.xici.net.co/nn/' + str(page), None, req_header)
 html_doc = urllib2.urlopen(req, None, req_timeout).read()
 # html_doc = urllib2.urlopen('http://www.xici.net.co/nn/' + str(page)).read()
 soup = BeautifulSoup(html_doc)
 trs = soup.find('table', id='ip_list').find_all('tr')
 for tr in trs[1:]:
  tds = tr.find_all('td')
  ip = tds[1].text.strip()
  port = tds[2].text.strip()
  protocol = tds[5].text.strip()
  if protocol == 'HTTP' or protocol == 'HTTPS':
   #of.write('%s=%s:%s\n' % (protocol, ip, port))
   print '%s=%s:%s' % (protocol, ip, port)
   grasp_num +=1
   proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' % (ip, port)})
   opener = urllib2.build_opener(cookies, proxyHandler)
   opener.addheaders = [('User-Agent',
         'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
   t1 = time.time()
   try:
    req = opener.open(testUrl, timeout=req_timeout)
    result = req.read()
    timeused = time.time() - t1
    pos = result.find(testStr)
    if pos > 1:
     file1.write(protocol+"\t"+ip+"\t"+port+"\n")
     checked_num+=1
     print checked_num, grasp_num
    else:
     continue
   except Exception,e:
    continue
file1.close()
print checked_num,grasp_num

个人感觉代码里没有太复杂的,就没有加注释,相信大家基本可以理解,如有问题也请多批评指正,共同进步!

以上这篇Python爬虫抓取代理IP并检验可用性的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python模拟预测一下新型冠状病毒肺炎的数据

    python模拟预测一下新型冠状病毒肺炎的数据

    这篇文章主要介绍了python模拟预测一下新型冠状病毒肺炎的数据 ,需要的朋友可以参考下
    2020-02-02
  • python 队列基本定义与使用方法【初始化、赋值、判断等】

    python 队列基本定义与使用方法【初始化、赋值、判断等】

    这篇文章主要介绍了python 队列基本定义与使用方法,结合实例形式分析了Python队列的定义、初始化、赋值、判断等相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • python类装饰器用法实例

    python类装饰器用法实例

    这篇文章主要介绍了python类装饰器用法,实例分析了Python类装饰器的相关使用方法,需要的朋友可以参考下
    2015-06-06
  • python geemap的安装步骤及环境配置

    python geemap的安装步骤及环境配置

    geemap是基于GEE由吴秋生老师二次开发的一个包,geemap主要使用python来进行实现相关功能,这篇文章主要介绍了geemap的详细安装步骤及环境配置,需要的朋友可以参考下
    2022-08-08
  • 基于Python实现绘制属于你的世界地图

    基于Python实现绘制属于你的世界地图

    Python之所以这么流行,是因为它不仅能够应用于科技领域,还能用来做许多其他学科的研究工具,绘制地图便是其功能之一。本文我们将用matplot工具包之一的  mpl_toolkits  来绘制世界地图,需要的可以参考一下
    2022-11-11
  • python opencv实现旋转矩形框裁减功能

    python opencv实现旋转矩形框裁减功能

    这篇文章主要为大家详细介绍了python opencv实现旋转矩形框裁减功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Django处理Ajax发送的Get请求代码详解

    Django处理Ajax发送的Get请求代码详解

    在本篇文章里小编给大家整理了关于Django处理Ajax发送的Get请求代码知识点,有需要的朋友们参考学习下。
    2019-07-07
  • python使用jenkins发送企业微信通知的实现

    python使用jenkins发送企业微信通知的实现

    公司使用的是企业微信,因此考虑Jenkins通知企业微信机器人的实现方式,本文主要介绍了python使用jenkins发送企业微信通知的实现,感兴趣的可以了解一下
    2021-06-06
  • Python实现选择排序

    Python实现选择排序

    选择法也算是入门的一种排序算法,比起冒泡法,它的方法巧妙了一些,它的出发点在于“挑”,每次挑选数组的最值,与前置元素换位,然后继续挑选剩余元素的最值并重复操作。个人认为选择排序的意义不在于排序本身,而在于挑选和置换的方法,对于一些问题很有帮助。
    2017-06-06
  • Python实现针对json中某个关键字段进行排序操作示例

    Python实现针对json中某个关键字段进行排序操作示例

    这篇文章主要介绍了Python实现针对json中某个关键字段进行排序操作,涉及Python json数组排序及lambda表达式相关操作技巧,需要的朋友可以参考下
    2018-12-12

最新评论