python爬虫解决验证码的思路及示例

 更新时间:2019年08月01日 09:48:31   作者:xiaozhanger  
这篇文章主要介绍了python爬虫解决验证码的思路及示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Anaconda和Pycharm的安装配置教程分享

    Anaconda和Pycharm的安装配置教程分享

    这篇文章主要介绍了Anaconda和Pycharm的安装配置教程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • python获取当前时间对应unix时间戳的方法

    python获取当前时间对应unix时间戳的方法

    这篇文章主要介绍了python获取当前时间对应unix时间戳的方法,涉及Python时间操作的相关技巧,非常简单实用,需要的朋友可以参考下
    2015-05-05
  • Django实现CAS+OAuth2的方法示例

    Django实现CAS+OAuth2的方法示例

    这篇文章主要介绍了Django实现CAS+OAuth2的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • Python使用matplotlib绘制多个图形单独显示的方法示例

    Python使用matplotlib绘制多个图形单独显示的方法示例

    这篇文章主要介绍了Python使用matplotlib绘制多个图形单独显示的方法,结合实例形式分析了matplotlib实现绘制多个图形单独显示的具体操作技巧与注意事项,代码备有较为详尽的注释便于理解,需要的朋友可以参考下
    2018-03-03
  • Flask项目中实现短信验证码和邮箱验证码功能

    Flask项目中实现短信验证码和邮箱验证码功能

    这篇文章主要介绍了Flask项目中实现短信验证码和邮箱验证码功能,需本文通过截图实例代码的形式给大家介绍的非常详细,需要的朋友可以参考下
    2019-12-12
  • python和mysql交互操作实例详解【基于pymysql库】

    python和mysql交互操作实例详解【基于pymysql库】

    这篇文章主要介绍了python和mysql交互操作,结合实例形式详细分析了Python基于pymysql库实现mysql数据库的连接、增删改查等各种常见操作技巧,需要的朋友可以参考下
    2019-06-06
  • python基础之while循环、for循环详解及举例

    python基础之while循环、for循环详解及举例

    所谓循环结构就是程序中控制某条或某些指令重复执行的结构,下面这篇文章主要给大家介绍了关于python基础之while循环、for循环的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • Django 实现购物车功能的示例代码

    Django 实现购物车功能的示例代码

    这篇文章主要介绍了Django 实现购物车功能的示例代码,实现了删除产品和显示购物车的一系列购物车的实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-10-10
  • 详解python配置虚拟环境

    详解python配置虚拟环境

    这篇文章主要介绍了python配置虚拟环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • Python的几种主动结束程序方式

    Python的几种主动结束程序方式

    这篇文章主要介绍了Python的几种主动结束程序方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11

最新评论