python 常见的反爬虫策略

 更新时间:2020年09月27日 16:01:57   作者:松鼠爱吃饼干  
这篇文章主要介绍了python反爬虫策略,帮助大家更好的理解和使用python 爬虫,感兴趣的朋友可以了解下

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理
referer 请求来自哪里
cookie 也可以用来做访问凭证
解决办法:请求头里面添加对应的参数(复制浏览器里面的数据)

2、根据用户行为来进行反爬

请求频率过高,服务器设置规定时间之内的请求阈值
解决办法:降低请求频率或者使用代理(IP代理)
网页中设置一些陷阱(正常用户访问不到但是爬虫可以访问到)
解决办法:分析网页,避开这些特殊陷阱
请求间隔太短,返回相同的数据
解决办法:增加请求间隔

3、js加密

反爬方式中较为难处理的一类。
js加密的原理:服务器响应给浏览器的js文件,可以动态的生成一些加密参数,浏览器会根据js的计算 得到这些参数,在请求中带入进来,如果请求中没有这些参数,那么服务器就任务请求无效。

4、字体加密

字体反爬,是一种常见的反爬技术,网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符。采用自定义字体文件是CSS3的新特性,熟悉前端的同学可能知道,就是font-face属性。

5、登录验证码

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站,不同网站的使用的验证码也不同,在最开始使用简单验证码,识别数字,但是随着反爬的不断发展,慢慢设计出了更多复杂的验证码,比如:内容验证码、滑动验证码、图片拼接验证码等等。
网上有很多打码平台,通过注册账号,调用平台接口,进行验证码的验证。

6、md5相关知识

MD5,消息摘要算法,一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5是最常见的摘要算法,速度很快,生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示。MD5的特点:
1.不可逆:不能从密文推导出明文。
2.不管明文长度为多少,密文的长度都固定。
3.密文之间不会重复。

import hashlib
print(hashlib.md5('python'.encode()).hexdigest())

字符串python加密后的结果:

23eeeb4347bdd26bfc6b7ee9a3b755dd

7、base64

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性,需要解码后才能阅读。

import base64

#python中base64的加密
print(base64.b64encode('python'.encode()).decode())
#python中base64的解密
print(base64.b64decode('Y2hpbmE='.encode()).decode())

结果:

cHl0aG9u
china

二、验证码验证

自己动手看验证码(古诗词网)

import requests

url = "gushiwen.org"

session = requests.Session()

text = session.get(url).text

# 解析响应,找到验证码的图片地址,
# 下载验证码图片,保存
with open('code.jpg', 'wb')as f:
  f.write('验证码的url地址'.encode())

code = input('验证码是: ')

login_url = "login.com"

data = {
  "username": 'xx',
  "password": 'xx',
  "code": code
}
requests.post(url, data=data)

使用打码平台(图鉴)

新建一个captcha_api.py

import json
import requests
import base64
from io import BytesIO
from PIL import Image
from sys import version_info


def base64_api(uname, pwd, img):
  img = img.convert('RGB')
  buffered = BytesIO()
  img.save(buffered, format="JPEG")
  if version_info.major >= 3:
    b64 = str(base64.b64encode(buffered.getvalue()), encoding='utf-8')
  else:
    b64 = str(base64.b64encode(buffered.getvalue()))
  data = {"username": uname, "password": pwd, "image": b64}
  result = json.loads(requests.post("http://api.ttshitu.com/base64", json=data).text)
  if result['success']:
    return result["data"]["result"]
  else:
    return result["message"]
  return ""


def request_captcha(uname, pwd, img_path):
  img_path = img_path # 待验证的验证码路径
  img = Image.open(img_path)
  result = base64_api(uname, pwd, img)
  # 传入账号 密码 和图片
  print(result)

新建use_code.py,调用接口

img_path = '图片路径'

from captcha_api import request_captcha

ret = request_captcha("账号", "密码", img_path)

以上就是python 常见的反爬虫策略的详细内容,更多关于python反爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • python中urllib.request和requests的使用及区别详解

    python中urllib.request和requests的使用及区别详解

    这篇文章主要介绍了python中urllib.request和requests的使用及区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python CSV文件模块的使用案例分析

    Python CSV文件模块的使用案例分析

    这篇文章主要介绍了Python CSV文件模块的使用,结合具体案例形式分析了Python使用csv模块操作csv文件的相关使用技巧与相关注意事项,需要的朋友可以参考下
    2019-12-12
  • Python爬虫实例——scrapy框架爬取拉勾网招聘信息

    Python爬虫实例——scrapy框架爬取拉勾网招聘信息

    这篇文章主要介绍了Python爬虫实例——scrapy框架爬取拉勾网招聘信息的相关资料,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • 详解python itertools功能

    详解python itertools功能

    itertools是python内置的模块,使用简单且功能强大,这里尝试汇总整理下,并提供简单应用示例,这篇文章主要介绍了python itertools功能,需要的朋友可以参考下
    2020-02-02
  • Python开发之基于模板匹配的信用卡数字识别功能

    Python开发之基于模板匹配的信用卡数字识别功能

    这篇文章主要介绍了基于模板匹配的信用卡数字识别功能,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python3的介绍、安装和命令行的认识(推荐)

    Python3的介绍、安装和命令行的认识(推荐)

    Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。这篇文章主要介绍了Python3的介绍、安装和命令行的认识,需要的朋友可以参考下
    2018-10-10
  • MAC下Anaconda+Pyspark安装配置详细步骤

    MAC下Anaconda+Pyspark安装配置详细步骤

    一般MAC上使用的是zsh的shell工具,需要修改zshrc文件来使环境变量永久生效(若不修改该文件,在命令行中输入相应的命令即可,本文给大家介绍MAC下Anaconda+Pyspark安装配置详细步骤,感兴趣的朋友跟随小编一起看看吧
    2021-12-12
  • Python threading模块condition原理及运行流程详解

    Python threading模块condition原理及运行流程详解

    这篇文章主要介绍了Python threading模块condition原理及运行流程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • python字符串string的内置方法实例详解

    python字符串string的内置方法实例详解

    这篇文章主要介绍了python字符串string的内置方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2018-05-05
  • Python实现微博动态图片爬取详解

    Python实现微博动态图片爬取详解

    这篇文章主要为大家介绍了如何利用Python中的爬虫实现微博动态图片的爬取,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手试一试
    2022-03-03

最新评论