关于爬虫和反爬虫的简略方案分享

 更新时间:2018年01月14日 10:56:33   作者:ljmatlight  
这篇文章主要给大家介绍了一些关于爬虫和反爬虫的简略方案的相关资料,文中介绍的非常详细,对大家理解和学习爬虫与反爬虫具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。

前言

爬虫和反爬虫日益成为每家公司的标配系统。

爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用,所以每家公司都或多或少的需要开发一些爬虫程序,业界在这方面的成熟的方案也非常多。

有矛就有盾,每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。

像安全与黑客从来都是相辅相成一样。

爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。

抓包

抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。

常用的抓包分析工具:

  • Fiddler
  • Charles
  • Sniffer
  • Wireshark

具体使用策略,请自行百度,Google。

抓数据

使用 HttpClient 模拟请求

充分了解 HttpClient 的特性,使用方式等。

HttpClient4.5官方教程

user_agent 的使用

使用 user_agent 的伪装和轮换模拟不同的客户端。

建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。

http://www.fynas.com/ua/search?b=Chrome&k=

代理IP的使用

建立代理ip池,一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。

那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,

当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。

http代理

有些网站(包括APP、PC)具有一定的反爬虫能力,

如拒绝代理ip直接请求接口:

这是我使用代理ip请求登录接口时,某APP的响应:

CONNECT refused by proxy

而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。

socks代理

待续

设置访问频率

即便是使用了代理ip,那么对目标接口的访问也要有一定的频率控制,

防止目标服务方检测出频率过快,进行拒绝服务的响应。

Cookie 池失效和更新策略

获取目标站点Cookie有效时间,

将对应账号和Cookie存入Redis,

起一个任务对账号Cookie进行定时检测,

接近失效时间,进行提前更新Cookie信息,

具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。

防止目标方的分析

  • 确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
  • 注意访问频率
  • 其他

总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。

只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,

只不过是难易程度不同。

如果出于商业目的,要考虑付出的成本到底是否合适。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • 微信支付--签名错误问题的解决方法

    微信支付--签名错误问题的解决方法

    这篇文章主要介绍了微信支付--签名错误问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-07-07
  • ABAP ALV最常规写法及常用功能详解

    ABAP ALV最常规写法及常用功能详解

    这篇文章主要为大家介绍了ABAP ALV最常规写法及常用功能详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-09-09
  • 使用MobaXterm连接到远程服务器的图文教程

    使用MobaXterm连接到远程服务器的图文教程

    这篇文章主要为大家详细为大家介绍了如何使用MobaXterm连接到远程服务器,文中通过图文进行了详细的讲解,有需要的小伙伴可以参考一下
    2023-09-09
  • Elasticsearches通过坐标位置实现对附近人的搜索

    Elasticsearches通过坐标位置实现对附近人的搜索

    这篇文章主要为大家介绍了Elasticsearches使用坐标位置实现对附近人的搜索,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-04-04
  • 整理的比较全的一句话后门代码(方面大家查找后门)

    整理的比较全的一句话后门代码(方面大家查找后门)

    整理的比较全的一句话后门代码(方面大家查找后门),很多情况下也会有一些特殊字符的表示,原理一样。
    2010-09-09
  • 用asp与php实现百度ping服务的代码

    用asp与php实现百度ping服务的代码

    分别用asp与php实现百度ping服务的代码,需要的朋友可以参考下
    2012-02-02
  • 嘁,都2020了,你咋还在单纯的使用if-else

    嘁,都2020了,你咋还在单纯的使用if-else

    我们在写程序时,常常需要指明两条或者更多的执行路径,使得程序执行时,能够选择其中一条路径,去执行相应的语句,产生对应的结果 —— 这也是条件语句在程序中的作用。下面通过例子给大家介绍下if-else的使用,感兴趣的朋友一起看看吧
    2020-10-10
  • WebStorm安装配置教程

    WebStorm安装配置教程

    WebStorm 是jetbrains公司旗下一款JavaScript开发工具,这篇文章主要为大家详细介绍了WebStorm安装教程,文中安装步骤非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-11-11
  • VS2019提示scanf不安全问题的解决

    VS2019提示scanf不安全问题的解决

    这篇文章主要介绍了VS2019提示scanf不安全问题的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • 详解BurpSuite安装和配置

    详解BurpSuite安装和配置

    burpsuite是一款用于测试Web安全性的电脑网络安全测试软件,全称为burp suite professional2020,主要是为信息安全从业人员们提供的,本文给大家介绍BurpSuite安装和配置教程,感兴趣的朋友一起看看吧
    2021-09-09

最新评论