关于爬虫和反爬虫的简略方案分享

 更新时间:2018年01月14日 10:56:33   作者:ljmatlight   我要评论

这篇文章主要给大家介绍了一些关于爬虫和反爬虫的简略方案的相关资料,文中介绍的非常详细,对大家理解和学习爬虫与反爬虫具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。

前言

爬虫和反爬虫日益成为每家公司的标配系统。

爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用,所以每家公司都或多或少的需要开发一些爬虫程序,业界在这方面的成熟的方案也非常多。

有矛就有盾,每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。

像安全与黑客从来都是相辅相成一样。

爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。

抓包

抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。

常用的抓包分析工具:

  • Fiddler
  • Charles
  • Sniffer
  • Wireshark

具体使用策略,请自行百度,Google。

抓数据

使用 HttpClient 模拟请求

充分了解 HttpClient 的特性,使用方式等。

HttpClient4.5官方教程

user_agent 的使用

使用 user_agent 的伪装和轮换模拟不同的客户端。

建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。

http://www.fynas.com/ua/search?b=Chrome&k=

代理IP的使用

建立代理ip池,一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。

那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,

当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。

http代理

有些网站(包括APP、PC)具有一定的反爬虫能力,

如拒绝代理ip直接请求接口:

这是我使用代理ip请求登录接口时,某APP的响应:

CONNECT refused by proxy

而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。

socks代理

待续

设置访问频率

即便是使用了代理ip,那么对目标接口的访问也要有一定的频率控制,

防止目标服务方检测出频率过快,进行拒绝服务的响应。

Cookie 池失效和更新策略

获取目标站点Cookie有效时间,

将对应账号和Cookie存入Redis,

起一个任务对账号Cookie进行定时检测,

接近失效时间,进行提前更新Cookie信息,

具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。

防止目标方的分析

  • 确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
  • 注意访问频率
  • 其他

总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。

只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,

只不过是难易程度不同。

如果出于商业目的,要考虑付出的成本到底是否合适。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • 获取键盘键的值 集合 方便监控键盘事件

    获取键盘键的值 集合 方便监控键盘事件

    整理的比较全的键盘值的集合,以后大家在开发过程中,可以直接拿来判断。
    2009-08-08
  • IE Cookie文件格式说明

    IE Cookie文件格式说明

    前几天写了个工具 CookieAdmin 来查看 IE 的 Cookie 有人问到实现原理,就写了这篇文章 我不善于写文档或文章,所以还是代码说话吧
    2009-12-12
  • 各种语言、服务器301跳转代码全集

    各种语言、服务器301跳转代码全集

    这篇文章主要介绍了各种语言、服务器301跳转代码全集,本文讲解了IIS下301设置、ASP下的301转向代码、ASP.Net下的301转向代码、PHP下的301转向代码 、CGI Perl下的301转向代码、JSP下的301转向代码等内容,需要的朋友可以参考下
    2015-04-04
  • RPC、RMI、SOAP的区别详解

    RPC、RMI、SOAP的区别详解

    这篇文章主要介绍了RPC、RMI、SOAP的区别详解,本文还同时讲解了RPC、SOAP、WSDL的关系,需要的朋友可以参考下
    2015-07-07
  • 微信 小程序前端源码详解及实例分析

    微信 小程序前端源码详解及实例分析

    这篇文章主要介绍了微信 小程序前端源码详解及实例分析的相关资料,需要的朋友可以参考下
    2016-09-09
  • 10个调试和排错的小建议

    10个调试和排错的小建议

    几乎没有哪个程序员能够写出一个bug都没有的代码,但是解决方法总是比困难多得多。多实践和坚毅的决心是成功的关键,这样才能够写出清洁代码,保证软件系统的可靠性
    2014-03-03
  • 戏说编码发展史

    戏说编码发展史

    本文从一个风趣的角度详细介绍了计算机编码的发展历史,十分的有趣,小伙伴们仔细研读下吧,了解下相关知识也是非常有必要的。
    2015-01-01
  • GBK字符编码(字符集)缺陷导致web安全漏洞

    GBK字符编码(字符集)缺陷导致web安全漏洞

    很多时候,一个web站点,选择什么样的字符编码,我们不会太过在意的。象中文网站,我们一般用gb2312,gbk,gb18030,也可以用utf-8。但是,可能我们不知道,选择不同编码,可能因此导致程序本身设计缺陷
    2016-06-06
  • IE 打开服务器下的MHT文件的实现方法

    IE 打开服务器下的MHT文件的实现方法

    在和同学做毕业设计的时候,要能够提供PPT课件的在线播放.要做到这一点并不难,只需将PPT课件转换为网页文件htm或mht文件即可。首先解释下mht文件。
    2009-04-04
  • 比较经典技术普及帖 以你刚才在淘宝上买了一件东西

    比较经典技术普及帖 以你刚才在淘宝上买了一件东西

    你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了taobao。这时你的浏览器首先查询DNS服务器,将taobao转换成ip地址
    2012-06-06

最新评论