python爬虫的一个常见简单js反爬详解

 更新时间:2019年07月09日 09:46:52   作者:dragon-brother  
这篇文章主要介绍了python爬虫的一个常见简单js反爬详解我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,需要的朋友可以参考下

前言

我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,这个我已经在多个网站上见到过了。

我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,今天说的是第二种情况。

目标网站

列表页url:  http://www.hnrexian.com/archives/category/jk

正常网站我们请求url会返回给我们网页数据内容等,看看这个网站返回给我们的是什么呢?

我们把相应中返回的js代码格式化一下,方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
  var val = "";
  for (var i = 0; i < str.length; i++) {
    if (val == "") val = str.charCodeAt(i).toString(16);
    else val += str.charCodeAt(i).toString(16);
  }
  return val;
}
function YunSuoAutoJump() {
  var width = screen.width;
  var height = screen.height;
  var screendate = width + "," + height;
  var curlocation = window.location.href;
  if ( - 1 == curlocation.indexOf("security_verify_")) {
    document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
  }
  self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
 <script>setTimeout("YunSuoAutoJump()", 50);</script > 

说好的返回网页数据源码呢,这是什么东西!

js破解思路

js破解提供两种思路,一种是直接用Python来重写js内容,实现模拟js的操作,这种一般用于比较简单的js;还有一种是用Python第三方库来解析js,比如pyv8,execjs这些(个人觉得execjs比较好用),这种一般用于比较复杂的js解析。

分析返回的js分成两个部分。第一部分,定义了stringToHex和YunSuoAutoJump两个函数。第二部分,50毫秒后执行YunSuoAutoJump这个函数。

YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url,可以从document.cookie 和 self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换,具体js内容可以参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。

python重写代码

那么接下来就是用python来重写js啦,重写后代码如下。

def stringToHex(string):
  length = len(string)
  hex_string = str()
  for i in xrange(length):
    hex_string += hex(ord(string[i]))[2:]
  return hex_string

def get_cookie(url):
  hex_string = stringToHex(url)
  cookie = {"srcurl": hex_string, "path": "/"}
  return cookie

这是那两个函数,一个用于字符串转换,一个用于获取cookie。

最后拿到结果

接下来模拟浏览器操作,其中是分为三部分。第一次,我们请求目标url,然后返回给我们js内容;第二次,js添加1个cookie并请求了1个构造出的url;第三次请求原目标url,得到最终的数据。

这里我们用requests.Session来保持连接,模拟上面三部的内容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到这里我们就完美得到最后想要的内容了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python opencv 实现读取、显示、写入图像的方法

    python opencv 实现读取、显示、写入图像的方法

    这篇文章主要介绍了python opencv 实现读取、显示、写入图像的方法,本文通示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • pandas DataFrame行或列的删除方法的实现示例

    pandas DataFrame行或列的删除方法的实现示例

    这篇文章主要介绍了pandas DataFrame行或列的删除方法的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python入门教程之变量与数据类型

    Python入门教程之变量与数据类型

    这篇文章主要介绍了Python入门教程之变量与数据类型的相关知识,文中给大家提到了变量的基本概念和数据类型的相关实例代码,需要的朋友可以参考下
    2022-02-02
  • Python configparser模块应用过程解析

    Python configparser模块应用过程解析

    这篇文章主要介绍了Python configparser模块应用过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • python发送伪造的arp请求

    python发送伪造的arp请求

    本文介绍了python发送伪造的arp请求的示例代码,大家参考使用吧
    2014-01-01
  • Python安装及建立虚拟环境的完整步骤

    Python安装及建立虚拟环境的完整步骤

    在使用 Python 开发时,建议在开发环境和生产环境下都使用虚拟环境来管理项目的依赖,下面这篇文章主要给大家介绍了关于Python安装及建立虚拟环境的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Python脚本实现自动删除C盘临时文件夹

    Python脚本实现自动删除C盘临时文件夹

    在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧
    2025-01-01
  • Python pandas读取CSV文件的注意事项(适合新手)

    Python pandas读取CSV文件的注意事项(适合新手)

    这篇文章主要给大家介绍了关于Python pandas读取CSV文件的注意事项,非常适合新手,csv是我接触的比较早的一种文件,比较好的是这种文件既能够以电子表格的形式查看又能够以文本的形式查看,需要的朋友可以参考下
    2021-06-06
  • 如何利用Python实现简单C++程序范围分析

    如何利用Python实现简单C++程序范围分析

    这篇文章主要介绍了如何利用Python实现简单C++程序范围分析,文章以举例说明及过程实现思路的方式展开讲解,具有一定的的参考价值,需要的小伙伴可以参考一下,希望对你有所帮助
    2022-02-02
  • Python实现读取txt文件中的数据并绘制出图形操作示例

    Python实现读取txt文件中的数据并绘制出图形操作示例

    这篇文章主要介绍了Python实现读取txt文件中的数据并绘制出图形操作,涉及Python文件读取、数值运算及基于pylab库的图形绘制相关操作技巧,需要的朋友可以参考下
    2019-02-02

最新评论