python爬虫将js转化成json实现示例

 更新时间:2023年05月31日 10:06:20   作者:ponponon  
这篇文章主要为大家介绍了python爬虫将js转化成json实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

有一个优秀的库可以使用————demjson

示范链接

http://fcd.5173.com/commondat...

请求上面链接,会得到如下图的一个js文件

我们需要把这个js文件转成为dict,方便提取其中需要的字段(这在爬虫任务中非常常见)

失败的方法

传统方法

通常转js文件为dict的过程:

1.先通过切片掐头去尾,去掉头部的 “callarea(” 和尾部的 “)” 。

2.再次导入json这个库,使用loads,json.loads(resposne.text[9:-1]),实现json转dict。

但是,这个方法在这里行不通。

import requests
import json
url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)
print(json.loads(resposne.text[9:-1]))

错误原因

js文件并不一定是json的超集,这此处的js文件key不包含双引号,value中的内容是单引号。

上诉方法行得通的前提是这个js需要时json的超集,key和value都由双引号包围。

天无绝人之路

通过demjson可以一步到位

import requests
import demjson
url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)
for item in demjson.decode(resposne.text[9:-1]):
    id = item.get('id')
    name = item.get('name')
    print(id, name)

得到如下结果

写代码千万不要睡着了

以上就是python爬虫将js转化成json实现示例的详细内容,更多关于python将js转化成json的资料请关注脚本之家其它相关文章!

相关文章

  • python删除过期log文件操作实例解析

    python删除过期log文件操作实例解析

    这篇文章主要介绍了python删除过期log文件,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • 解决PyCharm import torch包失败的问题

    解决PyCharm import torch包失败的问题

    今天小编就为大家分享一篇解决PyCharm import torch包失败的问题。具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Keras 加载已经训练好的模型进行预测操作

    Keras 加载已经训练好的模型进行预测操作

    这篇文章主要介绍了Keras 加载已经训练好的模型进行预测操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python tkinter 列表框Listbox属性详情

    Python tkinter 列表框Listbox属性详情

    这篇文章主要介绍了Python tkinter 列表框Listbox属性详情,列表框控件显示多行文本,用户可以选中一行或者多行。所有的文本只能使用一种字体,不能混合使用多种字体
    2022-07-07
  • Ubuntu22.04安装PyTorch1.12.1 GPU版本全过程

    Ubuntu22.04安装PyTorch1.12.1 GPU版本全过程

    这篇文章主要介绍了Ubuntu22.04安装PyTorch1.12.1 GPU版本全过程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python处理缺失值的8种不同方法实例

    Python处理缺失值的8种不同方法实例

    缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断,下面这篇文章主要给大家介绍了关于Python处理缺失值的8种不同方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Python pandas删除指定行/列数据的方法实例

    Python pandas删除指定行/列数据的方法实例

    这篇文章主要给大家介绍了关于Python pandas删除指定行/列数据的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-01-01
  • Pandas如何操作Excel

    Pandas如何操作Excel

    Pandas提供了便捷的方法来处理Excel文件,主要通过pandas.read_excel()和DataFrame.to_excel()函数,这些函数支持多种参数来定制读取和写入的行为,包括文件路径、工作表名称、数据类型、日期解析等
    2025-01-01
  • python数字图像处理实现直方图与均衡化

    python数字图像处理实现直方图与均衡化

    在图像处理中,直方图是非常重要,也是非常有用的一个处理要素。这篇文章主要介绍了python数字图像处理实现直方图与均衡化,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • python爬虫爬取淘宝商品信息(selenum+phontomjs)

    python爬虫爬取淘宝商品信息(selenum+phontomjs)

    这篇文章主要为大家详细介绍了python爬虫爬取淘宝商品信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02

最新评论