python爬虫将js转化成json实现示例

 更新时间:2023年05月31日 10:06:20   作者:ponponon  
这篇文章主要为大家介绍了python爬虫将js转化成json实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

有一个优秀的库可以使用————demjson

示范链接

http://fcd.5173.com/commondat...

请求上面链接,会得到如下图的一个js文件

我们需要把这个js文件转成为dict,方便提取其中需要的字段(这在爬虫任务中非常常见)

失败的方法

传统方法

通常转js文件为dict的过程:

1.先通过切片掐头去尾,去掉头部的 “callarea(” 和尾部的 “)” 。

2.再次导入json这个库,使用loads,json.loads(resposne.text[9:-1]),实现json转dict。

但是,这个方法在这里行不通。

import requests
import json
url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)
print(json.loads(resposne.text[9:-1]))

错误原因

js文件并不一定是json的超集,这此处的js文件key不包含双引号,value中的内容是单引号。

上诉方法行得通的前提是这个js需要时json的超集,key和value都由双引号包围。

天无绝人之路

通过demjson可以一步到位

import requests
import demjson
url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)
for item in demjson.decode(resposne.text[9:-1]):
    id = item.get('id')
    name = item.get('name')
    print(id, name)

得到如下结果

写代码千万不要睡着了

以上就是python爬虫将js转化成json实现示例的详细内容,更多关于python将js转化成json的资料请关注脚本之家其它相关文章!

相关文章

  • Python入门篇之字典

    Python入门篇之字典

    在元组和列表中,都是通过编号进行元素的访问,但有的时候我们按名字进行数据甚至数据结构的访问,在python中也提供了内置的映射类型--字典。映射其实就是一组key和value以及之间的映射函数,其特点是:key的唯一性、key与value的一对多的映射。
    2014-10-10
  • Flask搭建虚拟环境并运行第一个flask程序

    Flask搭建虚拟环境并运行第一个flask程序

    这篇文章主要介绍了Flask搭建虚拟环境并运行第一个flask程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Python爬虫抓取技术的一些经验

    Python爬虫抓取技术的一些经验

    这篇文章主要介绍了Python爬虫抓取技术的一些经验,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python基础教程之NumPy库的使用详解

    Python基础教程之NumPy库的使用详解

    NumPy(Numerical Python)是一个用于处理数组的Python库,学习机器学习的过程中先学会使用NumPy是非常重要的,所以本文就给大家详细介绍一下如何使用NumPy库,需要的小伙伴跟着小编一起来看看吧
    2023-07-07
  • python必学知识之装饰器详解

    python必学知识之装饰器详解

    这篇文章主要介绍了python必学知识之装饰器详解,python的三大器指的是:装饰器、迭代器、生成器,下面就装饰器整理一下从各种资源收获的对装饰器的理解,需要的朋友可以参考下
    2023-09-09
  • Python类的定义和使用详情

    Python类的定义和使用详情

    这篇文章主要介绍了Python类的定义与使用,类名只要是一个合法的标识符即可,但这仅仅满足的是 Python 的语法要求:如果从程序的可读性方面来看,Python 的类名必须是由一个或多个有意义的单词连缀而成的,下文基于这些基础内容展开介绍,需要的朋友可以参考一下
    2022-03-03
  • Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例

    Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例

    这篇文章主要介绍了Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能,涉及Python基于re模块的正则匹配及selenium模块的页面抓取等相关操作技巧,需要的朋友可以参考下
    2018-07-07
  • Windows下PyCharm2018.3.2 安装教程(图文详解)

    Windows下PyCharm2018.3.2 安装教程(图文详解)

    这篇文章主要介绍了Windows下PyCharm2018.3.2 安装教程,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • python图片剪裁代码(图片按四个点坐标剪裁)

    python图片剪裁代码(图片按四个点坐标剪裁)

    这篇文章主要介绍了python图片剪裁代码(图片按四个点坐标剪裁),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python利用lxml读写xml格式的文件

    python利用lxml读写xml格式的文件

    这篇文章主要为大家详细介绍了python利用lxml读写xml格式的文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-08-08

最新评论