Python采集某评论区内容的实现示例

 更新时间:2023年04月24日 09:14:55   作者:极客飞虎  
本文主要介绍了Python采集某评论区内容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

前言

我们知道在这个互联网时代,评论已经在我们的生活到处可见,评论区里面的信息是一个非常有趣和有争议的地方。我们今天,就来获取某技术平台的评论,和大家分享一下,我获取数据的过程,也是一个尝试的过程。

发送请求

我们首先,确定我们要获取哪一个文章下面的评论区。我们先使用开发者工具,定位到我们要的数据。

QQ图片20230422182804.png

我们通过数据抓取,我们发现,这个平台的评论区数据,放在了一个叫getlist数据包里面了。

QQ图片20230422183157.png

我们就不难明白,我们只要请求这个url,在传一个关于文章的参数,我们就能获取到我们想要的数据。而且,我们发现,这个是post请求。我们先按正常思路写代码。

import requests

url = 'https://xie.infoq.cn/public/v1/comment/getList'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
}
res = requests.post(url,headers=headers)

print(res)

我们发现返回了一个<Response [451]>的值,我们可能就是少穿了参数,我们接下来,把参数加上试试。

data = {
    'id': "594899140323389440",
    'score': '1682043841339',# 1681968121323
    'size': '100',
}

我们发现还是不行,所以,我们想到了,这个要加一个防盗链。我们把相应的参数传进去,我们再来看看效果。

headers ={
    'Host': 'xie.infoq.cn',
    'Origin': 'https://xie.infoq.cn',
    'Referer': 'https://xie.infoq.cn/article/a5f16dffb45139cba72691c29',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
}
res = requests.post(url,data = data,headers=headers)

我们发现虽然返回了<Response [200]>,但是,我们还是拿不到数据,我们看看服务器给我们返回了什么样子的数值。

{"code":-1,"data":{},"error":{"code":-2005,"msg":"ID不能为空"},"extra":{"cost":0.000170465,"request-id":"7c1dc236c95aceb9e56da271b056be88@2@infoq"}}

它提示我们"msg":"ID不能为空",说明我们data传入传错了。

不难看出,就是我们的文章id没有传进去,可能是我们传递的参数方式错了,我们这里要注意,要用json格式传参。正确的请求方式如下:

res = requests.post(url,json = data,headers=headers)

我们发现,就可以获取到了数据,在这个过程,我们不断的尝试,最后,也拿到了我们想要的数据,我们会不会有一些成就感。我们看看获取到了什么样子的数据吧。

QQ图片20230422184646.png

拿到了,这样的数据,大家就不难拿到我们要的数据,直接字典取值就好了,今天,我们用了大篇幅的段落,来解释我们是如何获取数据的。

解析数据

我们接下来就可以解析数据了,代码很简单。我这里直接获取评论了,不获取评论者了,原理是一样的,大家感兴趣的可以自己去试试。

datas = res.json()['data']['list']

for contents in datas:
    content = contents['content']
    print(content)

这段代码将从 res.json()['data']['list'] 中获取数据,并将其存储在 datas 变量中。然后,它使用一个 for 循环遍历 datas 中的每个元素,并将每个元素的 content 属性存储在 content 变量中。最后,它打印出每个元素的 content 属性。

我们直接看效果,这个很简单的。

QQ图片20230422185330.png

总结

到此这篇关于Python采集某评论区内容的实现示例的文章就介绍到这了,更多相关Python采集某评论区内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python turtle绘图命令及案例

    python turtle绘图命令及案例

    这篇文章主要给大家分享的是python turtle绘图命令及案例,绘图有很多命令,可以划分为三种:画笔运动命令、画笔控制命令、全局控制命令,下面来看看文章的详细内容吧,需要的朋友可以参考一下
    2021-11-11
  • 通过python 执行 nohup 不生效的解决

    通过python 执行 nohup 不生效的解决

    这篇文章主要介绍了通过python 执行 nohup 不生效的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python的pandas工具包,保存.csv文件时不要表头的实例

    python的pandas工具包,保存.csv文件时不要表头的实例

    今天小编小编就为大家分享一篇python的pandas工具包,保存.csv文件时不要表头的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 详解Python sys.argv使用方法

    详解Python sys.argv使用方法

    在本文中我们给大家详细讲解了关于Python sys.argv使用方法以及注意事项,有此需要的读者们跟着学习下。
    2019-05-05
  • 关于python与opc ua Expert endpoint连接的问题

    关于python与opc ua Expert endpoint连接的问题

    这篇文章主要介绍了关于python与opc ua Expert endpoint连接的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 详解将Python程序(.py)转换为Windows可执行文件(.exe)

    详解将Python程序(.py)转换为Windows可执行文件(.exe)

    这篇文章主要介绍了详解将Python程序(.py)转换为Windows可执行文件(.exe),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-07-07
  • Python中查找素因数的方法详解

    Python中查找素因数的方法详解

    这篇文章主要为大家详细介绍了如何在 Python 中执行素因数分解,文中的示例代码讲解详细,具有一定的参考价值,感兴趣的小伙伴可以一起学习一下
    2023-10-10
  • Python读取Excel数据实现批量生成合同

    Python读取Excel数据实现批量生成合同

    Python在自动化办公方面具有极大的优势,可以解决我们工作中遇到的很多重复性问题。本文将通过Python读取Excel数据实现批量生成合同,需要的可以参考一下
    2022-05-05
  • Python报错之如何解决matplotlib绘图中文显示成框框问题

    Python报错之如何解决matplotlib绘图中文显示成框框问题

    这篇文章主要介绍了Python报错之如何解决matplotlib绘图中文显示成框框问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • 将python安装信息加入注册表的示例

    将python安装信息加入注册表的示例

    今天小编就为大家分享一篇将python安装信息加入注册表的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11

最新评论