ChatGPT 帮我自动编写 Python 爬虫脚本的详细过程

 更新时间:2023年02月16日 10:48:29   作者:Python数据开发  
ChatGPT是一种基于大语言模型的生成式AI,换句话说它可以自动生成类似人类语言的文本,把梳理好的有逻辑的答案呈现在你面前,这完全不同于传统搜索工具,这篇文章主要介绍了ChatGPT 帮我自动编写 Python 爬虫脚本,需要的朋友可以参考下

都知道最近ChatGPT聊天机器人爆火,我也想方设法注册了账号,据说后面要收费了。

ChatGPT是一种基于大语言模型的生成式AI,换句话说它可以自动生成类似人类语言的文本,把梳理好的有逻辑的答案呈现在你面前,这完全不同于传统搜索工具。

ChatGPT不光可以回答人文、科学、情感等传统问题,还可以写代码、改bug,程序员可就急了,简直是在抢饭碗,所以网上出现各种ChatGPT让你失业的焦虑言论。

俗话说“百闻不如一见”,我试着让ChatGPT用Python去写爬虫脚本,看它到底行不行?

1、爬取知乎上的专栏文章

提问:

帮我用python写代码爬取网站

ChatGPT:

图片

把给到的代码放进PyCharm中跑一遍,发现没有报错,且打印出了内容。

import requests
from bs4 import BeautifulSoup

url = "https://zhuanlan.zhihu.com/p/595050104"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

title = soup.find("h1", class_="Post-Title").text.strip()
body = soup.find("div", class_="Post-RichText").text.strip()

print("Title:", title)
print("Body:", body)

图片

虽然说ChatGPT给出的代码可以执行,但它也提到由于爬取的网站会随时变更,也就是HTML会变动,所以代码可能需要调整才能正常工作。

凡是写过爬虫的同学应该都能理解,人工写的爬虫代码也没法一劳永逸,需要随时改。

这一点ChatGPT提示的很有道理。

后来我测试了medium、百家号上的文章,ChatGPT提供的代码形式几乎和上面一致,没法直接执行获取结果,需要微调后才能跑。

2. 爬取京东某商品的评论

为了给ChatGPT增加难度,我试着让它去爬取某电商网站的用户评论

提问:

请用python写代码爬取这个京东商品的所有用户评论 https://item.jd.com/13652780.html

ChatGPT:

图片

可能这个网页是动态页面,ChatGPT提供的方法并不能爬取评论。

我接着问:

爬取的结果是空值怎么办?

ChatGPT:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nnDP8sph-1676473447460)(null)]

ChatGPT提供了3种可能存在的原因,但并没有帮我修改代码。

于是我又问:

还是空值 请帮我重新写代码爬取

ChatGPT:

图片

这次就牛掰了,它重新用Selenium写了爬虫代码,并告诉我爬取动态网页需要模拟浏览器行为,因此得用selenium技术。

我没有运行去测试代码正确与否,但ChatGPT确实惊艳到我了,能够前后关联对话内容,并给出正确的解决方法。

3.继续更多的测试

上面只是蜻蜓点水的玩玩,ChatGPT就已经吸引到我,

我准备多花时间去测试ChatGPT应对各种爬虫的解决方案,以及它对bug的修复能力。

仅仅从写代码层面看,ChatGPT已经可以媲美中高级程序员的水平了,而且它的知识范畴远超人类最厉害的程序员

ChatGPT能够根据对话生成人想要的内容,这是AI巨大的突破,未来它的应用之广难以想象。

到此这篇关于ChatGPT 帮我自动编写 Python 爬虫脚本的文章就介绍到这了,更多相关ChatGPT自动编写 Python 爬虫脚本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python 删除字符串中连续多个空格并保留一个的方法

    python 删除字符串中连续多个空格并保留一个的方法

    今天小编就为大家分享一篇python 删除字符串中连续多个空格并保留一个的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 解决python flask中config配置管理的问题

    解决python flask中config配置管理的问题

    今天小编就为大家分享一篇解决python flask中config配置管理的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python实现功能全面的学生管理系统

    Python实现功能全面的学生管理系统

    这篇文章主要为大家详细介绍了Python实现功能全面的学生管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • 两行Python代码实现pdf转word功能

    两行Python代码实现pdf转word功能

    这篇文章主要为大家详细介绍了如何利用两行Python代码就能实现pdf转word功能,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-03-03
  • Python字符串格式化format()方法运用实例

    Python字符串格式化format()方法运用实例

    这篇文章主要给大家介绍了关于Python字符串格式化format()方法运用实例的相关资料,字符串格式化是Python编程中十分常用的部分,它可以帮助我们将更具可读性的数据输出到控制台或写入文件,需要的朋友可以参考下
    2023-08-08
  • 完美解决keras 读取多个hdf5文件进行训练的问题

    完美解决keras 读取多个hdf5文件进行训练的问题

    这篇文章主要介绍了完美解决keras 读取多个hdf5文件进行训练的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • python连接sql server乱码的解决方法

    python连接sql server乱码的解决方法

    为解决python连接sql server是出现的乱码,需要在连接sql server 时指定字符集utf8(client charset = UTF-8),python环境制定了字符集变量(#coding=utf-8 )
    2013-01-01
  • Python中为feedparser设置超时时间避免堵塞

    Python中为feedparser设置超时时间避免堵塞

    为feedparser设置一个超时时间,可是feedparser并没有提供这个功能,只好采用其他方法了,感兴趣的朋友可以看看
    2014-09-09
  • 详解pandas.DataFrame中删除包涵特定字符串所在的行

    详解pandas.DataFrame中删除包涵特定字符串所在的行

    这篇文章主要介绍了pandas.DataFrame中删除包涵特定字符串所在的行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • 使用PyWebCopy在Python中克隆网页的操作方法

    使用PyWebCopy在Python中克隆网页的操作方法

    PyWebCopy是一个用于克隆网页内容的Python库,它允许用户从指定的 URL 复制整个网页并保存到本地,本文将介绍 PyWebCopy 的基本用法,以及如何克隆网页并保存网页内容到本地文件夹,文中通过代码示例讲解的非常详细,需要的朋友可以参考下
    2023-12-12

最新评论