Python采集图片数据的实现示例

 更新时间:2023年04月26日 09:14:57   作者:极客飞虎  
本文主要介绍了Python采集图片数据的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

前言:

在网络时代,图片已经成为了我们生活中不可或缺的一部分。随着各种社交媒体的兴起,我们可以在网上看到越来越多的图片,但是如何从这些图片中获取有价值的信息,如何从中提取有用的知识,却是一个需要我们思考和探索的问题。本文将介绍如何采集某个网站的图片,并从中获取有用的信息和知识。

发送请求

1682337612463.png

我们首先确定网址,我们先使用开发者工具,定位到我们要的数据。发现,内容就在网页源代码中。

url = 'https://www.hexuexiao.cn/tj/WuJiayi/'

res = requests.get(url)

# print(res.text)
html_url = re.findall('<a href="https://www.hexuexiao.cn/a/(\d+).html" rel="external nofollow"  >',res.text,re.S)
urls = sorted(list(set(html_url)), key=html_url.index)

我们这里html_url 变量的值是一个正则表达式对象,用于匹配网站图片的链接。代码块 list(set(html_url)) 将列表对象转换为集合对象,使用 set() 方法将列表对象转换为集合对象,这是一个将列表中的元素转换为集合的方法。html_url.index 是一个整数对象,表示 html_url中各元素在原始 HTML 字符串中出现的次数,以此来实现排序。

保存数据

for url1 in urls:
    for page in range(0,10):
        url2 = f'https://www.hexuexiao.cn/a/{url1}-{page}.html'
        # print(url2)
        res1 = requests.get(url2)
        # print(res1.text)
        url3 = re.findall('<img src=(.*?)/></a>',res1.text,re.S)[0]
        print(url3)
        url3=re.sub('',"",url3)
        print(url3)
       

我们这段代码中的 urls 列表是一个字典,其中键是 URL,值是页码。在循环中,我们使用 range() 函数从 0 到 9 迭代页码。接下来,我们使用 requests.get() 方法分别获取每个页面的 HTML 代码,并使用正则表达式匹配出所有的图片链接。最后,我们使用 requests.get() 方法获取每个图片链接的内容,并将其写入一个文件中。

保存图片

 content = requests.get(url3).content
        with open('图片\' + str(num) + '.jpg', mode='wb') as f:
            f.write(content)

我们这段代码中的 content 变量的值是从图片链接 url3 中获取的内容。然后,使用 with open() 语句打开一个二进制文件,并将 content 写入文件中。在这个过程中,num 变量的值是当前文件中的图片序号。获取图片和我们之前获取音频一样,都是保存成二进制文件。

这样,我们的图片数据就保存下来了。这里,我就不展示效果了,原理都是一样的,找到图片的地址,我们就可以获取下来。

总结:

python采集图片是一项非常重要的任务,它可以帮助我们从海量的信息中提取有用的信息和知识。在本文中,我们将介绍如何采集某个网站的图片,并从中获取有用的信息和知识。首先,我们需要明确自己的目的和需求,选择适合自己的采集方式和策略。其次,我们需要学会使用各种工具和方法,包括搜索引擎、浏览器插件、图片处理工具等,来获取图片。在处理图片时,我们需要注意保证图片的质量和清晰度,避免出现模糊、失真等问题。最后,我们需要总结经验教训,不断改进自己的采集方式和策略,提高采集效率和质量。

到此这篇关于Python采集图片数据的实现示例的文章就介绍到这了,更多相关Python采集图片数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python用类实现文章敏感词的过滤方法示例

    python用类实现文章敏感词的过滤方法示例

    这篇文章主要介绍了python用类实现文章敏感词的过滤方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • Python使用回溯法子集树模板解决迷宫问题示例

    Python使用回溯法子集树模板解决迷宫问题示例

    这篇文章主要介绍了Python使用回溯法解决迷宫问题,简单讲述了迷宫问题的原理并结合实例形式分析了Python基于回溯法子集树模板解决迷宫问题的相关操作技巧与注意事项,需要的朋友可以参考下
    2017-09-09
  • Python实现调用jar或执行java代码的方法详解

    Python实现调用jar或执行java代码的方法详解

    这篇文章主要介绍了Python实现调用jar或执行java代码的方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • Python创建exe运行器和截图工具的示例详解

    Python创建exe运行器和截图工具的示例详解

    本文我们将探讨如何使用Python和wxPython创建一个强大而实用的桌面应用程序,可以遍历指定文件夹中的所有EXE文件,感兴趣的小伙伴可以了解一下
    2024-10-10
  • Python -m参数原理及使用方法解析

    Python -m参数原理及使用方法解析

    这篇文章主要介绍了Python -m参数原理及使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • Python配置文件处理的方法教程

    Python配置文件处理的方法教程

    这篇文章主要给大家介绍了关于Python配置文件处理的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-08-08
  • 安装ElasticSearch搜索工具并配置Python驱动的方法

    安装ElasticSearch搜索工具并配置Python驱动的方法

    这篇文章主要介绍了安装ElasticSearch搜索工具并配置Python驱动的方法,文中还介绍了其与Kibana数据显示客户端的配合使用,需要的朋友可以参考下
    2015-12-12
  • Python List cmp()知识点总结

    Python List cmp()知识点总结

    在本篇内容里小编给大家整理了关于Python List cmp()用法相关知识点,有需要的朋友们跟着学习下。
    2019-02-02
  • python3列表删除大量重复元素remove()方法的问题详解

    python3列表删除大量重复元素remove()方法的问题详解

    这篇文章主要给大家介绍了关于python3列表删除大量重复元素remove()方法的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Django3基于WebSocket实现WebShell的详细过程

    Django3基于WebSocket实现WebShell的详细过程

    最近工作中需要开发前端操作远程虚拟机的功能,简称WebShell,普通应用大部分用的都是wsgi.py配合nginx部署线上服务. 这次主要使用asgi.py,具体实现过程跟随小编一起看看吧
    2021-08-08

最新评论