使用python实现一个简单的图片爬虫

更新时间：2024年02月27日 08:56:13 作者：GT开发算法工程师

在本文中,我们将学习如何使用Python创建一个简单的图片爬虫,我们将利用requests库来发送HTTP请求,BeautifulSoup库来解析HTML页面,以及os和shutil库来下载和保存图片,通过这个教程,你将学会如何爬取网页上的图片并保存到本地,需要的朋友可以参考下

引言：

在本文中，我们将学习如何使用Python创建一个简单的图片爬虫。

我们将利用requests库来发送HTTP请求，BeautifulSoup库来解析HTML页面，以及os和shutil库来下载和保存图片。通过这个教程，你将学会如何爬取网页上的图片并保存到本地。

一、准备工作

在开始之前，请确保你已经安装了Python，并且安装了以下库：

requests：用于发送HTTP请求
beautifulsoup4：用于解析HTML页面

你可以使用以下命令来安装这些库：

pip install requests beautifulsoup4

二、代码实现

import os  
import requests  
from bs4 import BeautifulSoup  
from urllib.parse import urljoin  
from urllib.request import urlretrieve  
  
def download_images(url, save_dir):  
    """  
    下载指定网页上的所有图片并保存到本地文件夹  
  
    :param url: 目标网页的URL  
    :param save_dir: 图片保存的目录  
    """  
    # 创建保存图片的目录  
    if not os.path.exists(save_dir):  
        os.makedirs(save_dir)  
  
    # 发送HTTP请求  
    response = requests.get(url)  
    response.raise_for_status()  # 如果请求失败，抛出异常  
  
    # 使用BeautifulSoup解析页面  
    soup = BeautifulSoup(response.text, 'html.parser')  
  
    # 查找所有的图片链接  
    image_links = soup.find_all('img')  
  
    # 下载并保存图片  
    for img in image_links:  
        img_url = img.get('src')  
  
        # 如果图片链接是相对路径，则将其转换为绝对路径  
        if not img_url.startswith(('http://', 'https://')):  
            img_url = urljoin(url, img_url)  
  
        # 下载图片  
        img_name = os.path.join(save_dir, img_url.split('/')[-1])  
        urlretrieve(img_url, img_name)  
  
        print(f"Downloaded: {img_name}")  
  
# 使用示例  
url = "https://example.com"  # 替换为你要爬取的网页的URL  
save_dir = "images"  # 图片保存的目录  
download_images(url, save_dir)

三、代码解析

导入库：首先，我们导入了所需的库，包括os、requests、BeautifulSoup、urllib.parse和urllib.request。
定义函数：我们定义了一个名为download_images的函数，它接受两个参数：url（目标网页的URL）和save_dir（图片保存的目录）。
创建保存目录：如果指定的保存目录不存在，我们将创建它。
发送HTTP请求：使用requests.get方法发送HTTP请求，并使用response.raise_for_status检查请求是否成功。
解析页面：使用BeautifulSoup解析HTML页面，并查找所有的<img>标签，以获取图片链接。
下载并保存图片：遍历每个图片链接，将其转换为绝对路径（如果需要），并使用urlretrieve方法下载图片然后，将图片保存到指定的目录，并打印出下载的文件名。
使用示例：最后，我们提供了一个使用示例，包括目标网页的URL和图片保存的目录。

四、注意事项

在使用爬虫时，请确保遵守目标网站的robots.txt文件和使用条款，并尊重他人的版权和隐私。
不要对网站造成过大的压力或进行恶意爬取。
可以根据需要进一步扩展此代码，例如增加错误处理、添加代理支持、限制并发请求数、使用异步IO等。

通过本文的学习，你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规，尊重他人的权益。

以上就是使用python实现一个简单的图片爬虫的详细内容，更多关于python图片爬虫的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python利用arcpy模块实现栅格的创建与拼接
这篇文章主要为大家详细介绍了如何基于Python语言arcpy模块，实现栅格影像图层建立与多幅遥感影像数据批量拼接（Mosaic）的操作，感兴趣的可以了解一下
2023-02-02
tensorflow实现加载mnist数据集
这篇文章主要为大家详细介绍了tensorflow实现加载mnist数据集，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-09-09
详解python sklearn中的数据预处理方法
本篇文章主要讲解Python的sklearn库中常用的数据预处理方法,主要介绍工具中的内容,即该库中的相关方法包含的常用接口和基本使用,希望对大家有所帮助
2023-08-08
Python 内置函数速查表一览
这篇文章主要介绍了Python 内置函数速查表，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-06-06
Python Datetime模块和Calendar模块用法实例分析
这篇文章主要介绍了Python Datetime模块和Calendar模块用法,结合实例形式分析了Python日期时间及日历相关的Datetime模块和Calendar模块原理、用法及操作注意事项,需要的朋友可以参考下
2019-04-04
如何从Python的cmd中获得.py文件参数
这篇文章主要介绍了如何从Python的cmd中获得.py文件参数操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-05-05
python合并多个excel的详细过程
合并需求很多,常见的有相同数据结构,按行进行纵向拼接,下面这篇文章主要给大家介绍了关于python合并多个excel的相关资料,需要的朋友可以参考下
2022-10-10
python正则表达式re.search()的基本使用教程
正则表达式是我们日常开发中必然会遇到的，下面这篇文章主要介绍了python正则表达式re.search()的基本使用教程，需要的朋友可以参考下
2021-05-05
分享一下Python数据分析常用的8款工具
Python是数据处理常用工具，可以处理数量级从几K至几T不等的数据，具有较高的开发效率和可维护性，还具有较强的通用性和跨平台性，这里就为大家分享几个不错的数据分析工具,需要的朋友可以参考下
2018-04-04
Python 自制简单版《我的世界》的详细过程
这篇文章主要介绍了教你用 Python 自制简单版《我的世界》,接下来，我们就带你运行这个项目，并对这个开源的小游戏做一下简单的更改，让它变成“你的”世界
2021-11-11