使用python实现一个简单的图片爬虫

 更新时间:2024年02月27日 08:56:13   作者:GT开发算法工程师  
在本文中,我们将学习如何使用Python创建一个简单的图片爬虫,我们将利用requests库来发送HTTP请求,BeautifulSoup库来解析HTML页面,以及os和shutil库来下载和保存图片,通过这个教程,你将学会如何爬取网页上的图片并保存到本地,需要的朋友可以参考下

引言:

在本文中,我们将学习如何使用Python创建一个简单的图片爬虫

我们将利用requests来发送HTTP请求,BeautifulSoup来解析HTML页面,以及osshutil库来下载和保存图片。通过这个教程,你将学会如何爬取网页上的图片并保存到本地。

一、准备工作

在开始之前,请确保你已经安装了Python,并且安装了以下库:

  • requests:用于发送HTTP请求
  • beautifulsoup4:用于解析HTML页面

你可以使用以下命令来安装这些库:

pip install requests beautifulsoup4

二、代码实现

import os  
import requests  
from bs4 import BeautifulSoup  
from urllib.parse import urljoin  
from urllib.request import urlretrieve  
  
def download_images(url, save_dir):  
    """  
    下载指定网页上的所有图片并保存到本地文件夹  
  
    :param url: 目标网页的URL  
    :param save_dir: 图片保存的目录  
    """  
    # 创建保存图片的目录  
    if not os.path.exists(save_dir):  
        os.makedirs(save_dir)  
  
    # 发送HTTP请求  
    response = requests.get(url)  
    response.raise_for_status()  # 如果请求失败,抛出异常  
  
    # 使用BeautifulSoup解析页面  
    soup = BeautifulSoup(response.text, 'html.parser')  
  
    # 查找所有的图片链接  
    image_links = soup.find_all('img')  
  
    # 下载并保存图片  
    for img in image_links:  
        img_url = img.get('src')  
  
        # 如果图片链接是相对路径,则将其转换为绝对路径  
        if not img_url.startswith(('http://', 'https://')):  
            img_url = urljoin(url, img_url)  
  
        # 下载图片  
        img_name = os.path.join(save_dir, img_url.split('/')[-1])  
        urlretrieve(img_url, img_name)  
  
        print(f"Downloaded: {img_name}")  
  
# 使用示例  
url = "https://example.com"  # 替换为你要爬取的网页的URL  
save_dir = "images"  # 图片保存的目录  
download_images(url, save_dir)

三、代码解析

  • 导入库:首先,我们导入了所需的库,包括os、requests、BeautifulSoup、urllib.parse和urllib.request。
  • 定义函数:我们定义了一个名为download_images的函数,它接受两个参数:url(目标网页的URL)和save_dir(图片保存的目录)。
  • 创建保存目录:如果指定的保存目录不存在,我们将创建它。
  • 发送HTTP请求:使用requests.get方法发送HTTP请求,并使用response.raise_for_status检查请求是否成功。
  • 解析页面:使用BeautifulSoup解析HTML页面,并查找所有的<img>标签,以获取图片链接。
  • 下载并保存图片:遍历每个图片链接,将其转换为绝对路径(如果需要),并使用urlretrieve方法下载图片然后,将图片保存到指定的目录,并打印出下载的文件名。
  • 使用示例:最后,我们提供了一个使用示例,包括目标网页的URL和图片保存的目录。

四、注意事项

  • 在使用爬虫时,请确保遵守目标网站的robots.txt文件和使用条款,并尊重他人的版权和隐私。
  • 不要对网站造成过大的压力或进行恶意爬取。
  • 可以根据需要进一步扩展此代码,例如增加错误处理、添加代理支持、限制并发请求数、使用异步IO等。

通过本文的学习,你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规,尊重他人的权益。

以上就是使用python实现一个简单的图片爬虫的详细内容,更多关于python图片爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • python淘宝准点秒杀抢单的实现示例

    python淘宝准点秒杀抢单的实现示例

    为了想要抢到想要的商品,想了个用Python实现python淘宝准点秒杀抢单方案,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • numpy 中linspace函数的使用

    numpy 中linspace函数的使用

    本文主要介绍了numpy 中linspace函数的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • Python远程SSH库Paramiko详细操作

    Python远程SSH库Paramiko详细操作

    paramiko实现了SSHv2协议(底层使用cryptography),用于连接远程服务器并执行相关操作,使用该模块可以对远程服务器进行命令或文件操作,今天通过本文给大家介绍Python远程SSH库Paramiko简介,感兴趣的朋友一起看看吧
    2022-05-05
  • 解决python spyder 突然打不开的问题

    解决python spyder 突然打不开的问题

    这篇文章主要介绍了解决python spyder 突然打不开的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • python通过socket实现多个连接并实现ssh功能详解

    python通过socket实现多个连接并实现ssh功能详解

    这篇文章主要介绍了python通过socket实现多个连接并实现ssh功能详解,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • Python3对称加密算法AES、DES3实例详解

    Python3对称加密算法AES、DES3实例详解

    这篇文章主要介绍了Python3对称加密算法AES、DES3,结合实例形式详细分析了对称加密算法AES、DES3相关模块安装、使用技巧与操作注意事项,需要的朋友可以参考下
    2018-12-12
  • Python实现C#代码生成器应用服务于Unity示例解析

    Python实现C#代码生成器应用服务于Unity示例解析

    为了满足项目需要,需要实现一个c#代码生成器,为此设计了一个语法模板适用于Unity的代码生成器。本次使用了Python的Template模板,使用python开发
    2021-10-10
  • python图片格式转换脚本

    python图片格式转换脚本

    大家好,本篇文章主要讲的是python图片格式转换脚本,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2022-01-01
  • Python 第三方库 openpyxl 的安装过程

    Python 第三方库 openpyxl 的安装过程

    这篇文章主要介绍了Python 高效办公第三方库 openpyxl 的安装,本文介绍了什么是库及库的分类,本文结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-12-12
  • 使用Matplotlib绘制平行坐标系的示例详解

    使用Matplotlib绘制平行坐标系的示例详解

    平行坐标系,是一种含有多个垂直平行坐标轴的统计图表,这篇文章主要为大家介绍了如何使用绘制平行坐标系,需要的小伙伴可以参考一下
    2023-07-07

最新评论