python爬取一组小姐姐图片实例

 更新时间:2022年01月16日 11:26:47   作者:新手_six  
大家好,本篇文章主要讲的是python爬取一组小姐姐图片实例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

前言

前段时间我有个朋友看到一些小姐姐的照片,想全部下载下来,叫我帮个忙。于是花费了半天给他全部下载了下来。

引入库

import time
import requests
from lxml import etree
这三个库是为了让我们在请求别人网站的时候,让程序休息一会,避免别人的网站会拦截或者崩溃和将得到的页面源代码进行解析。

网页分析

利用浏览器的开发者模式,对页面进行分析,找出我们所需要的每个图片封面url

href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')

我们得到了封面的url后,但这还不是我们所需要的,我们所需要的是超链接里面的图片

 我们进入后,发现每张图片都在<p></p>里面,如何我们利用循环得到每张图片的url地址

 for url_img in href:
            img_url = requests.get(url_img,headers=head)
            # print(img_url.text)
            time.sleep(1)
            t = etree.HTML(img_url.text)
            url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")

剩下的就很简单了,我们只需对文件进行保存就得到我们想要的结果了。

 with open(f"./img/{name}",mode="wb") as f:
        f.write(download_img.content)
        print("正在下载:" +name)
        time.sleep(1)

总结

但同步下载非常慢,我们可以写个多线程或者异步协程来帮助我们下载得更快。

我知道还有很多不足,有没有更简洁的写法,希望大佬们能指出,谢谢!

完整代码

import time
import requests
from lxml import etree
 
def get_page_url():
    for i in range(1, 4): # 循环3页
        url = f"https://mm.tvv.tw/category/xinggan/{i}/"
 
        # 请求页面得到源代码
        res = requests.get(url,headers=head)
        # 对源代码进行解析
        tree = etree.HTML(res.text)
        # 得到每个图片的封面url(href)
        href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
        # print("-------------------------------------------------------")
        time.sleep(3)
        for url_img in href:
            img_url = requests.get(url_img,headers=head)
            # print(img_url.text)
            time.sleep(1)
            t = etree.HTML(img_url.text)
            url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
            # print(url_list)
            time.sleep(1)
            for url_src in url_list:
                get_img(url_src)
 
def get_img(url):
    name = url.rsplit("/",1)[1]
    time.sleep(2)
    download_img = requests.get(url,headers=head)
    with open(f"./img/{name}",mode="wb") as f:
        f.write(download_img.content)
        print("正在下载:" +name)
        time.sleep(1)
    f.close()
 
 
 
 
if __name__ == '__main__':
    head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
    get_page_url()
到此这篇关于python爬取一组小姐姐图片实例的文章就介绍到这了,更多相关python爬取图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 用TensorFlow实现lasso回归和岭回归算法的示例

    用TensorFlow实现lasso回归和岭回归算法的示例

    本篇文章主要介绍了用TensorFlow实现lasso回归和岭回归算法的示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • linecache模块加载和缓存文件内容详解

    linecache模块加载和缓存文件内容详解

    这篇文章主要介绍了linecache模块加载和缓存文件内容详解,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python 详解爬取并统计CSDN全站热榜标题关键词词频流程

    Python 详解爬取并统计CSDN全站热榜标题关键词词频流程

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Python爬取CSDN全站综合热榜标题,顺便统计关键词词频,大家可以在过程中查缺补漏,提升水平
    2021-11-11
  • Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解

    Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解

    这篇文章主要介绍了Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容方法详解,需要的朋友可以参考下
    2020-02-02
  • python中的load、loads实现反序列化示列

    python中的load、loads实现反序列化示列

    这篇文章主要介绍python中的load、loads实现反序列化,在python自动化中,我们传递一些参数是需要从文件中读取过来的,读取过来的字典并非python对象数据类型而是string类型,下面来看详情内容吧
    2021-10-10
  • Python实现以主程序的形式执行模块

    Python实现以主程序的形式执行模块

    这篇文章主要介绍了Python实现以主程序的形式执行模块,首先创建一个以christmastree的命名的模块并定义一个全局变量创建一个名称为fun_christmastree()的函数展开详情,感兴趣的朋友可以参考一下
    2022-06-06
  • Python游戏开发之精灵和精灵组

    Python游戏开发之精灵和精灵组

    python作为当前非常受欢迎的编程语言,很大一部分原因是拥有丰富的库,这篇文章主要给大家介绍了关于Python游戏开发之精灵和精灵组的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • python根据经纬度计算距离示例

    python根据经纬度计算距离示例

    这篇文章主要介绍了python根据经纬度计算距离示例, 计算两点之间距离,需要的朋友可以参考下
    2014-02-02
  • Python中Dict两种实现的原理详解

    Python中Dict两种实现的原理详解

    在Python中, Dict是一系列由键和值配对组成的元素的集合, 它是一个可变容器模型,可以存储任意类型对象。本文主要介绍了Dict两种实现的原理,感兴趣的可以了解一下
    2023-03-03
  • 详解如何在Apache中运行Python WSGI应用

    详解如何在Apache中运行Python WSGI应用

    在生产环境上,一般会使用比较健壮的Web服务器,如Apache来运行我们的应用,本文中我们就会介绍如何使用Apache模块mod_wsgi来运行Python WSGI应用。感兴趣的小伙伴们可以参考一下
    2019-01-01

最新评论