python selenium保存图片最好的两种方法

 更新时间:2022年01月26日 16:38:30   作者:五十风  
大家好,本篇文章主要讲的是python selenium保存图片最好的两种方法,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

selenium爬取页面时经常遇到要保存图片的需求,通常的做法是获取链接后用 requests 下载,但这种方法脱离了selenium环境,如遇到有校验的情况还需要绕过校验。

下面介绍两种直接通过selenium保存图片的方法:

1. 通过抓包

selenium-wire 是selenium扩展,它可以对所有请求抓包,同时还可以修改请求头,请求body,请求返回值等,功能非常强大。

selenium-wire 的使用和selenium一样,你只从seleniumwire导入webdriver就行,对于其他包还是从selenium导入

from selenium.webdriver.chrome.options import Options
from seleniumwire.webdriver import Chrome

driver = Chrome(options= Options())

下载图片有两种方法:

1-1.通过拦截器

通过拦截器预先把所有图片保存下来,要用到时在缓存目录中找

def get_img_path_from_url(url):
    # 自行实现
    return url

def response_interceptor(request, response):
    t=response.headers['Content-Type']
    if request.host=='xxx' and t and 'image' in t:
        with open(get_img_path_from_url(request.url), 'wb') as f:
            f.write(response.body)
            
driver.response_interceptor = response_interceptor

driver.get('...')
src=driver.find_element_by_tag_name('img').get_attribute('src')
img_path=get_img_path_from_url(src)

1-2. 请求后在所有请求中获取

这种方法有个缺点,浏览器会自动缓存图片,如果之前已经缓存过这张图片是不会有网络请求的

# 下载前先清理数据,不然请求太多
del driver.requests
driver.get('...')
src=driver.find_element_by_tag_name('img').get_attribute('src')</code>
<code>
for r in driver.iter_requests():
    if r.url==src:
        with open('img', 'wb') as f:
            f.write(r.response.body)

2. 通过canvas

使用js把图片放到canvas中,然后获取base64字符串,再保存

import base64
import os
import re
from io import BytesIO
from PIL import Image

def base64_to_image(base64_str):
    base64_data = re.sub('^data:image/.+;base64,', '', base64_str)
    byte_data = base64.b64decode(base64_data)
    image_data = BytesIO(byte_data)
    img = Image.open(image_data)
    return img


js = "let c = document.createElement('canvas');let ctx = c.getContext('2d');" \
     "let img = document.getElementsByTagName('img')[0]; /*找到图片*/ " \
     "c.height=img.naturalHeight;c.width=img.naturalWidth;" \
     "ctx.drawImage(img, 0, 0,img.naturalWidth, img.naturalHeight);" \
     "let base64String = c.toDataURL();return base64String;"
     
base64_str = driver.execute_script(js)
img = base64_to_image(base64_str)

img.save('xx.png')

总结

到此这篇关于python selenium保存图片最好的两种方法的文章就介绍到这了,更多相关python selenium保存图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现可将字符转换成大写的tcp服务器实例

    python实现可将字符转换成大写的tcp服务器实例

    这篇文章主要介绍了python实现可将字符转换成大写的tcp服务器,通过tcp服务器端实现针对字符的转换与返回功能,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-04-04
  • python本地降级pip的方法步骤

    python本地降级pip的方法步骤

    高版本的pip在使用过程中会出现很多的不兼容问题,而且不留神很容易把pip给升级了,下面这篇文章主要给大家介绍了关于python本地降级pip的方法步骤,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • pytest配置文件pytest.ini的详细使用

    pytest配置文件pytest.ini的详细使用

    这篇文章主要介绍了pytest配置文件pytest.ini的详细使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • 推荐下python/ironpython:从入门到精通

    推荐下python/ironpython:从入门到精通

    推荐下python/ironpython:从入门到精通...
    2007-10-10
  • python实现查询IP地址所在地

    python实现查询IP地址所在地

    本文给大家分享的是使用Python实现根据ip138的API查询IP的地理位置的代码,非常的实用,推荐给大家,有需要的小伙伴可以参考下。
    2015-03-03
  • python3 使用ssh隧道连接mysql的操作

    python3 使用ssh隧道连接mysql的操作

    这篇文章主要介绍了python3 使用ssh隧道连接mysql的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • python中import学习备忘笔记

    python中import学习备忘笔记

    python中的import语句是用来导入模块的,在python模块库中有着大量的模块可供使用,要想使用这些文件需要用import语句把指定模块导入到当前程序中。下面这篇文章主要给大家介绍了python中import学习的相关资料,需要的朋友可以参考借鉴。
    2017-01-01
  • Python实现的多进程拷贝文件并显示百分比功能示例

    Python实现的多进程拷贝文件并显示百分比功能示例

    这篇文章主要介绍了Python实现的多进程拷贝文件并显示百分比功能,涉及Python多进程、文件遍历、拷贝等相关操作技巧,需要的朋友可以参考下
    2019-04-04
  • 利用python如何在前程无忧高效投递简历

    利用python如何在前程无忧高效投递简历

    这篇文章主要给大家介绍了关于利用python如何在前程无忧高效投递简历的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • Pyramid将models.py文件的内容分布到多个文件的方法

    Pyramid将models.py文件的内容分布到多个文件的方法

    默认的Pyramid代码结构中,就只有一个models.py文件,在实际项目中,如果需要对models进行分类,放到不同文件下,应该怎么办
    2013-11-11

最新评论