python3+selenium获取页面加载的所有静态资源文件链接操作

 更新时间:2020年05月04日 17:16:11   作者:举个栗子不容易  
这篇文章主要介绍了python3+selenium获取页面加载的所有静态资源文件链接操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

软件版本:

python 3.7.2

selenium 3.141.0

pycharm 2018.3.5

具体实现流程如下,废话不多说,直接上代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

d = DesiredCapabilities.CHROME
chrome_options = Options()
#使用无头浏览器
chrome_options.add_argument('--headless')
chrome_options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
#浏览器启动默认最大化
chrome_options.add_argument("--start-maximized");
#该处替换自己的chrome驱动地址
browser = webdriver.Chrome("D://googleDever//chromedriver.exe",chrome_options=chrome_options,desired_capabilities=d)
browser.set_page_load_timeout(150)
browser.get("https://www.xxx.com")
#静态资源链接存储集合
urls = []
#获取静态资源有效链接
for log in browser.get_log('performance'):
	 if 'message' not in log:
			continue
	 log_entry = json.loads(log['message'])
	 try:
		#该处过滤了data:开头的base64编码引用和document页面链接
			if "data:" not in log_entry['message']['params']['request']['url'] and 'Document' not in log_entry['message']['params']['type']:
				urls.append(log_entry['message']['params']['request']['url'])
	 except Exception as e:
			pass
 print(urls)

打印结果为页面渲染时加载的静态资源文件链接:

[http://www.xxx.com/aaa.js,http://www.xxx.com/css.css]

以上代码为selenium获取页面加载过程中预加载的各类静态资源文件链接,使用该功能获取到链接后,使用其他插件进行可对资源进行下载!

补充知识:在idea 中python import sys,import requests 报错

File->Project Structure

project -> sdk -> new -> ok

设置编译参数(主要是设置和检查Python JDK是否正确)

以上这篇python3+selenium获取页面加载的所有静态资源文件链接操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • PyQt5之基础框架解读

    PyQt5之基础框架解读

    这篇文章主要介绍了PyQt5之基础框架,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 基于Python实现绘制一个足球

    基于Python实现绘制一个足球

    这篇文章主要为大家详细介绍了如何基于Python实现绘制一个简单的足球,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的可以尝试一下
    2023-02-02
  • 在VScode中配置Python开发环境的超详细指南

    在VScode中配置Python开发环境的超详细指南

    在使用VSCode编写Python代码前,我们需要先配置Python环境,这篇文章主要给大家介绍了关于在VScode中配置Python开发环境的相关资料,需要的朋友可以参考下
    2023-12-12
  • 使用pandas读取表格数据并进行单行数据拼接的详细教程

    使用pandas读取表格数据并进行单行数据拼接的详细教程

    这篇文章主要介绍了使用pandas读取表格数据并进行单行数据拼接的详细教程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • Python利用flask操作Redis的方法详解

    Python利用flask操作Redis的方法详解

    这篇文章主要为大家详细介绍了Python如何利用flask操作Redis,文中的示例代码讲解详细,对我们学习Python有一定的帮助,需要的可以参考一下
    2023-02-02
  • PyQt5 designer 页面点击按钮跳转页面实现

    PyQt5 designer 页面点击按钮跳转页面实现

    本文主要介绍了PyQt5 designer 页面点击按钮跳转页面实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • python设置环境变量的原因和方法

    python设置环境变量的原因和方法

    在本篇文章中我们给大家整理了关于python为什么要设置环境变量的相关知识点,有兴趣的朋友们参考下。
    2019-06-06
  • 浅谈Python由__dict__和dir()引发的一些思考

    浅谈Python由__dict__和dir()引发的一些思考

    这篇文章主要介绍了浅谈Python由__dict__和dir()引发的一些思考,具有一定参考价值,需要的朋友可以了解下。
    2017-10-10
  • Python带你从浅入深探究Tuple(基础篇)

    Python带你从浅入深探究Tuple(基础篇)

    大家都知道Python中的元组容器序列(tuple)与列表容器序列(list)有很多相同之处,他们虽然都可以存储任意类型的数据,但是一个元组定义好之后就不能够再进行修改,对Python Tuple相关知识感兴趣的朋友一起看看吧
    2021-05-05
  • PIP安装python包出现超时问题的解决

    PIP安装python包出现超时问题的解决

    这篇文章主要介绍了PIP安装python包出现超时问题的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03

最新评论