使用Python和Selenium构建一个自动化图像引擎
本篇指南将教你如何使用Python和Selenium库来构建一个自动化图像引擎,该引擎能够根据指定参数自动截取网页快照,并将生成的图片存储到云端。此工具还可以通过消息队列接收任务指令,非常适合需要批量处理网页截图的应用场景。
1. 准备环境
确保你已经安装了Python和必要的库:
pip install selenium oss2 kafka-python-ng
2. 创建配置文件
创建一个简单的config.ini文件来存储你的OSS和Kafka设置:
[oss] access_key_id = YOUR_OSS_ACCESS_KEY_ID access_key_secret = YOUR_OSS_ACCESS_KEY_SECRET bucket_name = YOUR_BUCKET_NAME endpoint = http://oss-cn-hangzhou.aliyuncs.com [kafka] bootstrap_servers = localhost:9092 topic = your_topic_name notify_topic = your_notify_topic consumer_group = your_consumer_group [engine] driver_path = path/to/chromedriver image_path = path/to/screenshots param_path = path/to/params site_base_path = https://example.com
3. 设置日志记录
为程序添加基本的日志记录功能,以便于调试:
import logging
from logging.handlers import TimedRotatingFileHandler
import os
logger = logging.getLogger('image_engine')
logger.setLevel(logging.DEBUG)
log_file = 'logs/image_engine.log'
os.makedirs('logs', exist_ok=True)
handler = TimedRotatingFileHandler(log_file, when='midnight', backupCount=7, encoding='utf-8')
formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)
logger.addHandler(handler)
4. 初始化Selenium WebDriver
初始化Chrome WebDriver,并设置窗口最大化:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
# 读取配置文件
import configparser
config = configparser.ConfigParser()
config.read('config.ini')
service = Service(config.get('engine', 'driver_path'))
driver = webdriver.Chrome(service=service)
driver.maximize_window()
5. 图像处理逻辑
编写一个函数来处理每个Kafka消息,打开指定网页,等待页面加载完成,然后保存截图:
from kafka import KafkaConsumer, KafkaProducer
import json
import time
from datetime import datetime
import oss2
def process_task(msg):
task_params = json.loads(msg.value)
item_id = task_params['itemId']
param_value = task_params['paramValue']
logger.info(f"开始处理项【{item_id}】对应参数【{param_value}】")
# 构建请求链接
url = f"{config.get('engine', 'site_base_path')}/view?param={param_value}&id={item_id}"
driver.get(url)
try:
# 简单等待页面加载
time.sleep(3) # 根据需要调整或替换为WebDriverWait
# 生成截图文件名
today = datetime.now().strftime('%Y-%m-%d')
screenshot_dir = os.path.join(config.get('engine', 'image_path'), 'images', today)
os.makedirs(screenshot_dir, exist_ok=True)
fname = os.path.join(screenshot_dir, f"{item_id}_{param_value}.png")
driver.save_screenshot(fname)
logger.info(f"保存截图到 {fname}")
# 上传至OSS(省略具体实现,根据实际情况添加)
upload_to_oss(fname)
# 发送完成通知
notify_completion(item_id, param_value, fname)
logger.info(f"完成处理项【{item_id}】对应参数【{param_value}】")
except Exception as e:
logger.error(f"处理项【{item_id}】对应参数【{param_value}】时发生异常: {e}")
def upload_to_oss(file_path):
"""上传文件到阿里云OSS"""
auth = oss2.Auth(config.get('oss', 'access_key_id'), config.get('oss', 'access_key_secret'))
bucket = oss2.Bucket(auth, config.get('oss', 'endpoint'), config.get('oss', 'bucket_name'))
remote_path = os.path.relpath(file_path, config.get('engine', 'image_path'))
bucket.put_object_from_file(remote_path, file_path)
def notify_completion(item_id, param_value, image_path):
"""发送完成通知"""
producer.send(config.get('kafka', 'notify_topic'), {
'itemId': item_id,
'paramValue': param_value,
'imagePath': image_path
})
6. 启动Kafka消费者
启动Kafka消费者,监听消息并调用处理函数:
if __name__ == "__main__":
consumer = KafkaConsumer(
config.get('kafka', 'topic'),
bootstrap_servers=config.get('kafka', 'bootstrap_servers').split(','),
group_id=config.get('kafka', 'consumer_group'),
auto_offset_reset='latest',
enable_auto_commit=True,
value_deserializer=lambda m: m.decode('utf-8')
)
for msg in consumer:
try:
process_task(msg)
except Exception as ex:
logger.error(f"消费消息发生异常: {ex}")
总结
通过上述简化步骤,你可以快速搭建一个基于Python和Selenium的图像引擎。该引擎能够从Kafka接收任务指令,访问指定网站,截取页面快照,并将截图上传到阿里云OSS。此版本去除了不必要的复杂性,专注于核心功能的实现。
到此这篇关于使用Python和Selenium构建一个自动化图像引擎的文章就介绍到这了,更多相关Python Selenium构建图像引擎内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
一篇文章告诉你如何用Python控制Excel实现自动化办公
这篇文章主要介绍了教你怎么用Python处理excel实现自动化办公,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下2021-08-08
Python face_recognition实现AI识别图片中的人物
最近碰到了照片识别的场景,正好使用了face_recognition项目,给大家分享分享。face_recognition项目能做的很多,人脸检测功能也是有的,是一个比较成熟的项目。感兴趣的可以了解一下2022-01-01
解决pyinstaller打包发布后的exe文件打开控制台闪退的问题
今天小编就为大家分享一篇解决pyinstaller打包发布后的exe文件打开控制台闪退的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2019-06-06
Django中利用filter与simple_tag为前端自定义函数的实现方法
这篇文章主要给大家介绍了Django中利用filter与simple_tag为前端自定义函数的实现方法,文中通过示例代码介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧。2017-06-06


最新评论