Python + Chrome抓取AJAX动态数据的两种方法

 更新时间:2025年04月15日 10:33:39   作者:小白学大数据  
在现代 Web 开发中,AJAX技术被广泛应用于动态加载数据,使得网页能够在不刷新的情况下更新内容,本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据,并提供两种方法的完整实现代码,需要的朋友可以参考下

前言

在现代 Web 开发中,AJAX(Asynchronous JavaScript and XML) 技术被广泛应用于动态加载数据,使得网页能够在不刷新的情况下更新内容。然而,这也给传统爬虫带来了挑战——使用 <font style="color:rgb(64, 64, 64);">requests</font> + <font style="color:rgb(64, 64, 64);">BeautifulSoup</font> 只能获取初始 HTML,而无法捕获 AJAX 返回的动态数据。

解决方案:

  • Selenium + ChromeDriver:模拟浏览器行为,等待 AJAX 数据加载完成后再抓取。
  • 直接分析 AJAX 请求:通过 Chrome DevTools 捕获 API 接口,用 requests 直接请求数据(更高效)。

本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据,并提供两种方法的完整实现代码。

1. 理解 AJAX 动态加载

1.1 AJAX 工作原理

  • 用户访问网页 → 浏览器加载初始 HTML。
  • JavaScript 发起 AJAX 请求(通常是 fetch 或 XMLHttpRequest)。
  • 服务器返回 JSON/XML 数据 → 前端动态渲染到页面。

1.2 传统爬虫的问题

import requests
from bs4 import BeautifulSoup

response = requests.get("https://example.com")
soup = BeautifulSoup(response.text, "html.parser")
# 只能获取初始 HTML,无法得到 AJAX 数据!

2. 方法 1:使用 Selenium + Chrome 模拟浏览器

2.1 环境准备

安装必要的库

2.2 示例:爬取动态加载的新闻列表

假设目标网站(如新浪新闻)通过 AJAX 加载更多新闻。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time

# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 配置 Chrome 代理
chrome_options = Options()
chrome_options.add_argument(f"--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}")

# 启动 Chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
driver.get("https://news.sina.com.cn/")

# 等待 AJAX 内容加载(假设新闻列表通过 AJAX 渲染)
try:
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, ".news-item"))
    )
except:
    print("超时,未找到新闻列表")

# 提取新闻标题和链接
news_items = driver.find_elements(By.CSS_SELECTOR, ".news-item")
for item in news_items:
    title = item.find_element(By.CSS_SELECTOR, "a").text
    link = item.find_element(By.CSS_SELECTOR, "a").get_attribute("href")
    print(f"标题: {title}\n链接: {link}\n")

# 关闭浏览器
driver.quit()

2.3 关键点说明

  • WebDriverWait:显式等待 AJAX 数据渲染完成。
  • EC.presence_of_element_located:检查目标元素是否已加载。
  • find_elements + CSS/XPath:定位动态生成的内容。

3. 方法 2:直接抓取 AJAX API 数据(更高效)

3.1 分析 AJAX 请求

  1. 打开 Chrome → F12(开发者工具) → Network(网络) 标签页。
  2. 刷新页面,筛选 XHR/fetch 请求。
  3. 找到返回目标数据的 API 接口(通常是 json 格式)。

3.2 示例:爬取豆瓣电影 AJAX 数据

豆瓣电影首页通过 AJAX 加载热门电影列表。

步骤 1:分析 API

  • 打开 https://movie.douban.com → F12 → Network → 筛选 XHR。
  • 发现 API:https://movie.douban.com/j/search_subjects?...

步骤 2:用 Python 直接请求 API

import requests
import json

# 豆瓣电影 AJAX API
url = "https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url, headers=headers)
data = response.json()  # 直接解析 JSON

# 提取电影信息
for movie in data["subjects"]:
    print(f"电影名: {movie['title']}")
    print(f"评分: {movie['rate']}")
    print(f"链接: {movie['url']}\n")

3.3 优势与限制

  • 优势:速度快,无需加载完整页面。
  • 限制:需手动分析 API,部分接口可能有加密或鉴权。

4. 总结

方法适用场景优点缺点
Selenium复杂动态渲染页面能模拟完整浏览器行为速度慢,资源占用高
直接请求 API结构化数据(如 JSON)高效,速度快需手动分析接口,可能受限

最佳实践建议

  • 优先分析 AJAX API:如果目标网站有清晰的接口,直接请求更高效。
  • Selenium 备用:适用于无法直接获取 API 或需要交互的页面。
  • 遵守 Robots.txt:避免高频请求,防止被封禁。

到此这篇关于Python + Chrome抓取AJAX动态数据的两种方法的文章就介绍到这了,更多相关Python Chrome抓取AJAX数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python difflib模块示例讲解

    python difflib模块示例讲解

    这篇文章主要为大家详细介绍了python difflib模块的示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • 浅析pip安装第三方库及pycharm中导入第三方库的问题

    浅析pip安装第三方库及pycharm中导入第三方库的问题

    这篇文章主要介绍了浅析pip安装第三方库及pycharm中导入第三方库的问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • python3两数相加的实现示例

    python3两数相加的实现示例

    这篇文章主要介绍了python3两数相加的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • python3使用pandas获取股票数据的方法

    python3使用pandas获取股票数据的方法

    今天小编就为大家分享一篇python3使用pandas获取股票数据的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python使用切片快速删除列表数据

    Python使用切片快速删除列表数据

    在 Python 中,列表(list)是一种常用的数据结构,支持动态增删改查操作,但切片(slice)提供了一种更高效、更灵活的方式来删除或修改列表的连续部分,本文将详细介绍如何使用切片快速删除列表数据,需要的朋友可以参考下
    2026-04-04
  • Python根据文件名批量转移图片的方法

    Python根据文件名批量转移图片的方法

    今天小编就为大家分享一篇Python根据文件名批量转移图片的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python中的闭包详细介绍和实例

    Python中的闭包详细介绍和实例

    这篇文章主要介绍了Python中的闭包详细介绍和实例,本文先是详细讲解了闭包的相关知识,然后给出了python中闭包例子、lamada例子,需要的朋友可以参考下
    2014-11-11
  • 人脸识别具体案例

    人脸识别具体案例

    出于兴趣和对IU的喜爱,笔者花了几天尝试用爬虫从百度图片获取人物图片并下载,利用深度神经网络从其中识别出人,并将图片保存至文件夹。若读者有兴趣可以参考下
    2021-04-04
  • Python NumPy 数组索引的示例详解

    Python NumPy 数组索引的示例详解

    数组索引是指使用方括号([])来索引数组值,numpy提供了比常规的python序列更多的索引工具,除了按整数和切片索引之外,数组可以由整数数组索引、布尔索引及花式索引,这篇文章主要介绍了Python NumPy 数组索引,需要的朋友可以参考下
    2023-01-01
  • Python实现为Excel中每个单元格计算其在文件中的平均值

    Python实现为Excel中每个单元格计算其在文件中的平均值

    这篇文章主要为大家详细介绍了如何基于Python语言实现对大量不同的Excel文件加以跨文件、逐单元格平均值计算,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-10-10

最新评论