Python实战使用XPath采集数据示例解析

更新时间：2023年04月18日 11:13:00 作者：极客飞虎

这篇文章主要为大家介绍了Python实战之使用XPath采集数据实现示例解析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪<BR>

lxml

lxml 是 Python 的一个库，用于解析和呈现 XML 和 HTML。它支持多种内置和第三方 XML 和 HTML 标记，例如 <a>，<img>，<form>，<ul>，<li>，<ol>，<dl>，<dt>，<dd> 等。lxml 还支持使用正则表达式来解析和呈现 XML 和 HTML。

本文我们就介绍lxml的使用方法，我们使用lxml获取我们想要的数据。

发送请求

首先，我们要进行数据来源分析，知道我们的需求是什么？

明确需求:

明确采集网站是什么?
明确采集数据是什么?

我们都玩过4399小游戏，我们想获取游戏名称和游戏链接，并保存下来。首先，我们导入相关的库文件。

import csv
import requests
from lxml import etree

接下来，我们可以发送请求，获取网页源代码，代码如下。

url = 'https://www.4399.com/flash_fl/2_1.htm'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding

这段代码是一个 Python 的 requests 模块的示例代码，用于从 https://www.4399.com/flash_fl/2_1.htm 这个网站上获取数据并将其转换为 HTML 格式。

首先，我们定义了一个 url 变量，它包含了要从网站上获取数据的 URL。然后，我们使用 headers 字典来设置请求头，包括 user-agent 头部，用于指定浏览器的 User-Agent 信息。

接下来，我们使用 requests.get() 函数来发送一个 HTTP GET 请求，并将 headers 字典作为请求头传递给它。这个函数会返回一个 Response 对象，我们可以使用 res.encoding 属性来获取请求的编码方式，并将其设置为 res.apparent_encoding，以便在输出 HTML 时使用相同的编码方式。

最后，我们将请求的编码方式设置为浏览器的默认编码方式，以便在输出 HTML 时使用相同的编码方式。

解析数据

接下来，我们用xpath解析数据。我们用开发者工具定位到标签位置。

html_data = etree.HTML(res.text)
lis = html_data.xpath('//*[@class="bre m15"]//ul/li')
for li in lis:
    href = li.xpath('./a/@href')[0]
    title = li.xpath('./a/img/@alt')[0]

接下来，我们使用 html_data.xpath 方法来解析 HTML 文档中的 ul 和 li 元素，并将它们存储在 lis 变量中。

最后，我们使用 for 循环遍历 lis，并使用 li.xpath 方法来获取每个 li 元素的 a 元素的 href 和 alt 属性，并将它们存储在 href 和 title 变量中。我们运行结果之后，我们还要对链接进行拼接。

保存数据

接下来就是保存数据，先写入头文件。

f = open('4399小游戏.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['游戏名称', '游戏网站'])
csv_writer.writeheader()

这段代码中，我们首先使用 Python 的 open() 函数打开了一个名为 "4399小游戏.csv" 的文件，文件模式为 a，表示追加模式。

然后，我们使用 Python 的 csv 模块创建了一个名为 csv_writer 的 DictWriter 对象，并使用 writeheader() 方法来写入表头。

最后，我们使用 write() 方法向文件中写入数据，数据内容为一个字典对象。

这段代码的作用是将一个字典对象写入到文件中，其中包含了游戏名称和游戏网站两个字段的数据。

需要注意的是，在写入数据之前，我们需要使用 csv.DictWriter() 函数来创建一个 DictWriter 对象，并使用 fieldnames 参数来指定字段名称。此外，我们还需要使用 newline='' 参数来避免在 Windows 系统中出现换行符问题。 '''

dit = {
    '游戏名称': title,
    '游戏网站': data_url,
}
csv_writer.writerow(dit)

'''

以上就是Python实战使用XPath采集数据示例解析的详细内容，更多关于Python XPath采集数据的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python if else语句对缩进的要求
这篇文章主要介绍了Python if else语句对缩进的要求,前面的一篇文章展示了选择结构的三种基本形式，并给出了实例演示，这篇文章基于上一篇内容继续对Python if else语句对缩进进行描述，需要的小伙伴可以参考一下
2022-03-03
Python语言描述随机梯度下降法
这篇文章主要介绍了Python语言描述随机梯度下降法，具有一定借鉴价值,需要的朋友可以参考下
2018-01-01
python入门while循环语句理解学习
这篇文章主要介绍了python入门while循环语句理解学习，文中附含详细图文示例教程，有需要的朋友可以借鉴参考下，希望能够有所帮助
2021-09-09
python 解压pkl文件的方法
今天小编就为大家分享一篇python 解压pkl文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
PyCharm如何设置Console控制台输出自动换行
这篇文章主要介绍了PyCharm如何设置Console控制台输出自动换行问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
在django中实现choices字段获取对应字段值
这篇文章主要介绍了在django中实现choices字段获取对应字段值，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-07-07
scrapy框架中的items文件夹的用法详解
这篇文章主要介绍了scrapy框架中的items文件夹的用法详解,在Scrapy框架中,items文件夹是用来存放定义数据模型的Item类的地方,Item类描述了要从网页中提取的数据的结构和字段,通过使用Item类,我们可以更方便地组织和处理爬取到的数据,需要的朋友可以参考下
2023-10-10
Python实现数字图像处理染色体计数示例
这篇文章主要为大家介绍了Python实现数字图像处理染色体计数示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-06-06
pandas删除某行或某列数据的实现示例
本文主要介绍了pandas删除某行或某列数据的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-08-08
解决python3 urllib 链接中有中文的问题
今天小编就为大家分享一篇解决python3 urllib 链接中有中文的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07

Python实战使用XPath采集数据示例解析

目录

lxml

发送请求

明确需求:

解析数据

保存数据

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具