Python全方位操作XML文件的方法完整指南

更新时间：2026年04月09日 08:19:15 作者：detayun

在数据交换和存储领域,XML（可扩展标记语言）凭借其灵活性和可读性占据着重要地位,本文将深入探讨Python操作XML文件的多种方法,并结合实际案例进行详细说明,希望对大家有所帮助

在数据交换和存储领域，XML（可扩展标记语言）凭借其灵活性和可读性占据着重要地位。Python作为一门功能强大的编程语言，提供了多种方式来操作XML文件，无论是读取、写入、修改还是删除，都能轻松应对。本文将深入探讨Python操作XML文件的多种方法，并结合实际案例进行详细说明。

一、XML文件基础

XML文件由一系列标签组成，这些标签可以包含属性，标签之间可以嵌套，形成树状结构。例如，一个简单的XML文件可能如下所示：

<?xml version="1.0" encoding="UTF-8"?>
<library>
    <book id="1001">
        <title>Python编程</title>
        <author>埃里克·马瑟斯</author>
        <price>89.0</price>
    </book>
    <book id="1002">
        <title>XML基础教程</title>
        <author>李四</author>
        <price>59.0</price>
    </book>
</library>

这个XML文件描述了一个图书馆的藏书信息，包含了两本书的详细信息，每本书都有唯一的id属性，以及title、author和price等子标签。

二、Python操作XML文件的常用库

Python标准库中提供了多种处理XML文件的方式，主要包括xml.etree.ElementTree、xml.dom.minidom和xml.sax。此外，还有第三方库lxml，它提供了更强大的功能和更好的性能。

1.xml.etree.ElementTree（ET）

xml.etree.ElementTree是Python标准库中用于处理XML文件的轻量级库，它提供了简单易用的API，能够满足大多数XML处理场景的需求。ET具有占用内存小、速度快、使用方便等优点，是处理XML文件的首选库。

读取XML文件

使用ET读取XML文件非常简单，只需调用ET.parse()函数即可。该函数接受一个文件路径作为参数，返回一个ElementTree对象，通过该对象的getroot()方法可以获取XML文件的根元素。

import xml.etree.ElementTree as ET

# 读取XML文件
tree = ET.parse('library.xml')
root = tree.getroot()

# 遍历根元素的子元素
for book in root:
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    price = book.find('price').text
    print(f"ID: {book_id}, 标题: {title}, 作者: {author}, 价格: {price}")

上述代码首先读取library.xml文件，然后遍历根元素<library>的子元素<book>，获取每本书的id、title、author和price信息，并打印出来。

写入XML文件

使用ET写入XML文件需要先创建根元素，然后通过ET.SubElement()函数创建子元素，并设置子元素的文本内容和属性。最后，将根元素封装成ElementTree对象，并调用write()方法将XML文件写入磁盘。

import xml.etree.ElementTree as ET

# 创建根元素
root = ET.Element('library')

# 创建第一本书的元素
book1 = ET.SubElement(root, 'book', id='1003')
ET.SubElement(book1, 'title').text = 'Java编程'
ET.SubElement(book1, 'author').text = '张三'
ET.SubElement(book1, 'price').text = '79.0'

# 创建第二本书的元素
book2 = ET.SubElement(root, 'book', id='1004')
ET.SubElement(book2, 'title').text = 'C++编程'
ET.SubElement(book2, 'author').text = '李四'
ET.SubElement(book2, 'price').text = '85.0'

# 创建ElementTree对象并写入文件
tree = ET.ElementTree(root)
tree.write('new_library.xml', encoding='utf-8', xml_declaration=True)

上述代码创建了一个新的XML文件new_library.xml，包含了两本书的信息。

修改XML文件

修改XML文件通常需要先读取文件，然后找到需要修改的元素，修改其文本内容或属性，最后将修改后的XML文件保存到磁盘。

import xml.etree.ElementTree as ET

# 读取XML文件
tree = ET.parse('library.xml')
root = tree.getroot()

# 修改第一本书的价格
for book in root:
    if book.get('id') == '1001':
        price_elem = book.find('price')
        price_elem.text = '85.0'
        price_elem.set('currency', 'CNY')

# 保存修改后的XML文件
tree.write('modified_library.xml', encoding='utf-8', xml_declaration=True)

上述代码将id为1001的书的price标签的文本内容修改为85.0，并添加了一个currency属性。

删除XML文件中的元素

删除XML文件中的元素需要先找到需要删除的元素，然后调用父元素的remove()方法将其删除。

import xml.etree.ElementTree as ET

# 读取XML文件
tree = ET.parse('library.xml')
root = tree.getroot()

# 删除id为1002的书
for book in root:
    if book.get('id') == '1002':
        root.remove(book)

# 保存修改后的XML文件
tree.write('deleted_library.xml', encoding='utf-8', xml_declaration=True)

上述代码将id为1002的书从XML文件中删除。

2.xml.dom.minidom

xml.dom.minidom是Python标准库中用于解析和操作XML文件的DOM实现。DOM将整个XML文件读入内存，并解析为一个树状结构，通过对树的操作来操作XML文件。DOM方式占用内存较大，解析速度较慢，但提供了丰富的API，可以方便地进行各种操作。

读取XML文件

使用xml.dom.minidom读取XML文件需要调用parse()函数，该函数接受一个文件路径作为参数，返回一个Document对象。通过该对象的documentElement属性可以获取XML文件的根元素。

from xml.dom.minidom import parse

# 读取XML文件
dom = parse('library.xml')
root = dom.documentElement

# 获取所有book元素
books = root.getElementsByTagName('book')
for book in books:
    book_id = book.getAttribute('id')
    title = book.getElementsByTagName('title')[0].childNodes[0].nodeValue
    author = book.getElementsByTagName('author')[0].childNodes[0].nodeValue
    price = book.getElementsByTagName('price')[0].childNodes[0].nodeValue
    print(f"ID: {book_id}, 标题: {title}, 作者: {author}, 价格: {price}")

上述代码读取library.xml文件，获取所有<book>元素，并打印每本书的id、title、author和price信息。

写入XML文件

使用xml.dom.minidom写入XML文件需要先创建Document对象，然后创建根元素和子元素，并设置子元素的文本内容和属性。最后，调用toprettyxml()方法将XML文件格式化为字符串，并写入磁盘。

from xml.dom.minidom import Document

# 创建Document对象
doc = Document()

# 创建根元素
root = doc.createElement('library')
doc.appendChild(root)

# 创建第一本书的元素
book1 = doc.createElement('book')
book1.setAttribute('id', '1003')
root.appendChild(book1)

title1 = doc.createElement('title')
title1.appendChild(doc.createTextNode('Java编程'))
book1.appendChild(title1)

author1 = doc.createElement('author')
author1.appendChild(doc.createTextNode('张三'))
book1.appendChild(author1)

price1 = doc.createElement('price')
price1.appendChild(doc.createTextNode('79.0'))
book1.appendChild(price1)

# 创建第二本书的元素
book2 = doc.createElement('book')
book2.setAttribute('id', '1004')
root.appendChild(book2)

title2 = doc.createElement('title')
title2.appendChild(doc.createTextNode('C++编程'))
book2.appendChild(title2)

author2 = doc.createElement('author')
author2.appendChild(doc.createTextNode('李四'))
book2.appendChild(author2)

price2 = doc.createElement('price')
price2.appendChild(doc.createTextNode('85.0'))
book2.appendChild(price2)

# 将XML文件写入磁盘
xml_str = doc.toprettyxml(indent='    ')
with open('new_library_dom.xml', 'w', encoding='utf-8') as f:
    f.write(xml_str)

上述代码创建了一个新的XML文件new_library_dom.xml，包含了两本书的信息。

3.xml.sax

xml.sax是Python标准库中用于解析XML文件的SAX实现。SAX采用流式处理方式，逐行扫描XML文件，边扫描边解析，占用内存较小，速度较快，但需要用户实现回调函数来处理解析过程中触发的事件。

读取XML文件

使用xml.sax读取XML文件需要定义一个继承自ContentHandler的类，并实现其中的startElement()、endElement()和characters()方法。然后，创建一个SAXParser对象，并设置其ContentHandler为自定义的类，最后调用parse()方法解析XML文件。

import xml.sax

class BookHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.current_data = ''
        self.book_id = ''
        self.title = ''
        self.author = ''
        self.price = ''

    def startElement(self, tag, attributes):
        self.current_data = tag
        if tag == 'book':
            self.book_id = attributes['id']

    def endElement(self, tag):
        if tag == 'title':
            print(f"标题: {self.title}")
        elif tag == 'author':
            print(f"作者: {self.author}")
        elif tag == 'price':
            print(f"价格: {self.price}")
        self.current_data = ''

    def characters(self, content):
        if self.current_data == 'title':
            self.title = content
        elif self.current_data == 'author':
            self.author = content
        elif self.current_data == 'price':
            self.price = content

# 创建SAXParser对象并解析XML文件
parser = xml.sax.make_parser()
handler = BookHandler()
parser.setContentHandler(handler)
parser.parse('library.xml')

上述代码定义了一个BookHandler类，用于处理解析过程中触发的事件。然后，创建一个SAXParser对象，并设置其ContentHandler为BookHandler，最后调用parse()方法解析library.xml文件。

4.lxml

lxml是一个第三方库，它提供了比xml.etree.ElementTree更强大的功能和更好的性能。lxml支持XPath查询、XSLT转换、Schema校验等高级功能，是处理复杂XML文件的理想选择。

安装lxml

使用pip安装lxml库：

pip install lxml

读取XML文件

使用lxml读取XML文件与使用xml.etree.ElementTree类似，只需调用etree.parse()函数即可。

from lxml import etree

# 读取XML文件
tree = etree.parse('library.xml')
root = tree.getroot()

# 使用XPath查询所有价格大于60的书
high_price_books = root.xpath('.//book[price>60]')
for book in high_price_books:
    title = book.find('title').text
    print(f"高价书: {title}")

上述代码使用XPath查询所有价格大于60的书，并打印其标题。

写入XML文件

使用lxml写入XML文件需要先创建根元素，然后通过etree.SubElement()函数创建子元素，并设置子元素的文本内容和属性。最后，将根元素封装成ElementTree对象，并调用write()方法将XML文件写入磁盘。

from lxml import etree

# 创建根元素
root = etree.Element('library')

# 创建第一本书的元素
book1 = etree.SubElement(root, 'book', id='1003')
etree.SubElement(book1, 'title').text = 'Java编程'
etree.SubElement(book1, 'author').text = '张三'
etree.SubElement(book1, 'price').text = '79.0'

# 创建第二本书的元素
book2 = etree.SubElement(root, 'book', id='1004')
etree.SubElement(book2, 'title').text = 'C++编程'
etree.SubElement(book2, 'author').text = '李四'
etree.SubElement(book2, 'price').text = '85.0'

# 创建ElementTree对象并写入文件
tree = etree.ElementTree(root)
tree.write('new_library_lxml.xml', pretty_print=True, encoding='utf-8', xml_declaration=True)

上述代码创建了一个新的XML文件new_library_lxml.xml，包含了两本书的信息，并使用pretty_print=True参数使XML文件格式化输出。

三、总结

Python提供了多种方式来操作XML文件，包括xml.etree.ElementTree、xml.dom.minidom、xml.sax和lxml。xml.etree.ElementTree是处理XML文件的首选库，它具有占用内存小、速度快、使用方便等优点。xml.dom.minidom提供了丰富的API，但占用内存较大，解析速度较慢。xml.sax采用流式处理方式，占用内存较小，速度较快，但需要用户实现回调函数。lxml是一个第三方库，提供了比xml.etree.ElementTree更强大的功能和更好的性能，支持XPath查询、XSLT转换、Schema校验等高级功能。

在实际应用中，应根据具体需求选择合适的库来操作XML文件。对于简单的XML处理场景，xml.etree.ElementTree通常能够满足需求；对于复杂的XML处理场景，lxml可能是更好的选择。

以上就是Python全方位操作XML文件的方法完整指南的详细内容，更多关于Python操作XML文件的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python
XML

详解python os.walk()方法的使用
今天给大家带来的是关于Python的相关知识,文章围绕python os.walk()方法的使用展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
Python如何实用File文件的实现
本文主要介绍了Python如何实用File文件的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
Python实现简单求解给定整数的质因数算法示例
这篇文章主要介绍了Python实现简单求解给定整数的质因数算法,结合实例形式分析了Python正整数分解质因数的相关操作技巧,需要的朋友可以参考下
2018-03-03
cython加速python代码的方法实现
本文主要介绍了cython加速python代码的方法实现,特别是在涉及到数值计算密集型任务时,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2024-07-07
Django零基础入门之调用漂亮的HTML前端页面
这篇文章主要介绍了Django零基础入门之调用漂亮的HTML前端页面的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-09-09
python爬虫模块URL管理器模块用法解析
这篇文章主要介绍了python爬虫模块URL管理器模块用法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-02-02
pyqt和pyside开发图形化界面
选择PyQt或PySide来开发图形界面是因为Python和Qt的跨平台特性，Qt5甚至支持iOS和Android，并且开发相同的软件，Python的效率是极高的，下面看使用示例
2014-01-01
python手动抛出异常的操作方法
在Python中,可以使用raise关键字手动抛出异常,通过定义自定义异常类并使用raise语句来抛出异常,抛出异常后,如果没有被捕获,程序会终止并显示异常信息,本文介绍python手动抛出异常的操作方法,感兴趣的朋友跟随小编一起看看吧
2026-02-02
python实现WebSocket服务端过程解析
这篇文章主要介绍了python实现WebSocket服务端过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-10-10
Python爬取腾讯视频评论的思路详解
这篇文章主要介绍了Python爬取腾讯视频评论功能，本文图文详解给大家提供实现思路,需要的朋友可以参考下
2019-12-12