PHP中使用DOMDocument来处理HTML、XML文档的示例

更新时间：2021年04月29日 11:28:35 作者：硬核项目经理

这篇文章主要介绍了PHP中使用DOMDocument来处理HTML、XML文档的示例，帮助大家更好的理解和学习使用php语言，感兴趣的朋友可以了解下

其实从PHP5开始，PHP就为我们提供了一个强大的解析和生成XML相关操作的类，也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容，学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。

解析HTML

// 解析 HTML
$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

// 百度输出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'), PHP_EOL; // wd

// 获取所有图片的链接
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析链接
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

是不是感觉好清晰，好有面向对象的感觉。就像第一次使用 ORM库来进行数据库操作一样的感觉。我们一段一段来看。

$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

首先是加载文档内容，这个比较好理解，直接使用 loadHTML() 方法加载 HTML 内容。它还提供了其它的几个方法，分别是：load() 从一个文件加载XML；loadXML() 从字符串加载XML；loadHTMLFile() 从文件加载HTML。

// 百度输出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'), PHP_EOL; // wd

// 百度输出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'), PHP_EOL; // wd

接下来我们使用和前端 JS 一样的 DOM 操作API来操作HTML里面的元素。这个例子中就是获取百度的文本框，直接使用 getElementById() 方法获得id为指定内容的 DOMElement 对象。然后就可以获取它的值、属性之类的内容了。

// 获取所有图片的链接
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析链接
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

这一段例子则是获取HTML文档中所有的图片链接。相比正则来说，是不是方便很多，而且代码本身就是自解释的，不用考虑正则的匹配失效的问题。配合另外一个PHP中自带的 parse_url() 方法也能非常方便地对链接进行分析，提取自己想要的内容。

XML的解析和对HTML的解析也是类似的，都使用 DOMDocument 和 DOMElement 提供的这个方法接口就可以很方便的进行解析了。那么我们想要生成一个标准格式的XML呢？当然也非常的简单，不需要再去拼接字符串了，使用这个类一样的进行对象化的操作。

生成一个XML

// 生成一个XML文档
$xml = new DOMDocument('1.0', 'UTF-8');

$node1 = $xml->createElement('First', 'This is First Node.');
$node1->setAttribute('type', '1');

$node2 = $xml->createElement('Second');
$node2->setAttribute('type', '2');
$node2_child = $xml->createElement('Second-Child', 'This is Second Node Child.');
$node2->appendChild($node2_child);

$xml->appendChild($node1);
$xml->appendChild($node2);
print $xml->saveXML();

/*
<?xml version="1.0" encoding="UTF-8"?>
<First type="1">This is First Node.</First>
<Second type="2"><Second-Child>This is Second Node Child.</Second-Child></Second>
*/

其实只要有一点点的前端 JS 的基础都不难看出这段代码的含义。使用 createElement() 方法创造 DOMElement 对象，然后就可以为它添加属性和内容。使用 appendChild() 方法就可以为当前的 DOMElement 或者 DOMDocument 添加下级节点。最后使用 saveXML() 就能够生成标准的XML格式内容了。

总结

通过上面两个简单的小例子，相信大家已经对这个 DOMDocument 操作XML类文件解析的方式非常感兴趣了。不过相对于正则解析的方式它们的性能有多大的差异并没有找到相关的测试，不过一般正常的情况下网站的HMTL文档都不会太大，毕竟各个网站也会考虑自身的加载速度，如果文档非常大的话用户体验也会很差，所以这套接口用来进行日常爬虫的分析处理工作基本是没有任何问题的。

测试代码： github.com/zhangyue050…

以上就是PHP中使用DOMDocument来处理HTML、XML文档的示例的详细内容，更多关于PHP DOMDocument处理HTML、XML的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

用穿越火线快速入门php面向对象
php目前已经成为国内的主流web developer的首选开发语言,其强大的面向对象容易使初学者找不到思绪,一头雾水,借助此文希望对初学者有所帮助,假设Crossfire用php来开发
2012-02-02
php+html5基于websocket实现聊天室的方法
这篇文章主要介绍了php+html5基于websocket实现聊天室的方法,实例分析了php结合html5的websocket通讯的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
解决Yii2邮件发送结果返回成功，但接收不到邮件的问题
最近在使用Yii2发送邮件的时候遇到了一个问题，发送返回提示成功但并没有收到邮件，所以通过查找相关的资料，下面这篇文章就来给大家介绍了关于如何解决Yii2邮件发送结果返回成功，但接收不到邮件的问题，需要的朋友可以参考下。
2017-05-05
php网页后退不再出现过期
php网页后退不再出现过期...
2007-03-03
PHP入门教程之日期与时间操作技巧总结(格式化,验证,获取,转换,计算等)
这篇文章主要介绍了PHP入门教程之日期与时间操作技巧,结合实例形式总结分析了php针对日期与时间的验证、格式化、获取、转换、计算等相关操作技巧,需要的朋友可以参考下
2016-09-09
PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT
屏蔽蜘蛛相信每一位站长都不希望这样做吧，因为蜘蛛的访问就没有用户的浏览，直接会给我们带来一定损失，不过也有例外，某些网站就不希望被蜘蛛爬行，接下来为你介绍屏蔽蜘蛛的php代码
2013-03-03
浅谈web上存漏洞及原理分析、防范方法（安全文件上存方法）
我们知道，上存漏洞常见有，文件名检测漏洞，还有就是文件格式检查漏洞。另外还有个一个，就是保存文件存在漏洞
2013-06-06
apache配置虚拟主机的方法详解
本篇文章是对apache配置虚拟主机的方法进行了详细的分析介绍，需要的朋友参考下
2013-06-06
Php部分常见问题总结
[红色]Php部分常见问题总结...
2006-12-12
PHP+jQuery实现滚屏无刷新动态加载数据功能详解
这篇文章主要介绍了PHP+jQuery实现滚屏无刷新动态加载数据功能,涉及php动态读取数据库及加载数据实现滚屏无刷新效果的具体操作技巧,需要的朋友可以参考下
2017-05-05

PHP中使用DOMDocument来处理HTML、XML文档的示例

目录

解析HTML

生成一个XML

总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具