用PHP代替JS玩转DOM的思路及示例代码

 更新时间:2014年06月15日 17:21:29   投稿:whsnow  
思路就是通过DOMDocument将一个html file转换成DOM树的数据结构,再用DOMXPath的实例去搜索这个DOM树,接下来就可以对当前节点的子树进行遍历
事情的起源比较简单,我需要把一个导航页的数据整理好写入数据库。一个比较直观的方法是对html文件进行分析,通用的方法是用php的正则表达式来匹配。但是这样做开发和维护都很困难,代码可读性非常差。

导航页的数据都是规则的排列在DOM树当中的,用JS可以用几个循环轻松的对其进行操作,而且JS需要依赖浏览器,操作数据库很困难。其实PHP就有现成的类库对DOM树种的节点进行增删改查操作,在此做一些笔记。

这里涉及到2个类 DOMDocument 和 DOMXPath。

其实思路比较明确,就是通过DOMDocument将一个html file转换成DOM树的数据结构,再用DOMXPath的实例去搜索这个DOM树,拿到想要特定节点,接下来就可以对当前节点的子树进行遍历,得到想要的结果。

在当前目录下有一个这样一个导航的html文件 "./hao.html"

现在需要得到所有<a>标签的中文内容,php代码如下:
复制代码 代码如下:

<?php
//将html/xml文件转换成DOM树
$dom = new DOMDocument();
$dom->loadHTMLFile("hao.html");

//得到所有class为fix的dl标签

// example 1: for everything with an id
//$elements = $xpath->query("//*[@id]");

// example 2: for node data in a selected id
//$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']");

// example 3: same as above with wildcard
//$elements = $xpath->query("*/div[@id='yourTagIdHere']");
$xpath = new DOMXPath($dom);
$dls = $xpath->query('//dl[@class="fix"]');

foreach ($dls as $dl) {
$spans = $dl->childNodes;
foreach ($spans as $span) {
echo trim($span->textContent)."\t";
}
echo "\n";
}
?>

输出结果如下:

注意:值得注意的一点是DOMDocument的默认编码方式是Latin,所以在处理utf编码的中文的时候,需要在<head>后面紧跟着填入
复制代码 代码如下:

<meta http-equiv="content-type" content="text/html; charset=utf-8">

在其他位置,或者是只写上<meta content="charset=utf-8">都是不识别的哦

相关文章

  • ThinkPHP中公共函数路径和配置项路径的映射分析

    ThinkPHP中公共函数路径和配置项路径的映射分析

    这篇文章主要介绍了ThinkPHP中公共函数路径和配置项路径的映射,较为通俗的分析了ThinkPHP中公共函数路径和配置项路径的映射关系与对应修改位置,有助于更好的理解ThinkPHP底层代码原理,需要的朋友可以参考下
    2014-11-11
  • PHP中error_reporting()函数的用法(修改PHP屏蔽错误)

    PHP中error_reporting()函数的用法(修改PHP屏蔽错误)

    一般在默认的普通PHP文件中输出一个未定义声明的变量是不会报错误的,但在codeigniter框架下却要报错误,这对于想集成 添加 和 修改 页面于一体的”懒人”很不方便,由于是初学者开始还想怎么在代码中屏蔽这一错误提示呢.甚至用到了@,但听很多人都说@会大大降低性能.
    2011-07-07
  • PHP简单实现冒泡排序的方法

    PHP简单实现冒泡排序的方法

    这篇文章主要介绍了PHP简单实现冒泡排序的方法,结合实例形式分析了php冒泡排序的实现与使用技巧,需要的朋友可以参考下
    2016-12-12
  • php中的数组操作函数整理

    php中的数组操作函数整理

    PHP 中的数组实际上是一个有序图。图是一种把 values 映射到 keys 的类型。此类型在很多方面做了优化,因此可以把它当成真正的数组来使用,或列表(矢量),散列表(是图的一种实现),字典,集合,栈,队列以及更多可能性。因为可以用另一个 PHP 数组作为值,也可以很容易地模拟树。
    2008-08-08
  • php mssql 分页SQL语句优化 持续影响

    php mssql 分页SQL语句优化 持续影响

    经过SQL优化后的分面查询速度能够得到大幅提高。
    2009-04-04
  • PHP中抽象类、接口的区别与选择分析

    PHP中抽象类、接口的区别与选择分析

    这篇文章主要介绍了PHP中抽象类、接口的区别与选择,较为详细的分析了PHP中抽象类与接口的概念、用法、区别与使用注意事项,需要的朋友可以参考下
    2016-03-03
  • PHP实现简单ajax Loading加载功能示例

    PHP实现简单ajax Loading加载功能示例

    这篇文章主要介绍了PHP实现简单ajax Loading加载功能的方法,结合实例形式分析了ajax加载的原理、操作技巧与相关注意事项,需要的朋友可以参考下
    2016-12-12
  • php生成验证码函数

    php生成验证码函数

    这篇文章主要介绍了php生成验证码函数的相关资料,需要的朋友可以参考下
    2015-10-10
  • PHP用strstr()函数阻止垃圾评论(通过判断a标记)

    PHP用strstr()函数阻止垃圾评论(通过判断a标记)

    假如你的网站垃圾评论很多,大部分垃圾评论是带链接的,因为要增加反向链接嘛,所以你可以使用下面的小技巧来杜绝这些带链接的垃圾评论
    2013-09-09
  • 深入解析PHP的Yii框架中的缓存功能

    深入解析PHP的Yii框架中的缓存功能

    这篇文章主要介绍了PHP的Yii框架中的缓存功能,作为一个追求高大全的重量级框架,Yii的缓存存储器和API十分丰富,需要的朋友可以参考下
    2016-03-03

最新评论