PHP 正则表达式分析RSS

更新时间：2009年01月01日 15:28:32 作者：

近做了一个读取中国新闻网RSS的页面。首先是把RSS文档下载下来保存到本地

$xmlfile = 'news/'.date('YmdH').'.xml'; 
$sourcexml = 'http://www.chinanews.com.cn/rss/scroll-news.xml'; 
if( !file_exists($xmlfile) ) { 
$str = @file($sourcexml) or die('加载文件时出错。'); 
$fp = fopen($xmlfile,'w') or die('写缓存失败!'); 
fputs($fp,$str); 
fclose($fp); 

然后用simplexml读取并输出HTML

复制代码代码如下:

$xml = simplexml_load_file($xmlfile); 
$c = $xml->channel; 
$k = 0; 
foreach($c->item as $v) { 
$k ++; 
echo " 
<div class=\"newsline\">·<a title=\"$v->title\" href=\"$v->link\" target=\"_blank\">$v->title</a></div> 
"; 

后来遇到了一个问题，就是RSS中经常包含有一些GBK的繁体字。google了很多字符集转换方面的文章。得出一个解法：

复制代码代码如下:

$str = mb_convert_encoding( join('',$str), "gb2312", "GBK");

这个方法并不能繁体转为简体，会转成一个乱码，但至少能保证simplexml_load_file($xmlfile)执行成功。因为这些繁体字通常出现在描述里
，暂且接受。
再后来遇到另一个问题，描述里出现了形如“中新网12月30日电(闻育e?”的乱码，simplexml_load_file失败。
至此考虑用正则表达式获取标题和链接。（有文章说正则表达式效率可能更好，以后再验证）
代码如下：

复制代码代码如下:

$fp = fopen($xmlfile,'r'); 
if($fp) 
{ 
$data = fread($fp,filesize($xmlfile)); 
fclose($fp); 
preg_match_all( 
"/<item><title>(.*?)<\/title><link>(.*?)<\/link>/i",$data,$out,PREG_SET_ORDER); 
foreach($out as $key => $v) 
{ 
$v[1] = iconv('gbk','utf-8',$v[1]); 
echo " 
<div class=\"newsline\">·<a title=\"$v[1]\" href=\"$v[2]\" target=\"_blank\">$v[1]</a></div> 
"; 
} 
} 

您可能感兴趣的文章:

php password密码验证正则表达式(8位长度限制)
php password密码验证正则表达式(8位长度限制)，需要的朋友可以参考下。
2011-07-07
正则表达式中环视的简单应用示例【基于java】
这篇文章主要介绍了正则表达式中环视的简单应用,简单分析了环视的概念与功能,并基于java给出了正则表达式环视的具体使用技巧,需要的朋友可以参考下
2017-04-04
正则表达式匹配ip地址超级详细讲解
这篇文章主要给大家介绍了关于正则表达式匹配ip地址超级详细讲解的相关资料,IP地址正则表达式由四个部分组成,每个部分都是由一个或多个数字或数字区间组成,中间用.连接,需要的朋友可以参考下
2023-12-12
vbs:能算出一个字符在一字段里共出现有几次的函数
vbs:能算出一个字符在一字段里共出现有几次的函数...
2007-04-04
正则表达式拆分url实例代码
这篇文章主要给大家介绍了关于正则表达式拆分url的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2022-02-02
如何用正则取input type="text"中的value
如何用正则取input type="text"中的value...
2006-10-10
Python正则表达式保姆式教学详细教程
正则作为处理字符串的一个实用工具，在Python中经常会用到，比如爬虫爬取数据时常用正则来检索字符串。这篇文章主要介绍了Python正则表达式保姆式教学详细教程,需要的朋友可以参考下
2021-08-08
正则表达式,提取网页中的链接地址
正则表达式,提取网页中的链接地址...
2006-10-10
支持正则表达式更名的命令行工具
这篇文章主要介绍了支持正则表达式更名的命令行工具,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-04-04
Java正则表达式过滤出字母、数字和中文
正则表达式在java程序中应用非常广泛，本文给大家介绍java正则表达式过滤字母、数字和中文，本文代码讲解的非常详细，非常具有参考价值，感兴趣的朋友快来看看吧
2015-10-10

PHP 正则表达式分析RSS

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具