dedecms采集过滤常用代码集合

 更新时间:2008年03月23日 18:19:15   作者:  
dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合正则的一个全集:

{dede:trim}
{/dede:trim}
{dede:trim} ]*)>{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim} ]*)>([^>]*) 

{/dede:trim}
{dede:trim} ]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}

应用示例一:标题中空格的过滤
经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤

{dede:trim} {/dede:trim}

应用示例二:来源作者中连接的过滤
在采集文章的时候,有的系统里面作者或者来源处都有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤

{dede:trim}]*)>([^<]*){/dede:trim}

应用示例三:文章内容中连接以及其他广告代码的过滤
这个就不用说了,当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤。(这个需要按照对方内容里面具体含有什么代码来具体操作)
一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可以完成过滤:

{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}

应用示例四:过滤GG广告代码
其实这个就是在上面的内容过滤,但是很多论坛里的网友经常问这个,所以单独作为一个应用列出来:

{dede:trim}]*)>([^>]*){/dede:trim} 

相关文章

  • Dedecms模板常用调用标签代码整理

    Dedecms模板常用调用标签代码整理

    因为一直用到dedecms的模板,特把经常用到的调用标签代码整理如下
    2008-05-05
  • dedecms织梦模板引擎标签工作原理

    dedecms织梦模板引擎标签工作原理

    织梦模板引擎是一种使用XML名字空间形式的模板解析器,使用织梦解析器解析模板的最大好处是可以轻松的制定标记的属性,感觉上就像在用HTML一样,使模板代码十分直观灵活,新版的织梦模板引擎不单能实现模板的解析还能分析模板里错误的标记。
    2022-12-12
  • 参考Dedecms整合Discuz完全攻略实现最新的结合

    参考Dedecms整合Discuz完全攻略实现最新的结合

    看到还有很多同学和我一样,说配置不成功,经测试及同学们的指点,我整合成功了,以下是配置过程,供大家参考
    2008-06-06
  • dedecms 日期时间格式大全

    dedecms 日期时间格式大全

    dedecms 日期时间格式大全,大家可以根据需要选择。DEDECMS利用strftime()函数格式化时间的所有参数详解,包括年份日期进制、小时格式等,大家收藏吧,呵.
    2009-05-05
  • DEDE添加迅雷专用链接(半迅雷化)

    DEDE添加迅雷专用链接(半迅雷化)

    半迅雷化专用链接,原来的地址仍然会显示,不利于隐藏真实下载地址,真实下载地址可直接通过源文件看到
    2008-11-11
  • dedecms采集过滤常用代码集合

    dedecms采集过滤常用代码集合

    dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
    2008-03-03
  • dedecms织梦系统数据库表结构详细说明-附表名与字段名

    dedecms织梦系统数据库表结构详细说明-附表名与字段名

    dedecms织梦系统是一个自由和开放源码的内容管理系统,简单易用,功能丰富,原生php程序,二开简单,曾经流行了好多年,就是现在还有人再使用。本文囊括了dedecms数据库所有的86张数据表结构和字段详细说明,需要的朋友可以参考下。
    2023-04-04
  • dedecms tags keywords问题修正方法

    dedecms tags keywords问题修正方法

    由于在经常的使用过程中,我们添加信息一般都是不填写keywords的,我们只填写了tags,而这两者我们一般情况下是一样的。所以我给修改了下。
    2008-11-11
  • DEDECMS后台数据备份还原的应用

    DEDECMS后台数据备份还原的应用

    前台与测试过程--之备份与还原
    2009-02-02
  • Dedecms 后台验证码错误的解决方法

    Dedecms 后台验证码错误的解决方法

    最近在本地搭建环境调试dedecms时,发现安装后后台的验证码无论如何都会提示输入错误,3.1有此情况,而3.01则不会,上dede官方论坛和网上搜索都没有找到解决的办法,只能自己动脑筋了~
    2009-03-03

最新评论