dedecms采集过滤常用代码集合

 更新时间:2008年03月23日 18:19:15   作者:  
dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合正则的一个全集:

{dede:trim}
{/dede:trim}
{dede:trim} ]*)>{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim} ]*)>([^>]*) 

{/dede:trim}
{dede:trim} ]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}
]*)>([^>]*) 

{/dede:trim}
{dede:trim}
]*)>{/dede:trim}
{dede:trim} 

{/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}]*)>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}

应用示例一:标题中空格的过滤
经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤

{dede:trim} {/dede:trim}

应用示例二:来源作者中连接的过滤
在采集文章的时候,有的系统里面作者或者来源处都有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤

{dede:trim}]*)>([^<]*){/dede:trim}

应用示例三:文章内容中连接以及其他广告代码的过滤
这个就不用说了,当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤。(这个需要按照对方内容里面具体含有什么代码来具体操作)
一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可以完成过滤:

{dede:trim}]*)>([^<]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}
{dede:trim}]*)>([^>]*){/dede:trim}

应用示例四:过滤GG广告代码
其实这个就是在上面的内容过滤,但是很多论坛里的网友经常问这个,所以单独作为一个应用列出来:

{dede:trim}]*)>([^>]*){/dede:trim} 

相关文章

  • DedeCMS v5.1 首页幻灯显示不正常的解决方法

    DedeCMS v5.1 首页幻灯显示不正常的解决方法

    dedecms下的图片总显示img/default.gif,任何新文章他都当成是幻灯片
    2008-06-06
  • dedecms下仿chinaz二级下拉动态读取代码

    dedecms下仿chinaz二级下拉动态读取代码

    最近用dedecms模仿chinaz的模板,发现每次都用静态以后的文件特麻烦,没想到网上已经有高手给解决了,大家看代码
    2008-05-05
  • DEDE最简方式教你缩短软件列表的方法

    DEDE最简方式教你缩短软件列表的方法

    相信不少朋友用DEDE在做下载站吧,DEDE确实是广大站长 朋友的建站利器啊,偶也在用。可用着发现当中后台添加软件 时,软件的列表过长,导致页面打开比较慢,而且软件也不容易 找,好了,废话不多说,自己看吧。
    2008-03-03
  • dedecms调用discuz论坛信息按照ID分类调用附详细说明

    dedecms调用discuz论坛信息按照ID分类调用附详细说明

    dedecms调用discuz论坛帖子、图片数据的方法很多人都有需要,大家一起整理了,我这里只有新帖、版块帖子调用方法。精华、回复、图片的调用还没有,请高手补充。
    2008-06-06
  • Dedecms模板常用调用标签代码整理

    Dedecms模板常用调用标签代码整理

    因为一直用到dedecms的模板,特把经常用到的调用标签代码整理如下
    2008-05-05
  • dedecms v5.1 WriteBookText() code injection vul注入漏洞

    dedecms v5.1 WriteBookText() code injection vul注入漏洞

    来源:Ph4nt0m Google Group by Flyh4t@126.com QQ:378367942
    2008-05-05
  • dedecms中如何在栏目列表和文章页面中获得当前栏目标题

    dedecms中如何在栏目列表和文章页面中获得当前栏目标题

    我们在使用dedecms中会发现,当我们打开栏目的列表页和文章页的时候,无论我们使用什么标签,都无法获得当前栏目的标题信息。究其原因是因为这两个页面所读取的信息主要来源于dedecms的dede_archives表及其附加表,仅通过传递栏目的id编号来区别不同栏目,因此我们通过类似{dede:field name=’typename’/}这样的方法是无法直接获得栏目名称的。但是我们依然可以通过程序的改造,利用栏目的唯一id编号,获得栏目名称。以下是实现方法:
    2008-03-03
  • dedecms 日期时间格式大全

    dedecms 日期时间格式大全

    dedecms 日期时间格式大全,大家可以根据需要选择。DEDECMS利用strftime()函数格式化时间的所有参数详解,包括年份日期进制、小时格式等,大家收藏吧,呵.
    2009-05-05
  • dedecms 自由列表调用代码

    dedecms 自由列表调用代码

    制作www.yuanma51.com时模仿downkr的模板发现的,自定义输出最新更新等,但不完美,大家有好的方法可以交流下
    2008-03-03
  • dedecms采集过滤常用代码集合

    dedecms采集过滤常用代码集合

    dede采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
    2008-03-03

最新评论