用python写的一个wordpress的采集程序

 更新时间:2016年02月27日 22:03:28   作者:运维人生   我要评论
在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,需要的朋友可以参考下

在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码:

具体代码如下:

#! /usr/bin/python
 import os,urllib2,re,time,MySQLdb,sys
 reTitle          = re.compile('<font[^>]*>(.*?)<\/font><font[^>]*')
 reNeiron         = re.compile('[1-9|A-Z|a-z].*')
 retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
 rezhong          = re.compile('^[^[].*')
 shijian=1190944000
 Str1="\\n---------------- BLOG OF YAO"
 bianhao=2859
 for i in range(1,1500):
     Str2=""
     ltime=time.localtime(shijian)
     timeStr=time.strftime("%Y%m%d",ltime)
     url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr
     print url
     a=urllib2.urlopen(url).read()
     Title=reTitle.findall(a)
     print "=========================================================================================================="
     for titles in map(None,Title):
         titles=MySQLdb.escape_string(titles)
         print titles
     Neiron=re.findall(reNeiron,a)
     for i in map(None,Neiron):
         x=re.findall(retiqu,i)
         for str in x:
             str=MySQLdb.escape_string(str)
             Str2 += str+"\\n"
     shijian += 86400
     bianhao += 1
     try:
         conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
     except MySQLdb.OperationalError,message:
         print "like error"
     cursor=conn.cursor()
     sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao
     sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
     cursor.execute(sql)
     cursor.execute(sql2)
     cursor.close()
     conn.close()
     sys.exit()

下面,我们来给代码加些注释,让读者能看的更明白一些,如下:

具体代码如下

#! /usr/bin/python
 import os,urllib2,re,time,MySQLdb,sys #加载本程序需要调用的相模块
reTitle          = re.compile('<font[^>]*>(.*?)<\/font> <font[^>]*') # 定义一下取文章标题的正则
reNeiron         = re.compile('[1-9|A-Z|a-z].*') 
 #定义一个取提取文章内容的正则(注:这里提取出来的不是很精细,需要在下面的正则里,再进行提取,这里只是取一个大概)
retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
 #这里定义一个正则,将上面reNeiron提取出来的字符,再进行细化。

shijian=1190944000  #这里字义了一个时间戳,
Str1="\\n---------------- BLOG OF YAO" #这个没用,开始是准备加到文章里的,后来没加进去。
bianhao=2859   #这里是wordpress 的文章编号,直接查看wp-posts表的id 字段的最后一个数字。

for i in range(1,1500): #循环1500遍,也就是采集1500篇文章。
    Str2="" #先赋值给Str2 空值
    ltime=time.localtime(shijian)  
     timeStr=time.strftime("%Y%m%d",ltime) #这两句将上面的时间戳改为时间,样式为19700101这样的格式
    url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr #定义要采集的网站,将转化后的时间放在这个url的最后。
    a=urllib2.urlopen(url).read() #将这个网页的源代码读出来,赋值给a;
     Title=reTitle.findall(a)
 #使用 reTitle这个正则提取出标题
    print "=========================================================================================================="
     for titles in map(None,Title): #上面提取出来的标题前后都有一个 [] 
所以我们要写个for循环把前后的[]去掉,并转义成能直接插入mysql库的格式。
        titles=MySQLdb.escape_string(titles)
     Neiron=re.findall(reNeiron,a) #先用reNeiron,取个大概的内容模型出来。这些都是以逗号分隔的数组。
    for i in map(None,Neiron): # 我们来循环读出Neiron这个数组里的每个值。
        x=re.findall(retiqu,i)#并用 retiqu这个正则提出精细出的内容。
        for str in x:
             str=MySQLdb.escape_string(str)
             Str2 += str+"\\n"
 #利用这个循环,我们把内容加到一起,并赋值给Str2这个变量,这个 Str2这个变量就是所有的文章内容。
    shijian += 86400 #每循环一次,就把shijian这个变量加上一天。
    bianhao += 1   #每循环一次,就把bianhao这个变量加上一
    try:
 #下面是用mysqldb连接数据库,并尝试连接是否成功。       conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
     except MySQLdb.OperationalError,message:
         print "like error"
     cursor=conn.cursor()
 #下面是插入wordpress数据库的两条语句,我是从mysqlbinlog里面导出来的,测试是可以插入数据库,并能正常把内容显示在网页的。变量都写在这两条语句里。
    sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')" %bianhao
     sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
     cursor.execute(sql)
     cursor.execute(sql2) #连接数据库并执行这两条语句。
    cursor.close()
     conn.close()  #关闭数据库。
    sys.exit() 

上面是程序的代码,采集的是:www.jokeswarehouse.com 的一个笑话网站。通过 python 的 re 模块,也就是正则匹配模块,运行相应的正则表达式,进行过滤出我们所需要的标题和文章内容,再运用 python 的mysqldb 模块,进行连接数据库,利用相应的插入语句,进行插入数据库。

相关文章

  • Python3.6.0+opencv3.3.0人脸检测示例

    Python3.6.0+opencv3.3.0人脸检测示例

    这篇文章主要为大家详细介绍了Python3.6.0+opencv3.3.0人脸检测示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • django中的HTML控件及参数传递方法

    django中的HTML控件及参数传递方法

    下面小编就为大家分享一篇django中的HTML控件及参数传递方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-03-03
  • Python 使用 Pillow 模块给图片添加文字水印的方法

    Python 使用 Pillow 模块给图片添加文字水印的方法

    这篇文章主要介绍了Python 使用 Pillow 模块给图片添加文字水印的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • Python AES加密模块用法分析

    Python AES加密模块用法分析

    这篇文章主要介绍了Python AES加密模块用法,结合具体实例形式分析了AES加密模块的相关使用技巧与注意事项,需要的朋友可以参考下
    2017-05-05
  • windows10系统中安装python3.x+scrapy教程

    windows10系统中安装python3.x+scrapy教程

    本文给大家主要介绍了在windows10系统中安装python3以及scrapy框架的教程以及有可能会遇到的问题的解决办法,希望大家能够喜欢
    2016-11-11
  • sublime python3 输入换行不结束的方法

    sublime python3 输入换行不结束的方法

    下面小编就为大家分享一篇sublime python3 输入换行不结束的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • 用python 制作图片转pdf工具

    用python 制作图片转pdf工具

    这篇文章主要介绍了用python 制作图片转pdf工具的思路及代码,非常详细,有需要的小伙伴参考下
    2015-01-01
  • 浅析Python中的赋值和深浅拷贝

    浅析Python中的赋值和深浅拷贝

    Python中,对象的赋值,拷贝(深/浅拷贝)之间是有差异的,如果使用的时候不注意,就可能产生意外的结果。接下来通过本文给大家分享Python中的赋值和深浅拷贝,感兴趣的朋友一起看看吧
    2017-08-08
  • Python入门篇之编程习惯与特点

    Python入门篇之编程习惯与特点

    本文是Python入门篇的第一篇文章,主要讲述了Python编程习惯和特点等一些基础知识,有需要的朋友可以参考下
    2014-10-10
  • python3基于OpenCV实现证件照背景替换

    python3基于OpenCV实现证件照背景替换

    这篇文章主要为大家详细介绍了python3基于OpenCV实现证件照背景替换,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07

最新评论