Python实现周期性抓取网页内容的方法

 更新时间:2015年11月04日 15:22:07   作者:intergret  
这篇文章主要介绍了Python实现周期性抓取网页内容的方法,涉及Python时间函数及正则匹配的相关操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考,具体如下:

1.使用sched模块可以周期性地执行指定函数

2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数

论坛在线人数统计代码:

#coding=utf-8
import time,sched,os,urllib2,re,string
#初始化sched模块的scheduler类
#第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
s = sched.scheduler(time.time,time.sleep)
#被周期性调度触发的函数
def event_func():
  req = urllib2.Request('http://bt.neu6.edu.cn/')
  response = urllib2.urlopen(req)
  rawdata = response.read()
  response.close()
  usernump = re.compile(r'总计 <em>.*?</em> 人在线')
  usernummatch = usernump.findall(rawdata)
  if usernummatch:
    currentnum=usernummatch[0]
    currentnum=currentnum[string.index(currentnum,'>')+1:string.rindex(currentnum,'<')]
    print "Current Time:",time.strftime('%Y,%m,%d,%H,%M',time.localtime(time.time())),'User num:',currentnum
    # 保存结果,供图表工具amcharts使用
    result=open('liuvUserNUm','a')
    result.write('{year: new Date('+time.strftime('%Y,%m,%d,%H,%M',time.localtime(time.time()))+'),value:'+currentnum+'},\n')
    result.close()
#enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,给他的参数(注意:一定要以tuple给如,如果只有一个参数就(xx,))
def perform(inc):
  s.enter(inc,0,perform,(inc,))
  event_func()
def mymain(inc=900):
  s.enter(0,0,perform,(inc,))
  s.run()
if __name__ == "__main__":
  mymain()

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • Python读写docx文件的方法

    Python读写docx文件的方法

    今天小编就为大家分享一篇Python读写docx文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Python脚本完成post接口测试的实例

    Python脚本完成post接口测试的实例

    今天小编就为大家分享一篇Python脚本完成post接口测试的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python调用DeepSeek API的完整操作指南

    Python调用DeepSeek API的完整操作指南

    本文将详细介绍如何使用 Python 调用 DeepSeek API,实现流式对话并保存对话记录,相比 Go 版本,Python 实现更加简洁优雅,适合快速开发和原型验证,文中通过代码示例讲解的非常详细,需要的朋友可以参考下
    2025-02-02
  • web自动化测试Selenium点击元素的常用方法

    web自动化测试Selenium点击元素的常用方法

    在Web自动化测试中,Selenium提供多种点击方法,常用的click()方法通过选中元素并触发点击事件,若click()方法不稳定,可以采用JavaScript执行点击或使用ActionChains类模拟鼠标点击,需要的朋友可以参考下
    2024-09-09
  • Python使用低通滤波器模糊图像功能实现

    Python使用低通滤波器模糊图像功能实现

    这篇文章主要介绍了Python使用低通滤波器模糊图像,我们介绍了多种不同类型的滤波器核与卷积操作,使用 scipy.ndimage 模块中的滤波器模糊图像,利用 scipy.fftpack 模块的 fft2() 函数实现高斯模糊,介绍了scipy.signal模块的彩色图像频域卷积,需要的朋友可以参考下
    2023-03-03
  • Pandas 多层索引操作的实现

    Pandas 多层索引操作的实现

    本文主要介绍了Pandas 多层索引操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-02-02
  • python3.6+selenium实现操作Frame中的页面元素

    python3.6+selenium实现操作Frame中的页面元素

    这篇文章主要为大家详细介绍了python3.6+selenium实现操作Frame中的页面元素,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-07-07
  • pygame实现方块动画实例讲解

    pygame实现方块动画实例讲解

    在本篇文章里小编给大家整理的是一篇关于pygame实现方块动画实例讲解内容,以后需要的朋友们可以学习参考下。
    2021-12-12
  • Python实现智能贪吃蛇游戏的示例代码

    Python实现智能贪吃蛇游戏的示例代码

    我想大家都玩过诺基亚上面的贪吃蛇吧,这篇文章将带你一步步用python语言实现一个snake小游戏,文中的示例代码讲解详细,感兴趣的可以了解一下
    2022-07-07
  • pytest使用@pytest.mark.parametrize()实现参数化的示例代码

    pytest使用@pytest.mark.parametrize()实现参数化的示例代码

    这篇文章主要介绍了pytest使用@pytest.mark.parametrize()实现参数化,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07

最新评论