Python天气预报采集器实现代码(网页爬虫)

 更新时间:2012年10月07日 00:36:02   作者:  
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了
爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
  1、获得html文本。
  python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。
复制代码 代码如下:

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html

这么几行代码相信不用注释都能大概知道它的意思。

  2、根据正则表达式等获得需要的内容。

  使用正则表达式时需要仔细观察该网页信息的结构,并写出正确的正则表达式。
  python正则表达式的使用也很简洁。我的上一篇文章《Python的一些用法》介绍了一点正则的用法。这里需要一个新的用法:
复制代码 代码如下:

def getWeather(html):
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>'
weatherList = re.compile(reg).findall(html)
return weatherList

其中reg是正则表达式,html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。
  这里的正则表达式reg有两个地方要注意。
  一个是“(.*?)”。只要是()中的内容都是我们将要获得的内容,如果有多个括号,那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号,分别对应城市、最低温和最高温。
  另一个是“.*?”。python的正则匹配默认是贪婪的,即默认尽可能多地匹配字符串。如果在末尾加上问号,则表示非贪婪模式,即尽可能少地匹配字符串。在这里,由于有多个城市的信息需要匹配,所以需要使用非贪婪模式,否则匹配结果只剩下一个,且是不正确的。
  
  python的使用确实十分方便:)

相关文章

  • Python 2.7中文显示与处理方法

    Python 2.7中文显示与处理方法

    今天小编就为大家分享一篇Python 2.7中文显示与处理方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python的词法分析与语法分析

    Python的词法分析与语法分析

    这篇文章主要介绍了Python的词法分析(Lexical Analysis)与 语法分析(Syntactic Analysis),需要的朋友可以参考下
    2013-05-05
  • Python修改游戏内存的方法

    Python修改游戏内存的方法

    本文给大家分享一个通过Python来修改游戏内存的方法,帮助大家更改游戏中的数据,步骤很简单,而且有视频讲解,感兴趣的朋友一起看看吧
    2021-11-11
  • python ChainMap 合并字典的实现步骤

    python ChainMap 合并字典的实现步骤

    这篇文章主要介绍了python ChainMap 合并字典的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-06-06
  • python中模块导入模式详解

    python中模块导入模式详解

    这篇文章主要为大家介绍了python中模块导入的模式详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • Python基于高斯消元法计算线性方程组示例

    Python基于高斯消元法计算线性方程组示例

    这篇文章主要介绍了Python基于高斯消元法计算线性方程组,结合实例形式分析了Python高斯消元法针对方程组求解的相关操作技巧,需要的朋友可以参考下
    2018-01-01
  • PyCharm安装库numpy失败问题的详细解决方法

    PyCharm安装库numpy失败问题的详细解决方法

    今天使用pycharm编译python程序时,由于要调用numpy包,但又未曾安装numpy,于是就根据pycharm的提示进行安装,最后竟然提示出错,下面这篇文章主要给大家介绍了关于PyCharm安装库numpy失败问题的详细解决方法,需要的朋友可以参考下
    2022-06-06
  • keras中的backend.clip用法

    keras中的backend.clip用法

    这篇文章主要介绍了keras中的backend.clip用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • python图书管理系统

    python图书管理系统

    这篇文章主要为大家详细介绍了python图书管理系统的实现代码,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • python多进程操作实例

    python多进程操作实例

    这篇文章主要介绍了python多进程操作实例,本文讲解了multiprocessing类的相关方法,然后给出了一个综合实例和运行效果,需要的朋友可以参考下
    2014-11-11

最新评论