python采集百度百科的方法

 更新时间:2015年06月05日 10:04:58   作者:两把刷子  
这篇文章主要介绍了python采集百度百科的方法,涉及Python正则匹配及页面抓取的相关技巧,需要的朋友可以参考下

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • Python pandas库中的isnull()详解

    Python pandas库中的isnull()详解

    今天小编就为大家分享一篇Python pandas库中的isnull()详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python使用itchat模块实现简单的微信控制电脑功能示例

    Python使用itchat模块实现简单的微信控制电脑功能示例

    这篇文章主要介绍了Python使用itchat模块实现简单的微信控制电脑功能,结合实例形式分析了Python基于itchat模块控制电脑实现运行程序、截图等相关操作技巧,需要的朋友可以参考下
    2019-08-08
  • python实现TCP服务器端与客户端的方法详解

    python实现TCP服务器端与客户端的方法详解

    这篇文章主要介绍了python实现TCP服务器端与客户端的方法,以实例形式详解分析了Python实现服务器端与客户端的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-04-04
  • Biblibili视频投稿接口分析并以Python实现自动投稿功能

    Biblibili视频投稿接口分析并以Python实现自动投稿功能

    这篇文章主要介绍了Biblibili视频投稿接口分析并以Python实现自动投稿功能,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • 虚拟环境及venv和virtualenv的区别说明

    虚拟环境及venv和virtualenv的区别说明

    这篇文章主要介绍了虚拟环境及venv和virtualenv的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • Python枚举类定义和使用方法

    Python枚举类定义和使用方法

    这篇文章主要介绍了Python枚举类定义和使用方法,文章围绕主题的相关资料展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • python抓取网页中图片并保存到本地

    python抓取网页中图片并保存到本地

    本篇文章给大家介绍python抓取网页中图片并保存到本地,对python抓取网页图片相关知识感兴趣的朋友一起学习吧
    2015-12-12
  • Python如何批量提取pdf文本内容

    Python如何批量提取pdf文本内容

    PyMuPDF功能强大,并且支持文本提取、图片提取、页面操作等,本文将为大家介绍一下Python如何使用PyMuPDF批量提取PDF文本内容,感兴趣的可以了解下
    2025-04-04
  • 简单了解Python多态与属性运行原理

    简单了解Python多态与属性运行原理

    这篇文章主要介绍了简单了解Python多态与属性运行原理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • 如何使用python切换hosts文件

    如何使用python切换hosts文件

    这篇文章主要介绍了如何使用python切换hosts文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04

最新评论