urllib和BeautifulSoup爬取维基百科的词条简单实例

 更新时间:2018年01月17日 14:08:41   作者:powerpoint_2016  
这篇文章主要介绍了urllib和BeautifulSoup爬取维基百科的词条简单实例,具有一定借鉴价值,需要的朋友可以参考下

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

相关文章

  • Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

    Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

    这篇文章主要为大家详细介绍了Python抓取聚划算商品分析页面获取商品信息,并以XML格式保存到本地的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • 基于python实现监听Rabbitmq系统日志代码示例

    基于python实现监听Rabbitmq系统日志代码示例

    这篇文章主要介绍了基于python实现监听Rabbitmq系统日志代码示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • python 获取域名到期时间的方法步骤

    python 获取域名到期时间的方法步骤

    这篇文章主要介绍了python 获取域名到期时间的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • Python数据抓取爬虫代理防封IP方法

    Python数据抓取爬虫代理防封IP方法

    在本篇内容里小编给大家分享了关于Python数据抓取爬虫代理防封IP方法讲解,需要的朋友们可以跟着学习下。
    2018-12-12
  • Python实现优先级队列结构的方法详解

    Python实现优先级队列结构的方法详解

    优先级队列(priority queue)是0个或多个元素的集合,每个元素都有一个优先权,接下来就来看一下简洁的Python实现优先级队列结构的方法详解:
    2016-06-06
  • 对python中if语句的真假判断实例详解

    对python中if语句的真假判断实例详解

    今天小编就为大家分享一篇对python中if语句的真假判断实例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • Python中关于列表的常规操作范例以及介绍

    Python中关于列表的常规操作范例以及介绍

    列表是一种有序的集合,可以随时添加和删除其中的元素。在python中使用的频率非常高,本篇文章对大家的学习或工作具有一定的价值,需要的朋友可以参考下
    2021-09-09
  • Python实现粒子群算法详解

    Python实现粒子群算法详解

    这篇文章主要介绍了Python实现粒子群算法详解,粒子群算法,缩写为PSO(Particle Swarm Optimization),是一种非线性寻优算法,其特点是实现简单、收敛速度快,对多元函数的局部最优有较好的克服能力,需要的朋友可以参考下
    2023-07-07
  • Python迭代器、生成器、协程使用方式

    Python迭代器、生成器、协程使用方式

    这篇文章主要介绍了Python迭代器、生成器、协程使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • python获取本机mac地址和ip地址的方法

    python获取本机mac地址和ip地址的方法

    这篇文章主要介绍了python获取本机mac地址和ip地址的方法,涉及Python获取系统相关信息的技巧,需要的朋友可以参考下
    2015-04-04

最新评论