用Python程序抓取网页的HTML信息的一个小实例

更新时间：2015年05月02日 15:02:49 作者：cyqian

这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：
目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

201552150315618.png (600×587)

数据请求

真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例，包含获取标签、链接，以及根据html层次结构遍历等方法。参考见这里。下面这个片段，从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')
for atag in atags:
  #print atag
  if atag!=None and atag.get('href') != None:
    if "WR_Table_3_A2_Details.asp" in atag['href']:
      link = rank_link_pre + atag['href']
      links.append(link)
      mlfile.write(link+'\n')
      print 'fetch link: '+link
mlfile.close()

您可能感兴趣的文章:

Python

python 实现在无序数组中找到中位数方法
这篇文章主要介绍了python 实现在无序数组中找到中位数方法，具有很好对参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
如何将写好的.py/.java程序变成.exe文件详解
有时候我们需要将自己写的代码打包成exe文件,给别人使用需要怎么办呢,下面这篇文章主要给大家介绍了关于如何将写好的.py/.java程序变成.exe文件的相关资料,需要的朋友可以参考下
2023-01-01
利用python实现汉诺塔游戏
这篇文章主要为大家详细介绍了利用python实现汉诺塔游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-03-03
海王小姐姐悄悄问我怎么在PC端登录多个微信
这篇文章主要介绍了怎么在PC端登录多个微信号,众所周知pc端一般只能登陆一个微信号,可这年头谁还只有一个号,又不能同时用两台电脑,这篇文章带给你答案
2021-08-08
Python 转换RGB颜色值的示例代码
这篇文章主要介绍了Python 转换RGB颜色值的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-10-10
通过python实现windows桌面截图代码实例
这篇文章主要介绍了python实现windows桌面截图代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
python中opencv K均值聚类的实现示例
本文主要介绍了python中opencv K均值聚类的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-06-06
快速进修Python指南之函数进阶
这篇文章主要为大家介绍了Java开发者快速进修Python指南之函数进阶示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-12-12
Python Django 简单分页的实现代码解析
这篇文章主要介绍了Python Django 简单分页的实现代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
详解python中文编码问题
一直以来python中文编码是个及其头大的问题，需要好好学习下，我用python为例，简单介绍下python编程时如何处理好中文编码的问题，感兴趣的朋友们可以参考下
2021-06-06

用Python程序抓取网页的HTML信息的一个小实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具