用Python程序抓取网页的HTML信息的一个小实例

 更新时间:2015年05月02日 15:02:49   作者:cyqian  
这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下

抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:
目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

201552150315618.png (600×587)

数据请求

真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')
for atag in atags:
  #print atag
  if atag!=None and atag.get('href') != None:
    if "WR_Table_3_A2_Details.asp" in atag['href']:
      link = rank_link_pre + atag['href']
      links.append(link)
      mlfile.write(link+'\n')
      print 'fetch link: '+link
mlfile.close()

相关文章

  • python 实现在无序数组中找到中位数方法

    python 实现在无序数组中找到中位数方法

    这篇文章主要介绍了python 实现在无序数组中找到中位数方法,具有很好对参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • 如何将写好的.py/.java程序变成.exe文件详解

    如何将写好的.py/.java程序变成.exe文件详解

    有时候我们需要将自己写的代码打包成exe文件,给别人使用需要怎么办呢,下面这篇文章主要给大家介绍了关于如何将写好的.py/.java程序变成.exe文件的相关资料,需要的朋友可以参考下
    2023-01-01
  • 利用python实现汉诺塔游戏

    利用python实现汉诺塔游戏

    这篇文章主要为大家详细介绍了利用python实现汉诺塔游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • 海王小姐姐悄悄问我怎么在PC端登录多个微信

    海王小姐姐悄悄问我怎么在PC端登录多个微信

    这篇文章主要介绍了怎么在PC端登录多个微信号,众所周知pc端一般只能登陆一个微信号,可这年头谁还只有一个号,又不能同时用两台电脑,这篇文章带给你答案
    2021-08-08
  • Python 转换RGB颜色值的示例代码

    Python 转换RGB颜色值的示例代码

    这篇文章主要介绍了Python 转换RGB颜色值的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • 通过python实现windows桌面截图代码实例

    通过python实现windows桌面截图代码实例

    这篇文章主要介绍了python实现windows桌面截图代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • python中opencv K均值聚类的实现示例

    python中opencv K均值聚类的实现示例

    本文主要介绍了python中opencv K均值聚类的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • 快速进修Python指南之函数进阶

    快速进修Python指南之函数进阶

    这篇文章主要为大家介绍了Java开发者快速进修Python指南之函数进阶示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • Python Django 简单分页的实现代码解析

    Python Django 简单分页的实现代码解析

    这篇文章主要介绍了Python Django 简单分页的实现代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 详解python中文编码问题

    详解python中文编码问题

    一直以来python中文编码是个及其头大的问题,需要好好学习下,我用python为例,简单介绍下python编程时如何处理好中文编码的问题,感兴趣的朋友们可以参考下
    2021-06-06

最新评论