Python获取当前页面内所有链接的四种方法对比分析

 更新时间:2017年08月19日 11:24:59   作者:罗兵  
这篇文章主要介绍了Python获取当前页面内所有链接的方法,结合实例形式对比分析了Python常用的四种获取页面链接的方法,并附带了iframe框架内链接的获取方法,需要的朋友可以参考下

本文实例讲述了Python获取当前页面内所有链接的四种方法。分享给大家供大家参考,具体如下:

'''
得到当前页面所有连接
'''
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = 'http://www.testweb.com'
r = requests.get(url)
r.encoding = 'gb2312'
# 利用 re (太黄太暴力!)
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 (DOM树)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
  link = a['href']
  print(link)
print()
# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium(要开浏览器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

注意:若页面中含有 iframe,则 iframe 内所包含页面的所有标签都无法用以上四种方法获得!!!此时则要:

# 再打开所有iframe查找全部的a标签
for iframe in soup.find_all('iframe'):
  url_ifr = iframe['src'] # 取得当前iframe的src属性值 
  rr = requests.get(url_ifr)
  rr.encoding = 'gb2312'
  soup_ifr = BeautifulSoup(rr.text,'lxml')
  for a in soup_ifr.find_all('a'):
    link = a['href']
    m = re.match(r'http:\/\/.*?(?=\/)',link)
    #print(link)
    if m:
      all_urls.add(m.group(0))

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • Python 进程操作之进程间通过队列共享数据,队列Queue简单示例

    Python 进程操作之进程间通过队列共享数据,队列Queue简单示例

    这篇文章主要介绍了Python 进程操作之进程间通过队列共享数据,队列Queue,结合实例形式分析了Python进程数据共享、队列数据处理相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • python shapely.geometry.polygon任意两个四边形的IOU计算实例

    python shapely.geometry.polygon任意两个四边形的IOU计算实例

    这篇文章主要介绍了python shapely.geometry.polygon任意两个四边形的IOU计算实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python使用numpy寻找二维数组的最值及其下标方法分析

    python使用numpy寻找二维数组的最值及其下标方法分析

    这篇文章主要为大家介绍了python使用numpy寻找二维数组的最值及其下标实现方法详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • 用Python获取亚马逊商品信息

    用Python获取亚马逊商品信息

    大家好,本篇文章主要讲的是用Python获取亚马逊商品信息,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2022-01-01
  • python中pip的使用方法详解

    python中pip的使用方法详解

    pip 是 Python 的默认包管理工具,随 Python 3.x 版本一同安装,它使得安装和管理 Python 包变得非常简单,本文将介绍 pip 的基本使用方法、常用命令及其代码示例,需要的朋友可以参考下
    2024-12-12
  • 基于Django与ajax之间的json传输方法

    基于Django与ajax之间的json传输方法

    今天小编就为大家分享一篇基于Django与ajax之间的json传输方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • OpenCV机器学习MeanShift算法笔记分享

    OpenCV机器学习MeanShift算法笔记分享

    这篇文章主要介绍了OpenCV机器学习MeanShift算法笔记分享,有需要的朋友可以借鉴参考下,希望可以对各位读者的OpenCV算法学习能够有所帮助
    2021-09-09
  • 浅谈numpy广播机制

    浅谈numpy广播机制

    本文主要介绍了浅谈numpy广播机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • 利用Python编写一个蹭WiFi的软件

    利用Python编写一个蹭WiFi的软件

    这篇文章主要为大家详细介绍了如何利用Python编写一个简易的蹭WiFi的软件,文中的示例代码讲解详细,感兴趣的小伙伴可以学习一下
    2023-06-06
  • Python基于Tkinter模块实现的弹球小游戏

    Python基于Tkinter模块实现的弹球小游戏

    这篇文章主要介绍了Python基于Tkinter模块实现的弹球小游戏,涉及Python图形绘制、数值计算、判断等相关操作技巧,需要的朋友可以参考下
    2018-12-12

最新评论