python提取页面内url列表的方法

更新时间：2015年05月25日 12:27:51 作者：小萝莉

这篇文章主要介绍了python提取页面内url列表的方法,涉及Python操作页面元素的相关技巧,需要的朋友可以参考下

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

python
url

Python在OpenCV里实现极坐标变换功能
这篇文章主要介绍了在OpenCV里实现极坐标变换功能，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-09-09
Python编程实现两个文件夹里文件的对比功能示例【包含内容的对比】
这篇文章主要介绍了Python编程实现两个文件夹里文件的对比功能,包含内容的对比操作,涉及Python文件与目录的遍历、比较、运算等相关操作技巧,需要的朋友可以参考下
2017-06-06
详细介绍Python的鸭子类型
相信python的开发者对于python的鸭子类型比较熟悉，鸭子类型在维基百科中的准确定义是‘是动态类型的一种风格。在这种风格中，一个对象有效的语义，不是由继承自特定的类或实现特定的接口，而是由"当前方法和属性的集合"决定’。所以这篇文章给大家python的鸭子类型。
2016-09-09
Python3.5内置模块之time与datetime模块用法实例分析
这篇文章主要介绍了Python3.5内置模块之time与datetime模块用法,结合实例形式分析了Python3.5 time与datetime模块日期时间相关操作技巧,需要的朋友可以参考下
2019-04-04
Python collections模块实例讲解
Python作为一个“内置电池”的编程语言，标准库里面拥有非常多好用的模块。比如今天想给大家介绍的 collections 就是一个非常好的例子
2014-04-04
python定时复制远程文件夹中所有文件
这篇文章主要为大家详细介绍了python定时复制远程文件夹中所有文件，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-04-04
python实现微信机器人：登录微信、消息接收、自动回复功能
这篇文章主要介绍了python实现微信机器人：登录微信、消息接收、自动回复功能，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
用Python制作在地图上模拟瘟疫扩散的Gif图
这篇文章主要介绍了如何用Python制作在地图上模拟瘟疫扩散的Gif图,其中用到了欧拉公式等数学知识、需要一定的算法基础，需要的朋友可以参考下
2015-03-03
PyQt弹出式对话框的常用方法及标准按钮类型
这篇文章主要为大家详细介绍了PyQt弹出式对话框的常用方法及标准按钮类型，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-02-02
python实现复制大量文件功能
这篇文章主要为大家详细介绍了python实现复制大量文件功能，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-08-08

python提取页面内url列表的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具