python提取页面内url列表的方法
更新时间:2015年05月25日 12:27:51 作者:小萝莉
这篇文章主要介绍了python提取页面内url列表的方法,涉及Python操作页面元素的相关技巧,需要的朋友可以参考下
本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:
from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage("http://news.163.com/")
希望本文所述对大家的Python程序设计有所帮助。
相关文章
Python编程实现两个文件夹里文件的对比功能示例【包含内容的对比】
这篇文章主要介绍了Python编程实现两个文件夹里文件的对比功能,包含内容的对比操作,涉及Python文件与目录的遍历、比较、运算等相关操作技巧,需要的朋友可以参考下2017-06-06
Python3.5内置模块之time与datetime模块用法实例分析
这篇文章主要介绍了Python3.5内置模块之time与datetime模块用法,结合实例形式分析了Python3.5 time与datetime模块日期时间相关操作技巧,需要的朋友可以参考下2019-04-04
python实现微信机器人: 登录微信、消息接收、自动回复功能
这篇文章主要介绍了python实现微信机器人: 登录微信、消息接收、自动回复功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2019-04-04


最新评论