Python爬虫获取整个站点中的所有外部链接代码示例

更新时间：2017年12月26日 10:29:32 作者：土肥圆的猿

这篇文章主要介绍了Python爬虫获取整个站点中的所有外部链接代码示例，具有一定借鉴价值,需要的朋友可以参考下

收集所有外部链接的网站爬虫程序流程图

下例是爬取本站python绘制条形图方法代码详解的实例，大家可以参考下。

完整代码：

#! /usr/bin/env python
#coding=utf-8

import urllib2
from  bs4 import BeautifulSoup
import re
import datetime
import random

pages=set()
random.seed(datetime.datetime.now())
#Retrieves a list of all Internal links found on a page
def getInternalLinks(bsObj, includeUrl):
        internalLinks  =  []
        #Finds all links  that  begin  with  a  "/"
        for link  in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")):
                if link.attrs['href'] is not None:
                        if link.attrs['href'] not in internalLinks:
                                internalLinks.append(link.attrs['href'])
        return internalLinks
#Retrieves a list of all external links found on a page
def getExternalLinks(bsObj, excludeUrl):
        externalLinks  =  []
        #Finds all links  that  start  with  "http" or "www"  that  do
        #not  contain the current URL
        for link  in bsObj.findAll("a", 
                              href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")):
                if link.attrs['href'] is not None:
                        if link.attrs['href'] not in externalLinks:
                                externalLinks.append(link.attrs['href'])
        return externalLinks

def splitAddress(address):
        addressParts  =  address.replace("http://", "").split("/")
        return addressParts

def getRandomExternalLink(startingPage):
        html=  urllib2.urlopen(startingPage)
        bsObj  =  BeautifulSoup(html)
        externalLinks  =  getExternalLinks(bsObj, splitAddress(startingPage)[0])
        if len(externalLinks) == 0:
                internalLinks  =  getInternalLinks(startingPage)
                return internalLinks[random.randint(0, len(internalLinks)-1)]
        else:
                return externalLinks[random.randint(0, len(externalLinks)-1)]

def followExternalOnly(startingSite):
        externalLink=getRandomExternalLink("https://www.jb51.net/article/130968.htm")
        print("Random  external  link  is: "+externalLink)
        followExternalOnly(externalLink)

#Collects a list of all external URLs found on the site
allExtLinks=set()
allIntLinks=set()
def getAllExternalLinks(siteUrl):
    html=urllib2.urlopen(siteUrl)
    bsObj=BeautifulSoup(html)
    internalLinks  =  getInternalLinks(bsObj,splitAddress(siteUrl)[0])
    externalLinks  =  getExternalLinks(bsObj,splitAddress(siteUrl)[0])
    for link in externalLinks:
      if link not in allExtLinks:
        allExtLinks.add(link)
        print(link)
    for link in internalLinks:
      if link not in allIntLinks:
        print("About to get link:"+link)
        allIntLinks.add(link)
        getAllExternalLinks(link)

getAllExternalLinks("https://www.jb51.net/article/130968.htm")

爬取结果如下：

总结

以上就是本文关于Python爬虫获取整个站点中的所有外部链接代码示例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

您可能感兴趣的文章:

Tensorflow 实现释放内存
今天小编就为大家分享一篇Tensorflow 实现释放内存，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
使用Python操作Excel中图片的基础示例(插入、替换、提取、删除)
Excel是主要用于处理表格和数据的工具,我们也能在其中插入、编辑或管理图片,为工作表增添视觉效果,提升报告的吸引力,本文将详细介绍如何使用Python操作Excel中的图片,文中有详细代码示例供大家参考,需要的朋友可以参考下
2024-07-07
Using Django with GAE Python 后台抓取多个网站的页面全文
这篇文章主要介绍了Using Django with GAE Python 后台抓取多个网站的页面全文,需要的朋友可以参考下
2016-02-02
python实现微信防撤回神器
这篇文章主要为大家详细介绍了python实现微信防撤回神器，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-04-04
详解Python3中的Sequence type的使用
这篇文章主要介绍了详解Python3中的Sequence type的使用,是Python入门学习中的基础知识,需要的朋友可以参考下
2015-08-08
python 解决flask 图片在线浏览或者直接下载的问题
今天小编就为大家分享一篇python 解决flask 图片在线浏览或者直接下载的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
python实现socket+threading处理多连接的方法
今天小编就为大家分享一篇python实现socket+threading处理多连接的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Python 运行.py文件和交互式运行代码的区别详解
这篇文章主要介绍了Python 运行.py文件和交互式运行代码的区别详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
Python MNIST手写体识别详解与试练
MNIST（官方网站）是非常有名的手写体数字识别数据集，在Tensorflow的官方网站里，第一个就拿它来做实战讲解，咱们也以此作为开始的项目
2021-11-11
Python并发执行的几种实现方法
在Python中多线程是实现并发的一种方式,多线程可以让程序在同一时间内进行多个任务,从而提高程序的效率和执行速度,这篇文章主要给大家介绍了关于Python并发执行的几种实现方法,需要的朋友可以参考下
2024-08-08

Python爬虫获取整个站点中的所有外部链接代码示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具