Python实现获取网站PR及百度权重

 更新时间:2015年01月21日 11:56:01   投稿:junjie  
这篇文章主要介绍了Python实现获取网站PR及百度权重,本文使用传参的方式请求站长工具和谷歌工具获取PR值和百度权重,需要的朋友可以参考下

上一次我用requests库写的一个抓取页面中链接的简单代码,延伸一下,我们还可以利用它来获取我们网站的PR以及百度权重。原理差不多。最后我们甚至可以写一个循环批量查询网站的相关信息。

先说说GooglePR,全称PageRank。它是Google官方给出的评定一个网站SEO的评级,这个大家应该不陌生。既然是官方给出的,当然有一个官方的接口去获取它。我们这里就利用官方的接口获取谷歌PR。

复制代码 代码如下:

GPR_HASH_SEED ="Mining PageRank is AGAINST GOOGLE'S TERMS OF SERVICE. Y\
es, I'm talking to you, scammer."

def google_hash(value):
    magic = 0x1020345
    for i in xrange(len(value)):
        magic ^= ord(GPR_HASH_SEED[i % len(GPR_HASH_SEED)]) ^ ord(value[i])
        magic = (magic >> 23 | magic << 9) & 0xFFFFFFFF
    return "8%08x" % (magic)

def getPR(www):
    try:
        url = 'http://toolbarqueries.google.com/tbr?' \
        'client=navclient-auto&ch=%s&features=Rank&q=info:%s' % (google_hash(www) , www)
        response = requests.get(url)
        rex = re.search(r'(.*?:.*?:)(\d+)',response.text)
        return rex.group(2)
    except :
        return None

使用方法:传入域名,返回PR值

google_hash这个函数只是个算法,算出一个域名类似hash值的一个东西并返回。可以不去管它是怎么实现的,我们主要看getPR这个函数。我们google官方给出的接口是这个:http://toolbarqueries.google.com/tbr?client=navclient-auto&ch={HASH}&features=Rank&q=info:{域名}

{HASH}这里我们就使用google_hash()这个函数,传入域名,返回它对应的HASH值。比如我们离别歌的域名www.leavesongs.com,它的谷歌HASH是8b1e6ad00,于是构造出来的咨询网址是:http://toolbarqueries.google.com/tbr?client=navclient-auto&ch=8b1e6ad00&features=Rank&q=info:www.leavesongs.com

访问它,得到Rank_1:1:0。第二个引号后面的数字是PR,因为我的站是没有PR的,所以PR为0.

于是,我们使用requests.get()来访问我们这个构造好的URL,然后获得类似Rank_1:1:0这样的结果,最后通过正则或其他方式得到PR值0。

以上是getPR这个函数的执行过程。再看获取百度权重的过程。

百度权重并不是百度官方给的一个标准,是一些第三方网站计算的一个值,所以并没有像PR一样的接口。所以我们就需要抓取这些第三方网站中的信息了。下面是获取百度权重的函数:

复制代码 代码如下:

def getBR(www):
    try:
        url = 'http://mytool.chinaz.com/baidusort.aspx?host=%s&sortType=0' % ( www , )
        response = requests.get(url)
        data = response.text
        rex = re.search(r'(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>)',data,re.I)
        return rex.group(2)
    except :
        return None

使用方法也是传入域名,返回权重值。

我抓取的是站长工具的一个权重咨询的页面:http://mytool.chinaz.com/baidusort.aspx?host={域名}&sortType=0

我的正则就是它:(<div class="siteinfo">.+?<font.+?>)(\d*?)(</font>),大家可以自己查看源代码看一下,就知道正则怎么写了。

好了,我们来批量获取一下这些网站的PR和权重:

直接看结果:

单一一个进程扫的话速度会略慢,开10个20个线程批量获取的话应该比较快。

相关文章

  • Python语法学习之进程的创建与常用方法详解

    Python语法学习之进程的创建与常用方法详解

    本文我们将学习一下在 Python 中去创建并使用多进程的方法,可以通过创建多个进程来帮助我们提高脚本执行的效率,感兴趣的可以了解一下
    2022-04-04
  • Python自动化按日期分割日志的多种方法

    Python自动化按日期分割日志的多种方法

    在开发和运维Python应用程序时,日志管理是至关重要的,不仅帮助我们调试问题,还能用于监控和性能分析,下面就跟随小编一起学习一下多种自动化按日期分割日志的方法吧
    2025-04-04
  • python网络爬虫精解之正则表达式的使用说明

    python网络爬虫精解之正则表达式的使用说明

    正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑
    2021-09-09
  • python实现SMTP邮件发送功能

    python实现SMTP邮件发送功能

    这篇文章主要为大家详细介绍了python实现SMTP邮件发送功能的相关资料,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-05-05
  • Python字典创建 遍历 添加等实用基础操作技巧

    Python字典创建 遍历 添加等实用基础操作技巧

    字段是Python是字典中唯一的键-值类型,本文讲述了Python中字典如何创建 遍历 添加等实用基础操作技巧,内容非常基础但非常重要,一定要熟练掌握
    2018-09-09
  • Python+Pygame实现彩色五子棋游戏

    Python+Pygame实现彩色五子棋游戏

    这篇文章主要为大家详细介绍了如何溧阳Python和Pygame实现彩色五子棋游戏,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-02-02
  • Linux下Python获取IP地址的代码

    Linux下Python获取IP地址的代码

    这篇文章主要介绍了Linux下Python获取IP地址的代码,需要的朋友可以参考下
    2014-11-11
  • python 计算一个字符串中所有数字的和实例

    python 计算一个字符串中所有数字的和实例

    今天小编就为大家分享一篇python 计算一个字符串中所有数字的和实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python学习之subprocess模块详解

    python学习之subprocess模块详解

    这篇文章主要介绍了python学习之subprocess模块的相关资料,该模块用于创建子进程并与其进行交互,它提供了多个函数和类来执行操作系统命令、获取命令输出以及管理子进程的生命周期,需要的朋友可以参考下
    2024-12-12
  • Python pkg_resources模块动态加载插件实例分析

    Python pkg_resources模块动态加载插件实例分析

    当编写应用软件时,我们通常希望程序具有一定的扩展性,额外的功能——甚至所有非核心的功能,都能通过插件实现,具有可插拔性。特别是使用 Python 编写的程序,由于语言本身的动态特性,为我们的插件方案提供了很多种实现方式
    2022-08-08

最新评论