Python中装饰器的一个妙用

 更新时间:2015年02月08日 09:57:24   投稿:junjie  
这篇文章主要介绍了Python中装饰器的一个妙用,本文是在写一个爬虫程序时总结而来,实现定义一个装饰器,如果之前取到数据,就直接取cache的数据,如果之前没有取到,那么就从网站拉取,并且存入cache中,需要的朋友可以参考下

好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~

我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

复制代码 代码如下:

def func_top(url):
    data_dict= {}
 
    #在页面上获取到子url
    sub_urls = xxxx
 
    data_list = []
    for it in sub_urls:
        data_list.append(func_sub(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_sub(url):
    data_dict= {}
 
    #在页面上获取到子url
    bottom_urls = xxxx
 
    data_list = []
    for it in bottom_urls:
        data_list.append(func_bottom(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_bottom(url):
    #获取数据
    data = xxxx
    return data

func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。

于是这个时候你有两个选择:

1.遇到错误就停止,之后重新从断掉的位置开始重新跑
2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据

对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。

OK,目标已经有了,怎么实现呢?

如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.

代码如下:

复制代码 代码如下:

def get_dump_data(dir_name, url):
    m = hashlib.md5(url)
    filename = m.hexdigest()
    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
 
    if os.path.isfile(full_file_name):
        return eval(file(full_file_name,\'r\').read())
    else:
        return None
 
 
def set_dump_data(dir_name, url, data):
    if not os.path.isdir(\'dumps/\'+dir_name):
        os.makedirs(\'dumps/\'+dir_name)
 
    m = hashlib.md5(url)
    filename = m.hexdigest()
    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
 
    f = file(full_file_name, \'w+\')
    f.write(repr(data))
    f.close()
 
 
def deco_dump_data(func):
    def func_wrapper(url):
        data = get_dump_data(func.__name__,url)
        if data is not None:
            return data
 
        data = func(url)
        if data is not None:
            set_dump_data(func.__name__,url,data)
        return data
 
    return func_wrapper

然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~

搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!

OK,就这样~ 人生苦短,我用python!

相关文章

  • python实现复制整个目录的方法

    python实现复制整个目录的方法

    这篇文章主要介绍了python实现复制整个目录的方法,涉及Python中shutil模块的相关操作技巧,需要的朋友可以参考下
    2015-05-05
  • Python请求库发送HTTP POST请求的示例代码

    Python请求库发送HTTP POST请求的示例代码

    这段代码使用了Python的requests库来发送HTTP POST请求,向本地服务器的API发送数据,并处理响应,一步步解释这个代码
    2024-08-08
  • Windows下Sqlmap环境安装教程详解

    Windows下Sqlmap环境安装教程详解

    这篇文章主要介绍了Windows下Sqlmap环境安装,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-08-08
  • drf-router和authenticate认证源码分析

    drf-router和authenticate认证源码分析

    在 Rest Framework 中提供了两个 router , 可以帮助我们快速的实现路由的自动生成,本文通过实例代码给大家介绍drf-router和authenticate认证源码分析,感兴趣的朋友跟随小编一起看看吧
    2021-07-07
  • Python代码实现找到列表中的奇偶异常项

    Python代码实现找到列表中的奇偶异常项

    这篇文章主要介绍了Python代码实现找到列表中的奇偶异常项,文章内容主要利用Python代码实现了从输入列表中寻找奇偶异常项,需要的朋友可以参考一下
    2021-11-11
  • 昨晚我用python帮隔壁小姐姐P证件照然后发现

    昨晚我用python帮隔壁小姐姐P证件照然后发现

    大家好,我是Lex 喜欢欺负超人那个Lex 建议大家收藏哦,以后帮小姐姐P自拍,证件照,调尺寸,背景,抠图,直接10行代码搞定,瞬间高大上
    2021-08-08
  • Python数据可视化之Pyecharts使用详解

    Python数据可视化之Pyecharts使用详解

    Pyecharts是一个由百度开源的、用于生成Echarts图表的类库,可以用来进行数据可视化分析。本文将详细讲解一下Pyecharts的使用,需要的可以参考一下
    2022-04-04
  • Python自定义函数的创建、调用和函数的参数详解

    Python自定义函数的创建、调用和函数的参数详解

    这篇文章主要介绍了Python自定义函数的创建、调用和函数的参数、变量作用域等常见问题,需要的朋友可以参考下
    2014-03-03
  • pytorch: Parameter 的数据结构实例

    pytorch: Parameter 的数据结构实例

    今天小编就为大家分享一篇pytorch: Parameter 的数据结构实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • 关于安装halcon包pycharm提示不全的问题

    关于安装halcon包pycharm提示不全的问题

    很多小伙伴给小编反映在pycham上面安装halcon对应的安装包之后,导入出现问题,发现输入ha.read 没有自动提示 ,只有几个变量和方法,怎么解决这个问题呢,下面小编给大家带来了安装halcon包pycharm提示不全的问题,一起看看吧
    2021-06-06

最新评论