Python实现以时间换空间的缓存替换算法

 更新时间:2016年02月19日 09:58:01   投稿:mrr  
缓存是指可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速度很快。缓存就是把一些数据暂时存放于某些地方,可能是内存,也有可能硬盘。下面给大家介绍Python实现以时间换空间的缓存替换算法,需要的朋友参考下

缓存是指可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速度很快。缓存就是把一些数据暂时存放于某些地方,可能是内存,也有可能硬盘。

在使用Scrapy爬网站的时候,产生出来的附加产物,因为在Scrapy爬取的时候,CPU的运行时间紧迫度不高(访问频次太高容易被封禁),借此机会难得来上一下,让自己的内存解放一下。

算法原理:

通过将要缓存的数据用二进制展开,得到的二进制数据映射到缓存字段上,要检验是否已经缓存过,仅需要去查找对应的映射位置即可,如果全部匹配上,则已经缓存。

# 二进制就是个二叉树
# 如下面可以表示出来的数据有0, 1, 2, 3四个(两个树独立)

0 1
/ \ / \
0 1 0 1

因此对缓存的操作就转化为对二叉树的操作,添加和查找只要在二叉树上找到对应路径的node即可。

算法关键代码:

def _read_bit(self, data, position):
return (data >> position) & 0x1
def _write_bit(self, data, position, value):
return data | value << position

实际使用效果如何呢?

在和Python默认的 set 相比较,得出测试结果如下(存取整型,不定长字符串,定长字符串):

Please select test mode:4
Please enter test times:1000
====================================================================================================
TEST RESULT::
====================================================================================================
set() bytecache
items 1000 1000
add(s) 0.0 0.0209999084473
read(s) 0.0 0.0149998664856
hits 1000 1000
missed 0 0
size 32992 56
add(s/item) 0.0 2.09999084473e-05
read(s/item) 0.0 2.09999084473e-05
====================================================================================================
size (set / bytecache): 589.142857143
add time (bytecache / set): N/A
read time (bytecache / set): N/A
====================================================================================================
...test fixed length & int data end...
====================================================================================================
TEST RESULT::
====================================================================================================
set() bytecache
items 1000 1000
add(s) 0.00100016593933 6.1740000248
read(s) 0.0 7.21300005913
hits 999 999
missed 0 0
size 32992 56
add(s/item) 1.00016593933e-06 0.0061740000248
read(s/item) 0.0 0.0061740000248
====================================================================================================
size (set / bytecache): 589.142857143
add time (bytecache / set): 6172.97568534
read time (bytecache / set): N/A
====================================================================================================
...test mutative length & string data end...
====================================================================================================
TEST RESULT::
====================================================================================================
set() bytecache
items 1000 1000
add(s) 0.0 0.513999938965
read(s) 0.0 0.421000003815
hits 999 999
missed 0 0
size 32992 56
add(s/item) 0.0 0.000513999938965
read(s/item) 0.0 0.000513999938965
====================================================================================================
size (set / bytecache): 589.142857143
add time (bytecache / set): N/A
read time (bytecache / set): N/A
====================================================================================================
...test Fixed length(64) & string data end...

测试下来,内存消耗控制的比较好,一直在56字节,而是用 set 的内存虽然也不是很大,当相较于 ByteCache 来说,则大上很多。

但 ByteCache 的方式来缓存,最大的问题是当碰到非常大的随机数据时,消耗时间会比较惊人。如下面这种随机长度的字符串缓存测试结果:

Please select test mode:2
Please enter test times:2000
====================================================================================================
TEST RESULT::
====================================================================================================
set() bytecache
items 2000 2000
add(s) 0.00400018692017 31.3759999275
read(s) 0.0 44.251999855
hits 1999 1999
missed 0 0
size 131296 56
add(s/item) 2.00009346008e-06 0.0156879999638
read(s/item) 0.0 0.0156879999638
====================================================================================================
size (set / bytecache): 2344.57142857
add time (bytecache / set): 7843.63344856
read time (bytecache / set): N/A
====================================================================================================
...test mutative length & string data end...

在2000个数据中,添加消耗31s,查找消耗44s,而 set 接近于0,单条数据也需要16ms(均值)才能完成读/写操作。

不过,正如开头说的,在紧迫度不是很高的Scrapy中,这个时间并不会太过于窘迫,更何况在Scrapy中,一般是用来缓存哈希后的数据,这些数据的一个重要特性是定长,定长在本缓存算法中还是表现不错的,在64位长度的时候,均值才0.5ms。而与此同时倒是能在大量缓存的时候,释放出比较客观的内存。

如果有更好的缓存算法能让速度在上新台阶,也是无比期待的。。。

总结:

1. 此方法的目标是用时间换取空间,切勿在时间紧迫度高的地方使用

2. 非常适用于大量定长,且数据本身比较小的情况下使用

3. 接2,非常不建议在大量不定长的数据,而且数据本身比较大的情况下使用

以上内容是小编给大家介绍的Python实现以时间换空间的缓存替换算法,希望对大家有所帮助!

您可能感兴趣的文章:

相关文章

  • 在Python的Django框架中调用方法和处理无效变量

    在Python的Django框架中调用方法和处理无效变量

    这篇文章主要介绍了在Python的Django框架中调用方法和处理无效变量的方法,是Django编程中的基础操作,需要的朋友可以参考下
    2015-07-07
  • 在ubuntu16.04中将python3设置为默认的命令写法

    在ubuntu16.04中将python3设置为默认的命令写法

    这篇文章主要介绍了在ubuntu16.04中将python3设置为默认python的方法,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧
    2018-10-10
  • AI与Python人工智能启发式搜索概念理解

    AI与Python人工智能启发式搜索概念理解

    这篇文章主要为大家介绍了AI与Python启发式搜索概念详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • python实现ftp文件传输系统(案例分析)

    python实现ftp文件传输系统(案例分析)

    最近做了一个简单的文件传输系统,基于ftp协议,使用python语言开发,虽然python里面已经有ftplib模块,可以很容易的实现ftp服务器,这篇文章主要介绍了python实现ftp文件传输系统的案例分析,需要的朋友可以参考下
    2020-03-03
  • Django 解决上传文件时,request.FILES为空的问题

    Django 解决上传文件时,request.FILES为空的问题

    这篇文章主要介绍了Django 解决上传文件时,request.FILES为空的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python httpstat命令行工具功能使用探索

    Python httpstat命令行工具功能使用探索

    Python httpstat是一个强大的命令行工具,用于深入了解HTTP请求的性能和状态信息,本文将介绍Python httpstat的基本用法、功能特性、示例代码以及实际应用场景,帮助大家更好地理解和利用这个有用的工具
    2024-01-01
  • Python pygame实现中国象棋单机版源码

    Python pygame实现中国象棋单机版源码

    今天给大家带来的是关于Python实战的相关知识,文章围绕着用Python pygame实现中国象棋单机版展开,文中有非常详细的代码示例,需要的朋友可以参考下
    2021-06-06
  • Python中Selenium的基本使用步骤

    Python中Selenium的基本使用步骤

    Selenium是一个用于自动化浏览器操作的Python库,常用于Web应用的测试和爬虫等场景,本文给大家介绍Python中Selenium的基本使用教程,感兴趣的朋友一起看看吧
    2023-11-11
  • 基于python+selenium自动健康打卡的实现代码

    基于python+selenium自动健康打卡的实现代码

    这篇文章主要介绍了基于python+selenium自动健康打卡,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Python学习之自定义异常详解

    Python学习之自定义异常详解

    这篇文章主要为大家介绍了Python中如何自定义异常,以及自定义抛出异常的关键字—raise的用法,文中示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-03-03

最新评论