如何通过Python实现标签云算法

 更新时间:2019年07月02日 09:15:24   作者:FOOFISH-PYTHON之禅  
这篇文章主要介绍了如何通过Python实现标签云算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

标签云(Tag Cloud)常见于各种博客站点中,标签有利于网站内容分类,还可以用于相关性内容推荐。近日笔者有空把个人的开源博客Django_blog添加了一个新功能--标签云。

实现原理

标签云最终展现出来的效果其实是由两个HTML参数来控制的,分别是:font-size和color,如:

<a href="http://foofish.net/blog/tag/django" rel="external nofollow" style="font-size:24px; color:#4f4f4f">django</a>

标签关联的文章越多,表示这个标签被引用的次数越大,font-size的值也越大,color的颜色越深。考虑到体验效果,font-size不能随着的标签的引用次数的增大而无限增大,否则页面显得非常丑陋。因此会把font-size控制在某个区间,同理color也是在一个区间中。

这里我把font-size设置在12到33之间数组FONT_SIZES,标签的font-size属性只能是里面的一个值,COLORS是与FONT_SIZES对应的一个数组,12对应#ccc,15对应#adadad,以此类推。

MIN_FONT_SIZE = 12 # 最小尺寸
MAX_FONT_SIZE = 33 # 最大尺寸
FONT_SIZES = [MIN_FONT_SIZE, 15, 18, 21, 24, 27, 30, MAX_FONT_SIZE] 
COLORS = ['#ccc', "#adadad", '#8e8e8e', '#6f6f6f', '#4f4f4f', '#303030', '#111', '#000']

现在关键问题就是如何根据标签的引用次数(tag_ref_count)来确定它的font-size。一旦font-size了,color也随之确定。要想标签的font-size能够均匀分布在数组FONT_SIZES中,那么要遵循的一个原则就是,随着次数的增加其font-size的取值也增加,而且引用次数最少的标签使用MIN_FONT_SIZE,引用次数最多的标签使用MAX_FONT_SIZE。

因此有一个公式,MIN_FONT_SIZE + n*step = MAX_FONT_SIZE,step是步长,n是指引用次数最多的标签减去引用次数最少的标签,表示两者之间总共有多少步step,根据此根式可以算出每一步的step值是多少,知道了步长后,就可以计算出任意一个标签的font-size了,任何一个标签到最小标签的步数是两者之差,因此每一个标签的font-size为 MIN_FONT_SIZE + (tag_ref_count-min_ref_count)*step

源代码:

# encoding: utf-8
__author__ = 'liuzhijun'
class TagCloud(object):
MIN_FONT_SIZE = 12
MAX_FONT_SIZE = 33
FONT_SIZES = [MIN_FONT_SIZE, 15, 18, 21, 24, 27, 30, MAX_FONT_SIZE]
COLORS = ['#ccc', "#adadad", '#8e8e8e', '#6f6f6f', '#4f4f4f', '#303030', '#111', '#000']
def __init__(self, min_ref_count, max_ref_count):
TagCloud.min_ref_count = min_ref_count
# 如果最大标签和最小标签相等,那么认为两者的步长为0,所有标签取同样的font-size.
if max_ref_count == min_ref_count:
TagCloud.step = 0
else:
TagCloud.step = (TagCloud.MAX_FONT_SIZE - TagCloud.MIN_FONT_SIZE) / (max_ref_count - min_ref_count)
def get_tag_font_size(self, tag_ref_count):
font_size = TagCloud.MIN_FONT_SIZE + (tag_ref_count - TagCloud.min_ref_count) * TagCloud.step
# 上面计算出来的font_size并不一定刚好是FONT_SIZES中的某个元素, 可以能某两个元素之间的某个值
# 因此要取最接近FONT_SIZES中某个元素
font_size = min(TagCloud.FONT_SIZES, key=lambda x: abs(font_size - x))
return font_size
def get_tag_color(self, tag_ref_count):
return TagCloud.COLORS[(TagCloud.FONT_SIZES.index(self.get_tag_font_size(tag_ref_count)))]

输出结果:

12,12,12,18,24,18,21,27,33,

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python爬虫实战之用selenium爬取某旅游网站

    Python爬虫实战之用selenium爬取某旅游网站

    上一篇我们已经知道怎么简单使用selenium了,那么我们就从这篇博客来动手爬取网站吧,文中有非常详细的代码示例,需要的朋友可以参考下
    2021-06-06
  • pycharm中import导入包呈现灰色的问题及解决

    pycharm中import导入包呈现灰色的问题及解决

    这篇文章主要介绍了pycharm中import导入包呈现灰色的问题及解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • python 包(模块 函数 类 定义 导入)使用详解

    python 包(模块 函数 类 定义 导入)使用详解

    这篇文章主要为大家介绍了python 包(模块 函数 类 定义 导入)的使用详细讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • OpenCV中Canny边缘检测的实现

    OpenCV中Canny边缘检测的实现

    本文主要介绍了OpenCV中Canny边缘检测的实现,边缘检测一般是识别目标图像中亮度变化明显的像素点,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • Python基于DFA算法实现内容敏感词过滤

    Python基于DFA算法实现内容敏感词过滤

    DFA 算法是通过提前构造出一个 树状查找结构,之后根据输入在该树状结构中就可以进行非常高效的查找。本文将利用改算法实现敏感词过滤,需要的可以参考一下
    2022-04-04
  • python开发之基于thread线程搜索本地文件的方法

    python开发之基于thread线程搜索本地文件的方法

    这篇文章主要介绍了python开发之基于thread线程搜索本地文件的方法,以完整实例形式分析了Python基于多线程处理搜索问题的相关实现技巧,需要的朋友可以参考下
    2015-11-11
  • Python 利用CSV模块处理数据的实现实例

    Python 利用CSV模块处理数据的实现实例

    CSV文件的一个主要优点是有很多程序可以存储,转换和处理纯文本文件,本文主要介绍了Python 利用CSV模块处理数据的实现实例,具有一定的参考价值,感兴趣的可以了解一下
    2024-03-03
  • jmeter中用python实现请求参数的随机方式

    jmeter中用python实现请求参数的随机方式

    首先,需下载Jython插件于https://www.jython.org/download后,将其放入JMeter的lib目录并重启JMeter,其次,添加JSR223PreProcessor并选择Python作为语言,编写脚本,其中metrics_ids3和metrics_weidu3为列表变量
    2024-10-10
  • Python3实现发送QQ邮件功能(文本)

    Python3实现发送QQ邮件功能(文本)

    这篇文章主要为大家详细介绍了Python3实现发送QQ邮件功能,文本方面,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • python中argparse模块基础及使用步骤

    python中argparse模块基础及使用步骤

    argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行,接下来通过本文给大家介绍python argparse模块的相关知识,感兴趣的朋友一起看看吧
    2022-06-06

最新评论