python代码如何实现余弦相似性计算

 更新时间:2020年02月09日 11:41:15   作者:郭雪原  
这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

A:西米喜欢健身

B:超超不爱健身,喜欢打游戏

step1:分词

A:西米/喜欢/健身

B:超超/不/喜欢/健身,喜欢/打/游戏

step2:列出两个句子的并集

西米/喜欢/健身/超超/不/打/游戏

step3:计算词频向量

A:[1,1,1,0,0,0,0]

B:[0,1,1,1,1,1,1]

step4:计算余弦值

余弦值越大,证明夹角越小,两个向量越相似。

step5:python代码实现

import jieba
import jieba.analyse
 
def words2vec(words1=None, words2=None):
  v1 = []
  v2 = []
  tag1 = jieba.analyse.extract_tags(words1, withWeight=True)
  tag2 = jieba.analyse.extract_tags(words2, withWeight=True)
  tag_dict1 = {i[0]: i[1] for i in tag1}
  tag_dict2 = {i[0]: i[1] for i in tag2}
  merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys())
  for i in merged_tag:
    if i in tag_dict1:
      v1.append(tag_dict1[i])
    else:
      v1.append(0)
    if i in tag_dict2:
      v2.append(tag_dict2[i])
    else:
      v2.append(0)
  return v1, v2
 
 
def cosine_similarity(vector1, vector2):
  dot_product = 0.0
  normA = 0.0
  normB = 0.0
  for a, b in zip(vector1, vector2):
    dot_product += a * b
    normA += a ** 2
    normB += b ** 2
  if normA == 0.0 or normB == 0.0:
    return 0
  else:
    return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2)
   
def cosine(str1, str2):
  vec1, vec2 = words2vec(str1, str2)
  return cosine_similarity(vec1, vec2)
 
print(cosine('阿克苏苹果', '阿克苏苹果'))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python中的[1:]、[::-1]、X[:,m:n]和X[1,:]的使用

    python中的[1:]、[::-1]、X[:,m:n]和X[1,:]的使用

    本文主要介绍了python中的[1:]、[::-1]、X[:,m:n]和X[1,:]的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • Python使用type关键字创建类步骤详解

    Python使用type关键字创建类步骤详解

    在本文里我们给读者们整理了关于Python如何使用type关键字创建类的相关知识点,需要的朋友们参考学习下。
    2019-07-07
  • 浅谈tensorflow之内存暴涨问题

    浅谈tensorflow之内存暴涨问题

    今天小编就为大家分享一篇浅谈tensorflow之内存暴涨问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • 把pandas转换int型为str型的方法

    把pandas转换int型为str型的方法

    今天小编就为大家分享一篇把pandas转换int型为str型的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python输出\u编码将其转换成中文的实例

    Python输出\u编码将其转换成中文的实例

    今天小编就为大家分享一篇Python输出\u编码将其转换成中文的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 解决安装Python的第三方库pandas报错问题

    解决安装Python的第三方库pandas报错问题

    这篇文章主要介绍了解决安装Python的第三方库pandas报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python实现可以断点续传和并发的ftp程序

    python实现可以断点续传和并发的ftp程序

    断点续传和并发是现在很多ftp程序都支持的功能,如果我们用python如何来做断点续传和并发了,今天来看一篇python实现断点续传和并发的ftp程序例子吧,具体如下。
    2016-09-09
  • Pycharm生成可执行文件.exe的实现方法

    Pycharm生成可执行文件.exe的实现方法

    这篇文章主要介绍了Pycharm生成可执行文件.exe的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-06-06
  • Python 判断时间是否在时间区间内的实例

    Python 判断时间是否在时间区间内的实例

    这篇文章主要介绍了Python 判断时间是否在时间区间内的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python Pygame实战之超级炸弹人游戏的实现

    Python Pygame实战之超级炸弹人游戏的实现

    如今的玩家们在无聊的时候会玩些什么游戏呢?王者还是吃鸡是最多的选择。但在80、90年代的时候多是一些很简单的游戏:《超级玛丽》、《魂斗罗》等。本文将利用Pygame制作另一个经典游戏—炸弹人,感兴趣的可以了解一下
    2022-03-03

最新评论