余弦相似性计算及python代码实现过程解析

 更新时间:2019年09月18日 11:43:41   作者:郭雪原  
这篇文章主要介绍了余弦相似性计算及python代码实现过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

A:西米喜欢健身

B:超超不爱健身,喜欢打游戏

step1:分词

A:西米/喜欢/健身

B:超超/不/喜欢/健身,喜欢/打/游戏

step2:列出两个句子的并集

西米/喜欢/健身/超超/不/打/游戏

step3:计算词频向量

A:[1,1,1,0,0,0,0]

B:[0,1,1,1,1,1,1]

step4:计算余弦值

余弦值越大,证明夹角越小,两个向量越相似。

step5:python代码实现

import jieba
import jieba.analyse
def words2vec(words1=None, words2=None):
 v1 = []
 v2 = []
 tag1 = jieba.analyse.extract_tags(words1, withWeight=True)
 tag2 = jieba.analyse.extract_tags(words2, withWeight=True)
 tag_dict1 = {i[0]: i[1] for i in tag1}
 tag_dict2 = {i[0]: i[1] for i in tag2}
 merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys())
 for i in merged_tag:
  if i in tag_dict1:
   v1.append(tag_dict1[i])
  else:
   v1.append(0)
  if i in tag_dict2:
   v2.append(tag_dict2[i])
  else:
   v2.append(0)
 return v1, v2
def cosine_similarity(vector1, vector2):
 dot_product = 0.0
 normA = 0.0
 normB = 0.0
 for a, b in zip(vector1, vector2):
  dot_product += a * b
  normA += a ** 2
  normB += b ** 2
 if normA == 0.0 or normB == 0.0:
  return 0
 else:
  return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2)  
def cosine(str1, str2):
 vec1, vec2 = words2vec(str1, str2)
 return cosine_similarity(vec1, vec2)
print(cosine('阿克苏苹果', '阿克苏苹果'))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python 相对路径报错:"No such file or directory"'原因及解决方法

    Python 相对路径报错:"No such file or 

    如果你取相对路径不是在主文件里,可能就会有相对路径问题:"No such file or directory",由于python 的相对路径,相对的都是主文件所以会出现Python 相对路径报错,今天小编给大家带来了完美解决方案,感兴趣的朋友一起看看吧
    2023-02-02
  • 彻底弄懂Python中的回调函数(callback)

    彻底弄懂Python中的回调函数(callback)

    回调函数就是一个通过函数指针调用的函数,下面这篇文章主要给大家介绍了关于Python中回调函数(callback)的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • python如何进行基准测试

    python如何进行基准测试

    这篇文章主要介绍了python如何进行基准测试,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-04-04
  • python 读取文件并替换字段的实例

    python 读取文件并替换字段的实例

    今天小编就为大家分享一篇python 读取文件并替换字段的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • python类方法中的self关键字使用

    python类方法中的self关键字使用

    这篇文章主要介绍了python类方法中的self关键字使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • Python中pygal绘制雷达图代码分享

    Python中pygal绘制雷达图代码分享

    这篇文章主要介绍了Python中pygal绘制雷达图代码分享,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python开发工具Pycharm的安装以及使用步骤总结

    Python开发工具Pycharm的安装以及使用步骤总结

    今天给大家带来的是关于Python开发工具的安装以及使用的相关知识,文章围绕着如何使用和安装Pycharm展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • pytorch collate_fn的基础与应用教程

    pytorch collate_fn的基础与应用教程

    这篇文章主要给大家介绍了关于pytorch collate_fn基础与应用的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-02-02
  • Python键值互换的实现示例

    Python键值互换的实现示例

    Python键值互换是一种对Python字典类型中键值对进行反转的技术,有时候,我们需要以值作为键,以键作为值来操作字典,这时候就需要用到键值互换的技术,本文主要介绍了Python键值互换的实现示例,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • 使用PyTorch处理多维特征输入数据的完美实现

    使用PyTorch处理多维特征输入数据的完美实现

    在机器学习和深度学习领域,我们经常会面对具有多维特征输入的问题,这种情况出现在各种应用中,包括图像识别、自然语言处理、时间序列分析等,PyTorch是一个强大的深度学习框架,在本篇博客中,我们将探讨如何使用PyTorch来处理多维特征输入数据
    2023-10-10

最新评论