Python基于similarities实现文本语义相似度计算和文本匹配搜索

 更新时间:2024年03月08日 09:49:29   作者:小龙在山东  
similarities 实现了多种相似度计算、匹配搜索算法,支持文本、图像,python3开发,下面我们就来看看如何使用similarities实现文本语义相似度计算和文本匹配搜索吧

similarities 实现了多种相似度计算、匹配搜索算法,支持文本、图像,python3开发。

安装

pip3 install torch # conda install pytorch
pip3 install -U similarities

git clone https://github.com/shibing624/similarities.git
cd similarities
python3 setup.py install

报错

ChineseCLIPProcessor

Traceback (most recent call last): File “xx\similarity_test1.py”,
line 9, in
from similarities import BertSimilarity File “xx\lib\site-packages\similarities_init_.py”, line 28, in
from similarities.clip_similarity import ClipSimilarity File “xx\lib\site-packages\similarities\clip_similarity.py”, line 16, in

from similarities.clip_module import ClipModule File “xx\lib\site-packages\similarities\clip_module.py”, line 18, in

from transformers import ChineseCLIPProcessor, ChineseCLIPModel, CLIPProcessor, CLIPModel ImportError: cannot import name
‘ChineseCLIPProcessor’ from ‘transformers’
(xx\lib\site-packages\transformers_init_.py)

报这个错的原因是transformers版本太低,升级下版本就可以了。

pip install --upgrade transformers

pydantic

另外还缺少pydantic:

pip install pydantic

样例

# -*- coding: utf-8 -*-
"""
@author:XuMing(xuming624@qq.com)
@description: 文本语义相似度计算和文本匹配搜索
"""
import sys

sys.path.append('..')
from similarities import BertSimilarity

# 1.Compute cosine similarity between two sentences.
sentences = ['如何更换花呗绑定银行卡',
             '花呗更改绑定银行卡']
corpus = [
    '花呗更改绑定银行卡',
    '我什么时候开通了花呗',
    '俄罗斯警告乌克兰反对欧盟协议',
    '暴风雨掩埋了东北部;新泽西16英寸的降雪',
    '中央情报局局长访问以色列叙利亚会谈',
    '人在巴基斯坦基地的炸弹袭击中丧生',
]
model = BertSimilarity(model_name_or_path="shibing624/text2vec-base-chinese")
print(model)
similarity_score = model.similarity(sentences[0], sentences[1])
print(f"{sentences[0]} vs {sentences[1]}, score: {float(similarity_score):.4f}")

print('-' * 50 + '\n')
# 2.Compute similarity between two list
similarity_scores = model.similarity(sentences, corpus)
print(similarity_scores.numpy())
for i in range(len(sentences)):
    for j in range(len(corpus)):
        print(f"{sentences[i]} vs {corpus[j]}, score: {similarity_scores.numpy()[i][j]:.4f}")

print('-' * 50 + '\n')
# 3.Semantic Search
model.add_corpus(corpus)
res = model.most_similar(queries=sentences, topn=3)
print(res)
for q_id, id_score_dict in res.items():
    print('query:', sentences[q_id])
    print("search top 3:")
    for corpus_id, s in id_score_dict.items():
        print(f'\t{model.corpus[corpus_id]}: {s:.4f}')

print('-' * 50 + '\n')
print(model.search(sentences[0], topn=3))

结果:

Similarity: BertSimilarity, matching_model: <SentenceModel: shibing624/text2vec-base-chinese, encoder_type: MEAN, max_seq_length: 256, emb_dim: 768>
2024-03-07 20:12:46.481 | DEBUG    | text2vec.sentence_model:__init__:80 - Use device: cpu
如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551
--------------------------------------------------

[[0.8551465  0.72119546 0.14502521 0.21666759 0.25171342 0.08089039]
 [0.9999997  0.6807433  0.17136583 0.21621695 0.27282682 0.12791349]]
如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551
如何更换花呗绑定银行卡 vs 我什么时候开通了花呗, score: 0.7212
如何更换花呗绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1450
如何更换花呗绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2167
如何更换花呗绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2517
如何更换花呗绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.0809
花呗更改绑定银行卡 vs 花呗更改绑定银行卡, score: 1.0000
花呗更改绑定银行卡 vs 我什么时候开通了花呗, score: 0.6807
花呗更改绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1714
花呗更改绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2162
花呗更改绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2728
花呗更改绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.1279
--------------------------------------------------

2024-03-07 20:13:03.429 | INFO     | similarities.bert_similarity:add_corpus:108 - Start computing corpus embeddings, new docs: 6
Batches: 100%|██████████| 1/1 [00:10<00:00, 10.45s/it]
2024-03-07 20:13:13.889 | INFO     | similarities.bert_similarity:add_corpus:120 - Add 6 docs, total: 6, emb len: 6
{0: {0: 0.8551465272903442, 1: 0.7211954593658447, 4: 0.25171342492103577}, 1: {0: 0.9999997019767761, 1: 0.6807432770729065, 4: 0.27282682061195374}}
query: 如何更换花呗绑定银行卡
search top 3:
    花呗更改绑定银行卡: 0.8551
    我什么时候开通了花呗: 0.7212
    中央情报局局长访问以色列叙利亚会谈: 0.2517
query: 花呗更改绑定银行卡
search top 3:
    花呗更改绑定银行卡: 1.0000
    我什么时候开通了花呗: 0.6807
    中央情报局局长访问以色列叙利亚会谈: 0.2728
--------------------------------------------------

{0: {0: 0.8551465272903442, 1: 0.7211954593658447, 4: 0.25171342492103577}}

以上就是Python基于similarities实现文本语义相似度计算和文本匹配搜索的详细内容,更多关于Python文本相似度计算的资料请关注脚本之家其它相关文章!

相关文章

  • 基于Python制作一款屏幕颜色提取器

    基于Python制作一款屏幕颜色提取器

    这篇文章主要为大家介绍了如何利用Python制作一款简易的屏幕颜色提取器,文中的示例代码讲解详细,对我们学习Python有一定帮助,感兴趣的可以动手试一试
    2022-03-03
  • python是怎么被发明的

    python是怎么被发明的

    在本篇文章里小编给大家分享的是关于python的由来等相关内容,有兴趣的朋友们学习参考下。
    2020-06-06
  • pyecharts调整图例与各板块的位置间距实例

    pyecharts调整图例与各板块的位置间距实例

    这篇文章主要介绍了pyecharts调整图例与各板块的位置间距实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python面向对象三大特征:继承、封装和多态的深度解析

    Python面向对象三大特征:继承、封装和多态的深度解析

    在面向对象程序设计中,对象可以看做是数据(特性)以及由一系列可以存取、操作这些数据的方法所组成的集合,Python是面向对象的语言,支持面向对象编程的三大特性:继承、封装(隐藏)、多态,本文将逐一讲解Python的三大特性
    2025-01-01
  • Flask利用自定义接口实现mock应用详解

    Flask利用自定义接口实现mock应用详解

    后端接口已提供,前端需要依赖后端接口返回的数据进行前端页面的开发,如何配合前端?这篇就来介绍一下Flask如何利用自定义接口实现mock应用,需要的可以参考一下
    2023-03-03
  • python学习之SpaCy库的高级特性详解

    python学习之SpaCy库的高级特性详解

    在之前的文章中,我们介绍了SpaCy库的一些基本概念和功能,在这篇文章中,我们将深入学习一些更高级的特性,包括词向量、依赖性解析、和自定义组件
    2023-07-07
  • Python中关于面向对象中继承的详细讲解

    Python中关于面向对象中继承的详细讲解

    面向对象编程 (OOP) 语言的一个主要功能就是“继承”。继承是指这样一种能力:它可以使用现有类的所有功能,并在无需重新编写原来的类的情况下对这些功能进行扩展
    2021-10-10
  • python GUI库图形界面开发之PyQt5控件QTableWidget详细使用方法与属性

    python GUI库图形界面开发之PyQt5控件QTableWidget详细使用方法与属性

    这篇文章主要介绍了python GUI库图形界面开发之PyQt5控件QTableWidget详细使用方法与属性,需要的朋友可以参考下
    2020-02-02
  • Django 开发调试工具 Django-debug-toolbar使用详解

    Django 开发调试工具 Django-debug-toolbar使用详解

    这篇文章主要介绍了Django 开发调试工具 Django-debug-toolbar使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python 京东云无线宝消息推送功能

    Python 京东云无线宝消息推送功能

    这篇文章主要介绍了Python 京东云无线宝消息推送功能,发送钉钉消息获取可用积分,详细配置文件通过实例代码给大家讲解的很详细,代码+注释讲解的很详细,需要的朋友可以参考下
    2021-05-05

最新评论