Python检测两个文本文件相似性的三种方法

 更新时间:2025年03月14日 08:45:40   作者:数据知道  
检测两个文本文件的相似性是一个常见的任务,可以用于文本去重、抄袭检测等场景,Python 提供了多种方法来实现这一功能,x下面小编就来简单介绍一下吧

检测两个文本文件的相似性是一个常见的任务,可以用于文本去重、抄袭检测等场景。Python 提供了多种方法来实现这一功能,包括基于字符串匹配、词频统计和机器学习的方法。以下是几种常用的方法及其实现。

1. 基于字符串匹配的方法

1.1 Levenshtein 距离

原理:计算两个字符串之间的编辑距离(插入、删除、替换操作的次数)。

优点:简单直观。

缺点:计算复杂度较高,不适合长文本。

import Levenshtein

def similarity_levenshtein(text1, text2):
    distance = Levenshtein.distance(text1, text2)
    max_len = max(len(text1), len(text2))
    return 1 - (distance / max_len)

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_levenshtein(text1, text2)
print(f"Similarity (Levenshtein): {similarity:.2f}")

1.2 Jaccard 相似度

原理:计算两个集合的交集与并集的比值。

优点:适合处理短文本或单词级别的相似性。

缺点:忽略词序和语义。

案例1:

def similarity_jaccard(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_jaccard(text1, text2)
print(f"Similarity (Jaccard): {similarity:.2f}")

案例2:

Jaccard 相似度通过比较两个集合的交集与并集的比例来衡量相似性。对于文本,可以将文本中的词看作集合元素。下面两种方法分别从不同的角度衡量了文本的相似性,可以根据实际需求选择合适的方法。记得将 file1.txt 和 file2.txt 替换为你实际要比较的文件路径。

import Levenshtein

def compare_text_files_edit_distance(file1_path, file2_path):
    try:
        with open(file1_path, 'r', encoding='utf-8') as file1:
            text1 = file1.read()
        with open(file2_path, 'r', encoding='utf-8') as file2:
            text2 = file2.read()

        distance = Levenshtein.distance(text1, text2)
        max_length = max(len(text1), len(text2))
        similarity = 1 - (distance / max_length)
        return similarity
    except FileNotFoundError:
        print("错误: 文件未找到!")
    except Exception as e:
        print(f"错误: 发生了一个未知错误: {e}")
    return None

if __name__ == "__main__":
    file1_path = 'file1.txt'
    file2_path = 'file2.txt'
    similarity = compare_text_files_edit_distance(file1_path, file2_path)
    if similarity is not None:
        print(f"两个文件基于编辑距离的相似度为: {similarity:.2f}")
    

2. 基于词频统计的方法

2.1 余弦相似度

原理:将文本表示为词频向量,计算向量之间的余弦相似度。

优点:适合处理长文本,考虑词频信息。

缺点:忽略词序和语义。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def similarity_cosine(text1, text2):
    vectorizer = CountVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_cosine(text1, text2)
print(f"Similarity (Cosine): {similarity:.2f}")

2.2 TF-IDF 相似度

原理:将文本表示为 TF-IDF 向量,计算向量之间的余弦相似度。

优点:考虑词的重要性,适合处理长文本。

缺点:忽略词序和语义。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def similarity_tfidf(text1, text2):
    vectorizer = TfidfVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_tfidf(text1, text2)
print(f"Similarity (TF-IDF): {similarity:.2f}")

3. 基于语义的方法

3.1 Word2Vec + 余弦相似度

原理:将文本表示为词向量的平均值,计算向量之间的余弦相似度。

优点:考虑语义信息。

缺点:需要预训练的词向量模型。

from gensim.models import KeyedVectors
import numpy as np

# 加载预训练的词向量模型
word2vec_model = KeyedVectors.load_word2vec_format("path/to/word2vec.bin", binary=True)

def text_to_vector(text):
    words = text.split()
    vectors = [word2vec_model[word] for word in words if word in word2vec_model]
    return np.mean(vectors, axis=0) if vectors else np.zeros(word2vec_model.vector_size)

def similarity_word2vec(text1, text2):
    vec1 = text_to_vector(text1)
    vec2 = text_to_vector(text2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_word2vec(text1, text2)
print(f"Similarity (Word2Vec): {similarity:.2f}")

3.2 BERT + 余弦相似度

原理:使用预训练的 BERT 模型将文本表示为向量,计算向量之间的余弦相似度。

优点:考虑上下文语义信息。

缺点:计算复杂度高,需要 GPU 加速。

from transformers import BertTokenizer, BertModel
import torch
import numpy as np

# 加载预训练的 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

def text_to_bert_vector(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

def similarity_bert(text1, text2):
    vec1 = text_to_bert_vector(text1)
    vec2 = text_to_bert_vector(text2)
    return np.dot(vec1, vec2.T) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_bert(text1, text2)
print(f"Similarity (BERT): {similarity:.2f}")

4. 总结

根据需求选择合适的方法:

如果需要快速计算短文本的相似性,可以使用 Levenshtein 距离 或 Jaccard 相似度。

如果需要处理长文本并考虑词频信息,可以使用 余弦相似度 或 TF-IDF 相似度。

如果需要考虑语义信息,可以使用 Word2Vec 或 BERT。

到此这篇关于Python检测两个文本文件相似性的三种方法的文章就介绍到这了,更多相关Python检测文本相似性内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python爬虫之获取心知天气API实时天气数据并弹窗提醒

    Python爬虫之获取心知天气API实时天气数据并弹窗提醒

    今天我们来学习如何获取心知天气API实时天气数据,制作弹窗提醒,并设置成自启动项目.文中有非常详细的代码示例及介绍,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-05-05
  • 关于Pytorch中模型的保存与迁移问题

    关于Pytorch中模型的保存与迁移问题

    在本篇文章中,笔者首先介绍了模型复用的几种典型场景;然后介绍了如何查看Pytorch模型中的相关参数信息;接着介绍了如何载入模型、如何进行追加训练以及进行模型的迁移学习等,需要的朋友可以参考下
    2021-10-10
  • python神经网络使用Keras构建RNN训练

    python神经网络使用Keras构建RNN训练

    这篇文章主要为大家介绍了python神经网络使用Keras构建RNN网络训练,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪<BR>
    2022-05-05
  • 如何使用Python优雅的合并两个字典Dict

    如何使用Python优雅的合并两个字典Dict

    字典是Python语言中唯一的映射类型,在我们日常工作中经常会遇到,下面这篇文章主要给大家介绍了关于如何使用Python优雅的合并两个字典Dict的相关资料,需要的朋友可以参考下
    2023-05-05
  • python基础教程之csv格式文件的写入与读取

    python基础教程之csv格式文件的写入与读取

    逗号分隔值(Comma-Separated Values,CSV,也称为字符分隔值,分隔字符也可以不是逗号),新这篇文章主要给大家介绍了关于python基础教程之csv格式文件的写入与读取的相关资料,需要的朋友可以参考下
    2022-03-03
  • Flask中app.route装饰器参数的使用

    Flask中app.route装饰器参数的使用

    app.route()是Flask框架中用于定义路由的装饰器函数,本文主要介绍了Flask中app.route装饰器参数的使用,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • Caffe卷积神经网络solver及其配置详解

    Caffe卷积神经网络solver及其配置详解

    这篇文章主要为大家介绍了Caffe卷积神经网络solver及其配置详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Django Model层F,Q对象和聚合函数原理解析

    Django Model层F,Q对象和聚合函数原理解析

    这篇文章主要介绍了Django Model层F,Q对象和聚合函数原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python基础之Numpy的基本用法详解

    Python基础之Numpy的基本用法详解

    这篇文章主要介绍了Python基础之Numpy的基本用法详解,文中有非常详细的代码示例,对正在学习python基础的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-05-05
  • Python使用jpype的踩坑记录

    Python使用jpype的踩坑记录

    Pype是一个能够让 python 代码方便地调用 Java 代码的工具,这篇文章主要来和大家分享一下Python使用jpype会踩的一些坑,希望对大家有所帮助
    2023-06-06

最新评论