用 Python 检测两个文本文件的相似性的几种实现方法

更新时间：2025年04月14日 14:20:53 作者：数据知道

Python 提供了多种方法来实现这一功能,包括基于字符串匹配、词频统计和机器学习的方法,这篇文章主要介绍了用 Python 检测两个文本文件的相似性的几种方法,需要的朋友可以参考下

1. 基于字符串匹配的方法

1.1 Levenshtein 距离

原理：计算两个字符串之间的编辑距离（插入、删除、替换操作的次数）。

优点：简单直观。

缺点：计算复杂度较高，不适合长文本。

import Levenshtein
def similarity_levenshtein(text1, text2):
    distance = Levenshtein.distance(text1, text2)
    max_len = max(len(text1), len(text2))
    return 1 - (distance / max_len)
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_levenshtein(text1, text2)
print(f"Similarity (Levenshtein): {similarity:.2f}")

1.2 Jaccard 相似度

原理：计算两个集合的交集与并集的比值。

优点：适合处理短文本或单词级别的相似性。

缺点：忽略词序和语义。

案例1：

def similarity_jaccard(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_jaccard(text1, text2)
print(f"Similarity (Jaccard): {similarity:.2f}")

案例2：
Jaccard 相似度通过比较两个集合的交集与并集的比例来衡量相似性。对于文本，可以将文本中的词看作集合元素。下面两种方法分别从不同的角度衡量了文本的相似性，可以根据实际需求选择合适的方法。记得将 file1.txt 和 file2.txt 替换为你实际要比较的文件路径。

import Levenshtein
def compare_text_files_edit_distance(file1_path, file2_path):
    try:
        with open(file1_path, 'r', encoding='utf-8') as file1:
            text1 = file1.read()
        with open(file2_path, 'r', encoding='utf-8') as file2:
            text2 = file2.read()
        distance = Levenshtein.distance(text1, text2)
        max_length = max(len(text1), len(text2))
        similarity = 1 - (distance / max_length)
        return similarity
    except FileNotFoundError:
        print("错误: 文件未找到!")
    except Exception as e:
        print(f"错误: 发生了一个未知错误: {e}")
    return None
if __name__ == "__main__":
    file1_path = 'file1.txt'
    file2_path = 'file2.txt'
    similarity = compare_text_files_edit_distance(file1_path, file2_path)
    if similarity is not None:
        print(f"两个文件基于编辑距离的相似度为: {similarity:.2f}")

2. 基于词频统计的方法

2.1 余弦相似度

原理：将文本表示为词频向量，计算向量之间的余弦相似度。

优点：适合处理长文本，考虑词频信息。

缺点：忽略词序和语义。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def similarity_cosine(text1, text2):
    vectorizer = CountVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_cosine(text1, text2)
print(f"Similarity (Cosine): {similarity:.2f}")

2.2 TF-IDF 相似度

原理：将文本表示为 TF-IDF 向量，计算向量之间的余弦相似度。

优点：考虑词的重要性，适合处理长文本。

缺点：忽略词序和语义。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def similarity_tfidf(text1, text2):
    vectorizer = TfidfVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_tfidf(text1, text2)
print(f"Similarity (TF-IDF): {similarity:.2f}")

3. 基于语义的方法

3.1 Word2Vec + 余弦相似度

原理：将文本表示为词向量的平均值，计算向量之间的余弦相似度。

优点：考虑语义信息。

缺点：需要预训练的词向量模型。

from gensim.models import KeyedVectors
import numpy as np
# 加载预训练的词向量模型
word2vec_model = KeyedVectors.load_word2vec_format("path/to/word2vec.bin", binary=True)
def text_to_vector(text):
    words = text.split()
    vectors = [word2vec_model[word] for word in words if word in word2vec_model]
    return np.mean(vectors, axis=0) if vectors else np.zeros(word2vec_model.vector_size)
def similarity_word2vec(text1, text2):
    vec1 = text_to_vector(text1)
    vec2 = text_to_vector(text2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_word2vec(text1, text2)
print(f"Similarity (Word2Vec): {similarity:.2f}")

3.2 BERT + 余弦相似度

原理：使用预训练的 BERT 模型将文本表示为向量，计算向量之间的余弦相似度。

优点：考虑上下文语义信息。

缺点：计算复杂度高，需要 GPU 加速。

from transformers import BertTokenizer, BertModel
import torch
import numpy as np
# 加载预训练的 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
def text_to_bert_vector(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()
def similarity_bert(text1, text2):
    vec1 = text_to_bert_vector(text1)
    vec2 = text_to_bert_vector(text2)
    return np.dot(vec1, vec2.T) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
# 读取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()
similarity = similarity_bert(text1, text2)
print(f"Similarity (BERT): {similarity:.2f}")

4. 总结

根据需求选择合适的方法：

如果需要快速计算短文本的相似性，可以使用 Levenshtein 距离或 Jaccard 相似度。
如果需要处理长文本并考虑词频信息，可以使用余弦相似度或 TF-IDF 相似度。
如果需要考虑语义信息，可以使用 Word2Vec 或 BERT。

到此这篇关于用 Python 检测两个文本文件的相似性的几种实现方法的文章就介绍到这了,更多相关Python 检测两个文本文件的相似性内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

使用Python快速打开一个百万行级别的超大Excel文件的方法
这篇文章主要介绍了使用Python快速打开一个百万行级别的超大Excel文件的方法,本文通过实例代码给大家介绍的非常想详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-03-03
Keras Convolution1D与Convolution2D区别说明
这篇文章主要介绍了Keras Convolution1D与Convolution2D区别说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
python math模块的基本使用教程
这篇文章主要介绍了python math模块的基本使用教程，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2021-01-01
使用Python高效实现删除PDF中的超链接
在数字文档时代,PDF文件因其跨平台兼容性和版式固定性,成为信息交换的常用载体,本文将引导你使用一个高效的Python库,轻松实现PDF超链接的批量删除,感兴趣的小伙伴可以了解下
2025-10-10
Python调用Java可执行jar包问题
这篇文章主要介绍了Python调用Java可执行jar包问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12
Python中自定义函数的教程
这篇文章主要介绍了简单讲解Python中内置函数的使用,函数的使用是Python学习当中的基本功,需要的朋友可以参考下
2015-04-04
python实现根据用户输入从电影网站获取影片信息的方法
这篇文章主要介绍了python实现根据用户输入从电影网站获取影片信息的方法,涉及Python正则表达式抓取网页的技巧,非常具有实用价值,需要的朋友可以参考下
2015-04-04
python使用for循环计算0-100的整数的和方法
今天小编就为大家分享一篇python使用for循环计算0-100的整数的和方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-02-02
Python+PyQt5开发一个智能键盘模拟输入器(附整体源码)
在当今数字化办公时代,自动化工具已经成为提高工作效率的重要利器,今天我要向大家介绍一款基于PyQt5和pynput库开发的智能键盘模拟输入器,感兴趣的小伙伴可以了解下
2025-10-10
Python中异常处理用法
这篇文章主要给大家分享的是 Python中异常处理用法，为了保证程序的健壮性与容错性，即在遇到错误时候程序不会崩溃，我们需要对异常进行处理，下面来看看文章对此的用法,需要的朋友可以参考一下
2021-11-11