Python针对不同文本长度的处理方案总结与对比

更新时间：2025年02月23日 10:29:34 作者：大霸王龙

这篇文章主要为大家详细介绍了Python如何针对不同文本长度的处理方案,结合层次化编码和检索优化策略,感兴趣的小伙伴可以参考一下

1.短文本处理(<500tokens)

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')  # 384维小型模型

def process_short(text):
    """直接全文本编码"""
    return model.encode(text, convert_to_tensor=True)

# 示例
short_text = "自然语言处理的基础概念"  # 长度约15 tokens
vector = process_short(short_text)

2. 中长文本处理 (500-2000 tokens)

from langchain_text_splitters import RecursiveCharacterTextSplitter

def process_medium(text):
    """重叠分块策略"""
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50,
        separators=["\n\n", "\n", "。", "！", "？"]
    )
    chunks = splitter.split_text(text)
    return [model.encode(chunk) for chunk in chunks]

# 示例
medium_text = "机器学习发展历史...（约1500字）"  # 约1800 tokens
chunk_vectors = process_medium(medium_text)

3. 长文本处理 (2000-20000 tokens)

import spacy

def process_long(text):
    """语义分块+摘要增强"""
    # 加载语义分割模型
    nlp = spacy.load("zh_core_web_sm") 
    doc = nlp(text)
    
    # 按段落分割
    chunks = [sent.text for sent in doc.sents]
    
    # 生成章节摘要
    summary_model = SentenceTransformer('uer/sbert-base-chinese-nli')
    summaries = [summary_model.encode(chunk[:200]) for chunk in chunks]
    
    return chunks, summaries

# 示例
long_text = "人工智能技术白皮书...（约2万字）"  # 约20000 tokens
text_chunks, summary_vecs = process_long(long_text)

4. 超长文本处理 (20000-200000 tokens)

import faiss
import numpy as np

class HierarchicalIndex:
    def __init__(self):
        # 两级索引结构
        self.summary_index = faiss.IndexFlatL2(384)
        self.chunk_index = faiss.IndexIVFPQ(
            faiss.IndexFlatL2(384), 384, 100, 16, 8
        )
        self.metadata = []

    def add_document(self, text):
        # 生成段落级摘要
        chunks, summaries = process_long(text)
        
        # 构建索引
        summary_vecs = np.array(summaries).astype('float32')
        chunk_vecs = np.array([model.encode(c) for c in chunks]).astype('float32')
        
        self.summary_index.add(summary_vecs)
        self.chunk_index.add(chunk_vecs)
        self.metadata.extend(chunks)

    def search(self, query, k=5):
        # 先检索摘要层
        query_vec = model.encode(query).astype('float32')
        _, sum_indices = self.summary_index.search(np.array([query_vec]), 10)
        
        # 精搜相关块
        target_chunks = [self.chunk_index.reconstruct(i) for i in sum_indices]
        target_chunks = np.array(target_chunks).astype('float32')
        _, chunk_indices = self.chunk_index.search(target_chunks, k)
        
        return [self.metadata[i] for i in chunk_indices]

# 使用示例
hindex = HierarchicalIndex()
hindex.add_document("某领域技术文档...（约15万字）")  # 约200000 tokens
results = hindex.search("深度学习在医疗影像的应用")

5. 海量文本处理 (>200000 tokens)

import dask.dataframe as dd
from dask.distributed import Client

def process_extreme(file_path):
    """分布式处理方案"""
    client = Client(n_workers=4)  # 启动Dask集群
    
    # 分块读取
    df = dd.read_parquet(file_path, chunksize=100000)  
    
    # 并行编码
    df['vector'] = df['text'].map_partitions(
        lambda s: s.apply(model.encode),
        meta=('vector', object)
    )
    
    # 构建分布式索引
    df.to_parquet("encoded_data.parquet", engine="pyarrow")
    
# 示例（处理100万条文本）
process_extreme("massive_data.parquet")

性能优化对照表=

文本长度	处理策略	索引类型	响应时间	内存消耗
<500	直接编码	FlatIndex	<10ms	1MB
2000	重叠分块	IVF+PQ	50-100ms	50MB
20000	语义分块+摘要索引	二级索引	200-500ms	300MB
200000	层次化索引	IVFOPQ+ProductQuant	1-2s	2GB
>200000	分布式处理	分片索引	10s+	集群资源

关键处理技术

滑动窗口：通过chunk_overlap保留上下文连续性
语义分块：使用spacy进行句子边界检测
层次化索引：摘要层加速粗筛，块层保证精度
量化压缩：PQ算法减少内存占用（精度损失

以上就是Python针对不同文本长度的处理方案总结与对比的详细内容，更多关于Python文本处理的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python中使用partial改变方法默认参数实例
这篇文章主要介绍了Python中使用partial改变方法默认参数实例,本文直接给出使用实例,代码中包含详细注释,需要的朋友可以参考下
2015-04-04
Python中pygal绘制雷达图代码分享
这篇文章主要介绍了Python中pygal绘制雷达图代码分享，具有一定借鉴价值，需要的朋友可以参考下。
2017-12-12
Python之py2exe打包工具详解
下面小编就为大家带来一篇Python之py2exe打包工具详解。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-06-06
Python实现多图绘制系统的示例代码
这篇文章主要为大家详细介绍了Python如何实现制作一个多图绘制系统,文中的示例代码简洁易懂,具有一定的借鉴价值,感兴趣的小伙伴可以学习一下
2023-09-09
Python的Django框架中消息通知的计数器实现教程
通知的计数器非常有用,新通知时+1和读过通知后的-1是最基本的功能,这里我们就来看一下Python的Django框架中消息通知的计数器实现教程
2016-06-06
Python类定义和类继承详解
这篇文章主要介绍了Python类定义和类继承详解,本文讲解了类的私有属性、类的方法、私有的类方法、类的专有方法、类的定义、类的单继承、类的多继承等内容,需要的朋友可以参考下
2015-05-05
使用Python实现屏幕录制与键盘监听功能
在Python中,我们可以借助多个强大的库来实现丰富的功能,比如屏幕录制和键盘监听,今天,我们将通过结合PIL、OpenCV、pynput以及threading等库,来实现一个简单的屏幕录制工具,该工具能够通过监听键盘事件来控制录制的开始与结束,需要的朋友可以参考下
2024-12-12
利用PyQt中的QThread类实现多线程
本文主要给大家分享的是python实现多线程及线程间通信的简单方法,非常的实用,有需要的小伙伴可以参考下
2020-02-02
Python中计时程序运行时间的几种常用方法
这篇文章主要介绍了Python中计时程序运行时间的几种常用方法,分别是一般方法、基于上下文管理器和基于装饰器,每种方法都有其适用场景和优缺点,文中通过代码介绍的非常详细,需要的朋友可以参考下
2025-04-04
Django序列化中SerializerMethodField的使用详解
这篇文章主要介绍了Django序列化中SerializerMethodField的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2025-03-03