Python搭建NLP模型的详细步骤

更新时间：2026年02月28日 09:49:38 作者：yingjuxia.com

文章提供了一套从零到一实现中文情感分析模型微调的完整教程,使用HuggingFaceTransformers库,推荐pipeline零代码快速上手,然后进行模型的完整微调和部署,需要的朋友可以参考下

一、推荐学习路径（建议顺序）

先用 pipeline 零代码跑通（5 分钟见效果）
再完整微调一个模型（掌握全流程）
最后部署成 API（可选）

我们今天直接走第 2 步：完整微调中文情感分析模型（基于 bert-base-chinese）

二、完整步骤 + 可复制代码

步骤 1：环境准备（推荐新建虚拟环境）

# 1. 创建虚拟环境
conda create -n nlp python=3.11 -y
conda activate nlp

# 2. 安装核心库（2026 年推荐组合）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu   # CPU版（有GPU换cuda版本）
pip install transformers datasets accelerate evaluate pandas scikit-learn

步骤 2：准备数据（使用公开中文数据集）

from datasets import load_dataset

# 加载中文情感分析数据集（Seamew/ChnSentiCorp）
dataset = load_dataset("seamew/ChnSentiCorp")

print(dataset)
# 输出：DatasetDict({
#     train: Dataset({...}),
#     validation: Dataset({...}),
#     test: Dataset({...})
# })

# 查看前3条数据
print(dataset["train"][0:3])

步骤 3：数据预处理（Tokenizer）

from transformers import AutoTokenizer

model_name = "bert-base-chinese"   # 中文预训练模型

tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["text"], 
                     truncation=True,      # 超长自动截断
                     padding="max_length", # 统一长度
                     max_length=128)

# 应用到整个数据集
tokenized_datasets = dataset.map(preprocess_function, batched=True)

步骤 4：加载模型 + 设置训练参数

from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
import evaluate
import numpy as np

# 加载模型（2分类：正面/负面）
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 评估指标（准确率 + F1）
accuracy = evaluate.load("accuracy")
f1 = evaluate.load("f1")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    acc = accuracy.compute(predictions=predictions, references=labels)
    f1_score = f1.compute(predictions=predictions, references=labels, average="macro")
    return {"accuracy": acc["accuracy"], "f1": f1_score["f1"]}

# 训练参数（可根据显存调整）
training_args = TrainingArguments(
    output_dir="./results",          # 输出目录
    eval_strategy="epoch",           # 每轮评估
    save_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,              # 建议 3-5 轮
    weight_decay=0.01,
    logging_dir="./logs",
    report_to="none",                # 不上传 wandb
    load_best_model_at_end=True,
    metric_for_best_model="f1"
)

步骤 5：开始训练（核心代码）

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,   # 自动保存 tokenizer
)

print("开始训练...")
trainer.train()

# 训练结束后在测试集上评估
test_results = trainer.evaluate(tokenized_datasets["test"])
print("测试集结果：", test_results)

步骤 6：保存模型 & 推理测试

# 保存模型
trainer.save_model("./my_chinese_sentiment_model")
tokenizer.save_pretrained("./my_chinese_sentiment_model")

# 加载推理（最常用方式）
from transformers import pipeline

sentiment_pipeline = pipeline(
    "sentiment-analysis",
    model="./my_chinese_sentiment_model",
    tokenizer="./my_chinese_sentiment_model"
)

# 测试
texts = [
    "这家餐厅的服务态度非常好，菜也超级美味！",
    "完全是浪费钱，东西难吃还贵，差评！",
    "一般般吧，没什么特别的。"
]

results = sentiment_pipeline(texts)
for text, res in zip(texts, results):
    label = "正面" if res["label"] == "LABEL_1" else "负面"
    print(f"文本: {text}\n预测: {label} (置信度: {res['score']:.4f})\n")

三、完整项目结构推荐（中型项目）

nlp_sentiment_project/
├── data/                  # 原始数据
├── models/                # 保存的模型
├── results/               # 训练输出
├── logs/
├── main.py                # 训练主文件
├── inference.py           # 推理脚本
├── requirements.txt
└── README.md

四、常见问题 & 优化建议（2026 经验）

问题	解决方案
显存不够	改小 batch_size=8 或用 `torch.cuda.empty_cache()`
中文效果差	换用 `hfl/chinese-bert-wwm-ext` 或 `chinese-roberta-wwm-ext`
想更快训练	加 `--fp16`（混合精度）或用 `unsloth` 加速微调
部署成 API	用 FastAPI + pipeline（下节课可讲）
多分类/多标签	把 `num_labels` 改成对应类别数即可

五、下一步建议

今天就把上面代码跑通（CPU 也只需要 10–30 分钟）
换成你自己的数据集（电商评论、电影短评等）
尝试其他任务：文本分类、命名实体识别、机器翻译

到此这篇关于Python搭建 NLP模型的详细步骤的文章就介绍到这了,更多相关Python搭建NLP模型内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python matplotlib如何给图中的点加标签
这篇文章主要介绍了python matplotlib给图中的点加标签,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
Python使用PyPDF进行PDF操作的代码示例
PDF 是一种非常常见的文件格式,用于文档共享、电子书、合同等场景,对于开发者来说,能够高效地操作 PDF 文件是一个重要技能,本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务,并分享实战经验,需要的朋友可以参考下
2025-01-01
Python 的 f-string 可以连接字符串与数字的原因解析
这篇文章主要介绍了Python 的 f-string 可以连接字符串与数字的原因解析,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-02-02
Python实现将Json转换为Xml与Markdown
这篇文章主要为大家详细介绍了如何利用Python实现将Json转换为Xml与Markdown格式,文中的示例代码讲解详细,有需要的小伙伴可以了解一下
2025-07-07
Python OpenCV实现边缘检测
这篇文章主要为大家详细介绍了Python OpenCV实现边缘检测，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-08-08
自动转换Python代码为HTML界面的GUI库remi使用探究
这篇文章主要为大家介绍了自动转换Python代码为HTML界面的GUI库remi使用探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
深入理解Pytorch微调torchvision模型
PyTorch是一个基于Torch的Python开源机器学习库，用于自然语言处理等应用程序。它主要由Facebookd的人工智能小组开发，不仅能够实现强大的GPU加速，同时还支持动态神经网络，这一点是现在很多主流框架如TensorFlow都不支持的
2021-11-11
一波神奇的Python语句、函数与方法的使用技巧总结
这篇文章主要介绍了一波神奇的Python函数与方法的使用技巧总结,包括装饰器和with语句等的不常见用法,需要的朋友可以参考下
2015-12-12
python连接MySQL数据库实例分析
这篇文章主要介绍了python连接MySQL数据库,实例分析了Python操作MySQL的相关技巧,需要的朋友可以参考下
2015-05-05
django中静态文件配置static的方法
我们可以使用Template 设置我们的网页，同时，一个完美的网页需要css，js，image 等静态文件的支持,这篇文章主要介绍了django中静态文件配置static的方法,感兴趣的小伙伴们可以参考一下
2018-05-05