领域专用大语言模型微调：基于 QLoRA 的中医药命名实体识别 (TCM-NER)

Tue, 13 Jan 2026 00:00:00 +0000

命名实体识别（Named Entity Recognition, NER）是构建医药知识图谱与辅助诊疗系统的核心下游任务。在中医药（TCM）领域，由于其文本具有高度的专业性、语义模糊性以及实体嵌套等特征，传统的基于统计学习或轻量级深度学习（如 BERT-CRF）的方法在处理长距离依赖和跨类语义理解时存在局限。

本项目提出一种基于大语言模型指令微调的方案，利用 Qwen2.5-7B 作为基座模型，通过 QLoRA (Quantized LoRA) 技术在垂直领域语料上进行有监督微调（SFT），实现了针对中药、方剂、证候等 10 类实体的精准抽取。

1. 任务定义与数据工程

1.1 实体体系定义

本项目涵盖了中医药核心本体论中的 10 类关键实体，旨在实现多维度的信息提取。

实体类别	描述
中药 / 方剂	核心药物构成与复方组成
中医诊断 / 证候 / 治则	中医辨证论治的核心逻辑
临床表现	症状、体征的非结构化描述
西医治疗 / 诊断	中西医结合背景下的交叉实体

1.2 数据转换逻辑：从 BIO 到指令集

原始数据采用 BIO (Begin, Inside, Outside) 标注格式。为了适配生成式大模型的推理模式，本项目通过预处理脚本将序列标注转换为指令对齐格式。

转换公式描述：

给定输入序列 $X = {x_1, x_2, …, x_n}$ 及标签序列 $Y = {y_1, y_2, …, y_n}$，构造映射函数 $f(X, Y) \to (Prompt, Response)$。

Prompt: “请识别下面文本中的[实体类别]：$X$”
Response: 以结构化 JSON 或特定分隔符输出识别结果。

2. 算法架构与训练策略

2.1 基于 QLoRA 的参数高效微调