命名实体识别(Named Entity Recognition, NER)是构建医药知识图谱与辅助诊疗系统的核心下游任务。在中医药(TCM)领域,由于其文本具有高度的专业性、语义模糊性以及实体嵌套等特征,传统的基于统计学习或轻量级深度学习(如 BERT-CRF)的方法在处理长距离依赖和跨类语义理解时存在局限。
本项目提出一种基于大语言模型指令微调的方案,利用 Qwen2.5-7B 作为基座模型,通过 QLoRA (Quantized LoRA) 技术在垂直领域语料上进行有监督微调(SFT),实现了针对中药、方剂、证候等 10 类实体的精准抽取。
1. 任务定义与数据工程 1.1 实体体系定义 本项目涵盖了中医药核心本体论中的 10 类关键实体,旨在实现多维度的信息提取。
实体类别 描述 中药 / 方剂 核心药物构成与复方组成 中医诊断 / 证候 / 治则 中医辨证论治的核心逻辑 临床表现 症状、体征的非结构化描述 西医治疗 / 诊断 中西医结合背景下的交叉实体 1.2 数据转换逻辑:从 BIO 到指令集 原始数据采用 BIO (Begin, Inside, Outside) 标注格式。为了适配生成式大模型的推理模式,本项目通过预处理脚本将序列标注转换为指令对齐格式。
转换公式描述:
给定输入序列 $X = {x_1, x_2, …, x_n}$ 及标签序列 $Y = {y_1, y_2, …, y_n}$,构造映射函数 $f(X, Y) \to (Prompt, Response)$。
Prompt: “请识别下面文本中的[实体类别]:$X$” Response: 以结构化 JSON 或特定分隔符输出识别结果。 2. 算法架构与训练策略 2.1 基于 QLoRA 的参数高效微调 针对 7B 规模的模型,本项目采用 QLoRA 技术以平衡训练显存与收敛精度。
...