<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>NER on Zhao Weidong Home Page</title><link>https://wdongz.github.io/blog/tags/ner/</link><description>Recent content in NER on Zhao Weidong Home Page</description><generator>Hugo -- 0.154.4</generator><language>en-us</language><lastBuildDate>Tue, 13 Jan 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://wdongz.github.io/blog/tags/ner/index.xml" rel="self" type="application/rss+xml"/><item><title>领域专用大语言模型微调：基于 QLoRA 的中医药命名实体识别 (TCM-NER)</title><link>https://wdongz.github.io/blog/posts/ner-med-log/</link><pubDate>Tue, 13 Jan 2026 00:00:00 +0000</pubDate><guid>https://wdongz.github.io/blog/posts/ner-med-log/</guid><description>&lt;p&gt;命名实体识别（Named Entity Recognition, NER）是构建医药知识图谱与辅助诊疗系统的核心下游任务。在中医药（TCM）领域，由于其文本具有高度的专业性、语义模糊性以及实体嵌套等特征，传统的基于统计学习或轻量级深度学习（如 BERT-CRF）的方法在处理长距离依赖和跨类语义理解时存在局限。&lt;/p&gt;
&lt;p&gt;本项目提出一种基于大语言模型指令微调的方案，利用 &lt;strong&gt;Qwen2.5-7B&lt;/strong&gt; 作为基座模型，通过 &lt;strong&gt;QLoRA (Quantized LoRA)&lt;/strong&gt; 技术在垂直领域语料上进行有监督微调（SFT），实现了针对中药、方剂、证候等 10 类实体的精准抽取。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="1-任务定义与数据工程"&gt;1. 任务定义与数据工程&lt;/h2&gt;
&lt;h3 id="11-实体体系定义"&gt;1.1 实体体系定义&lt;/h3&gt;
&lt;p&gt;本项目涵盖了中医药核心本体论中的 10 类关键实体，旨在实现多维度的信息提取。&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;&lt;strong&gt;实体类别&lt;/strong&gt;&lt;/th&gt;
&lt;th&gt;&lt;strong&gt;描述&lt;/strong&gt;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;中药 / 方剂&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;核心药物构成与复方组成&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;中医诊断 / 证候 / 治则&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;中医辨证论治的核心逻辑&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;临床表现&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;症状、体征的非结构化描述&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;西医治疗 / 诊断&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;中西医结合背景下的交叉实体&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="12-数据转换逻辑从-bio-到指令集"&gt;1.2 数据转换逻辑：从 BIO 到指令集&lt;/h3&gt;
&lt;p&gt;原始数据采用 &lt;strong&gt;BIO (Begin, Inside, Outside)&lt;/strong&gt; 标注格式。为了适配生成式大模型的推理模式，本项目通过预处理脚本将序列标注转换为指令对齐格式。&lt;/p&gt;
&lt;p&gt;转换公式描述：&lt;/p&gt;
&lt;p&gt;给定输入序列 $X = {x_1, x_2, &amp;hellip;, x_n}$ 及标签序列 $Y = {y_1, y_2, &amp;hellip;, y_n}$，构造映射函数 $f(X, Y) \to (Prompt, Response)$。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Prompt&lt;/strong&gt;: “请识别下面文本中的[实体类别]：$X$”&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Response&lt;/strong&gt;: 以结构化 JSON 或特定分隔符输出识别结果。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="2-算法架构与训练策略"&gt;2. 算法架构与训练策略&lt;/h2&gt;
&lt;h3 id="21-基于-qlora-的参数高效微调"&gt;2.1 基于 QLoRA 的参数高效微调&lt;/h3&gt;
&lt;p&gt;针对 7B 规模的模型，本项目采用 QLoRA 技术以平衡训练显存与收敛精度。&lt;/p&gt;</description></item></channel></rss>