领域专用大语言模型微调:基于 QLoRA 的中医药命名实体识别 (TCM-NER)

命名实体识别(Named Entity Recognition, NER)是构建医药知识图谱与辅助诊疗系统的核心下游任务。在中医药(TCM)领域,由于其文本具有高度的专业性、语义模糊性以及实体嵌套等特征,传统的基于统计学习或轻量级深度学习(如 BERT-CRF)的方法在处理长距离依赖和跨类语义理解时存在局限。 本项目提出一种基于大语言模型指令微调的方案,利用 Qwen2.5-7B 作为基座模型,通过 QLoRA (Quantized LoRA) 技术在垂直领域语料上进行有监督微调(SFT),实现了针对中药、方剂、证候等 10 类实体的精准抽取。 1. 任务定义与数据工程 1.1 实体体系定义 本项目涵盖了中医药核心本体论中的 10 类关键实体,旨在实现多维度的信息提取。 实体类别 描述 中药 / 方剂 核心药物构成与复方组成 中医诊断 / 证候 / 治则 中医辨证论治的核心逻辑 临床表现 症状、体征的非结构化描述 西医治疗 / 诊断 中西医结合背景下的交叉实体 1.2 数据转换逻辑:从 BIO 到指令集 原始数据采用 BIO (Begin, Inside, Outside) 标注格式。为了适配生成式大模型的推理模式,本项目通过预处理脚本将序列标注转换为指令对齐格式。 转换公式描述: 给定输入序列 $X = {x_1, x_2, …, x_n}$ 及标签序列 $Y = {y_1, y_2, …, y_n}$,构造映射函数 $f(X, Y) \to (Prompt, Response)$。 Prompt: “请识别下面文本中的[实体类别]:$X$” Response: 以结构化 JSON 或特定分隔符输出识别结果。 2. 算法架构与训练策略 2.1 基于 QLoRA 的参数高效微调 针对 7B 规模的模型,本项目采用 QLoRA 技术以平衡训练显存与收敛精度。 ...

January 13, 2026

Unity 角色智能决策架构演进:从 FSM 到 GOAP 的技术选型与实现

在现代游戏开发中,非玩家角色(NPC)的行为逻辑是构建沉浸感的核心要素。随着游戏玩法的日益复杂,简单的脚本化逻辑已难以满足需求。在 Unity 生态中,有限状态机(Finite State Machine, FSM)、行为树(Behavior Tree, BT)与目标导向行动规划(Goal-Oriented Action Planning, GOAP)是三种主流的 AI 决策架构。 本文将从工程实现角度深入剖析这三种架构的运行机制,对比其优劣,并探讨在不同业务场景下的技术选型策略。 一、 有限状态机(FSM):确定性的基石 有限状态机是游戏 AI 中最古老且基础的架构。其核心理念是将 AI 的行为分解为离散的“状态”(State),并通过预设的“条件”(Condition)在状态之间进行转换(Transition)。 1.1 技术实现机制 在 Unity 中,FSM 的实现通常经历两个阶段的演进: 基于 Switch-Case 的硬编码:适用于原型阶段,但在逻辑扩展时极易导致代码臃肿。 基于状态模式(State Pattern)的面向对象封装:将每个状态封装为独立的类(继承自 BaseState),拥有 Enter、Execute、Exit 三个生命周期方法。 状态机的运行依赖于严格的图论逻辑: stateDiagram-v2 [*] --> Idle Idle --> Patrol: 计时器结束 Patrol --> Chase: 发现玩家 Chase --> Attack: 距离 < 攻击范围 Attack --> Chase: 距离 > 攻击范围 Chase --> Patrol: 玩家丢失 1.2 架构局限性 FSM 的最大优势在于确定性与低计算开销。每一时刻 AI 处于且仅处于一个状态,调试路径清晰。 然而,当 AI 逻辑变得复杂(例如一个角色拥有 20 种状态)时,FSM 面临“转换爆炸”问题。每增加一个新状态,可能需要定义它与现有所有状态的转换关系,导致维护成本呈指数级上升($O(N^2)$ 的复杂度)。虽然 Unity 的 Animator Controller 本质上是一个可视化 FSM,但在处理纯逻辑(非动画)时,连线过于复杂会导致“面条式”图表,难以阅读。 ...

January 5, 2026