Posts

命名实体识别（Named Entity Recognition, NER）是构建医药知识图谱与辅助诊疗系统的核心下游任务。在中医药（TCM）领域，由于其文本具有高度的专业性、语义模糊性以及实体嵌套等特征，传统的基于统计学习或轻量级深度学习（如 BERT-CRF）的方法在处理长距离依赖和跨类语义理解时存在局限。本项目提出一种基于大语言模型指令微调的方案，利用 Qwen2.5-7B 作为基座模型，通过 QLoRA (Quantized LoRA) 技术在垂直领域语料上进行有监督微调（SFT），实现了针对中药、方剂、证候等 10 类实体的精准抽取。 1. 任务定义与数据工程 1.1 实体体系定义本项目涵盖了中医药核心本体论中的 10 类关键实体，旨在实现多维度的信息提取。实体类别描述中药 / 方剂核心药物构成与复方组成中医诊断 / 证候 / 治则中医辨证论治的核心逻辑临床表现症状、体征的非结构化描述西医治疗 / 诊断中西医结合背景下的交叉实体 1.2 数据转换逻辑：从 BIO 到指令集原始数据采用 BIO (Begin, Inside, Outside) 标注格式。为了适配生成式大模型的推理模式，本项目通过预处理脚本将序列标注转换为指令对齐格式。转换公式描述：给定输入序列 $X = {x_1, x_2, …, x_n}$ 及标签序列 $Y = {y_1, y_2, …, y_n}$，构造映射函数 $f(X, Y) \to (Prompt, Response)$。 Prompt: “请识别下面文本中的[实体类别]：$X$” Response: 以结构化 JSON 或特定分隔符输出识别结果。 2. 算法架构与训练策略 2.1 基于 QLoRA 的参数高效微调针对 7B 规模的模型，本项目采用 QLoRA 技术以平衡训练显存与收敛精度。 ...

在现代游戏开发中，非玩家角色（NPC）的行为逻辑是构建沉浸感的核心要素。随着游戏玩法的日益复杂，简单的脚本化逻辑已难以满足需求。在 Unity 生态中，有限状态机（Finite State Machine, FSM）、行为树（Behavior Tree, BT）与目标导向行动规划（Goal-Oriented Action Planning, GOAP）是三种主流的 AI 决策架构。本文将从工程实现角度深入剖析这三种架构的运行机制，对比其优劣，并探讨在不同业务场景下的技术选型策略。一、有限状态机（FSM）：确定性的基石有限状态机是游戏 AI 中最古老且基础的架构。其核心理念是将 AI 的行为分解为离散的“状态”（State），并通过预设的“条件”（Condition）在状态之间进行转换（Transition）。 1.1 技术实现机制在 Unity 中，FSM 的实现通常经历两个阶段的演进：基于 Switch-Case 的硬编码：适用于原型阶段，但在逻辑扩展时极易导致代码臃肿。基于状态模式（State Pattern）的面向对象封装：将每个状态封装为独立的类（继承自 BaseState），拥有 Enter、Execute、Exit 三个生命周期方法。状态机的运行依赖于严格的图论逻辑： stateDiagram-v2 [*] --> Idle Idle --> Patrol: 计时器结束 Patrol --> Chase: 发现玩家 Chase --> Attack: 距离 < 攻击范围 Attack --> Chase: 距离 > 攻击范围 Chase --> Patrol: 玩家丢失 1.2 架构局限性 FSM 的最大优势在于确定性与低计算开销。每一时刻 AI 处于且仅处于一个状态，调试路径清晰。然而，当 AI 逻辑变得复杂（例如一个角色拥有 20 种状态）时，FSM 面临“转换爆炸”问题。每增加一个新状态，可能需要定义它与现有所有状态的转换关系，导致维护成本呈指数级上升（$O(N^2)$ 的复杂度）。虽然 Unity 的 Animator Controller 本质上是一个可视化 FSM，但在处理纯逻辑（非动画）时，连线过于复杂会导致“面条式”图表，难以阅读。 ...

Posts

领域专用大语言模型微调：基于 QLoRA 的中医药命名实体识别 (TCM-NER)

Unity 角色智能决策架构演进：从 FSM 到 GOAP 的技术选型与实现