EVL-LLMs:大语言模型可视化素养(Visualization Literacy)的系统性评估框架

随着多模态大语言模型(MLLMs)的飞速发展,模型不仅需要理解文本,更需要具备处理图形化数据的能力。然而,如何量化评估 LLM 在可视化领域的“素养”——即生成准确数据、构建合规图表以及从视觉表示中提取深度信息的能力——成为了一个关键的科研命题。 EVL-LLMs 项目建立了一套自动化的端到端流水线,通过合成数据生成、视觉渲染与自动化提问,对 LLM 的可视化素养进行闭环评估。 一、 可视化素养(Visualization Literacy)的定义与挑战 可视化素养通常指个体从图形中读取、解释和呈现数据的能力。对于大语言模型而言,这一能力被拆解为两个核心维度: 构造能力(Construction):根据特定语境(Context)生成结构化数据并转化为代码渲染图表。 解读能力(Interpretation):针对生成的图表,识别极值、趋势、异常值或进行数据比较。 在实际评估中,传统的静态数据集易受训练数据污染(Data Contamination)的影响。因此,EVL-LLMs 采用合成数据流水线,确保评估样本的原创性与任务的针对性。 二、 EVL-LLMs 评估流水线架构 该项目实现了一个高度模块化的流水线,其核心逻辑由四个阶段组成:数据合成、视觉渲染、问题生成与闭环验证。 2.1 任务输入与语境定义 系统接收三个关键参数作为元输入: Context (语境):定义数据集的业务背景(如:某专业学生的平均分)。 Chart Type (图表类型):指定视觉表现形式(Line Chart, Bar Chart, etc.)。 Vis Task (视觉任务):定义评估的认知维度(如:Find Extremum, Trend Detection)。 三、 技术实现核心细节 3.1 基于 LLM 的合成数据生成 在 utils.py 中,系统利用 OpenAI API 通过提示词工程(Prompt Engineering)引导模型生成符合统计分布的合成数据。 一致性约束:生成的 dataset.csv 必须严格遵循 context 的语义逻辑。 复杂度控制:根据 vis_task 的难度,动态调整数据量和噪声水平。 3.2 自动化视觉渲染 系统利用 Python 的 pandas 和 matplotlib 库将抽象数据转化为像素。为了确保评估的客观性,渲染过程采用标准化的样式配置,避免了色彩过度修饰对模型识别带来的偏差。 $$\text{Image_Quality} = f(\text{Resolution}, \text{Label_Clarity}, \text{Data_Density})$$ ...

December 28, 2025