EVL-LLMs：大语言模型可视化素养（Visualization Literacy）的系统性评估框架

Sun, 28 Dec 2025 00:00:00 +0000

随着多模态大语言模型（MLLMs）的飞速发展，模型不仅需要理解文本，更需要具备处理图形化数据的能力。然而，如何量化评估 LLM 在可视化领域的“素养”——即生成准确数据、构建合规图表以及从视觉表示中提取深度信息的能力——成为了一个关键的科研命题。

EVL-LLMs 项目建立了一套自动化的端到端流水线，通过合成数据生成、视觉渲染与自动化提问，对 LLM 的可视化素养进行闭环评估。

一、可视化素养（Visualization Literacy）的定义与挑战

可视化素养通常指个体从图形中读取、解释和呈现数据的能力。对于大语言模型而言，这一能力被拆解为两个核心维度：

在实际评估中，传统的静态数据集易受训练数据污染（Data Contamination）的影响。因此，EVL-LLMs 采用合成数据流水线，确保评估样本的原创性与任务的针对性。

该项目实现了一个高度模块化的流水线，其核心逻辑由四个阶段组成：数据合成、视觉渲染、问题生成与闭环验证。

系统接收三个关键参数作为元输入：

在 utils.py 中，系统利用 OpenAI API 通过提示词工程（Prompt Engineering）引导模型生成符合统计分布的合成数据。

系统利用 Python 的 pandas 和 matplotlib 库将抽象数据转化为像素。为了确保评估的客观性，渲染过程采用标准化的样式配置，避免了色彩过度修饰对模型识别带来的偏差。

$$\text{Image_Quality} = f(\text{Resolution}, \text{Label_Clarity}, \text{Data_Density})$$