EVL-LLMs：大语言模型可视化素养（Visualization Literacy）的系统性评估框架

随着多模态大语言模型（MLLMs）的飞速发展，模型不仅需要理解文本，更需要具备处理图形化数据的能力。然而，如何量化评估 LLM 在可视化领域的“素养”——即生成准确数据、构建合规图表以及从视觉表示中提取深度信息的能力——成为了一个关键的科研命题。

EVL-LLMs 项目建立了一套自动化的端到端流水线，通过合成数据生成、视觉渲染与自动化提问，对 LLM 的可视化素养进行闭环评估。

一、可视化素养（Visualization Literacy）的定义与挑战

可视化素养通常指个体从图形中读取、解释和呈现数据的能力。对于大语言模型而言，这一能力被拆解为两个核心维度：

构造能力（Construction）：根据特定语境（Context）生成结构化数据并转化为代码渲染图表。
解读能力（Interpretation）：针对生成的图表，识别极值、趋势、异常值或进行数据比较。

在实际评估中，传统的静态数据集易受训练数据污染（Data Contamination）的影响。因此，EVL-LLMs 采用合成数据流水线，确保评估样本的原创性与任务的针对性。

二、 EVL-LLMs 评估流水线架构

该项目实现了一个高度模块化的流水线，其核心逻辑由四个阶段组成：数据合成、视觉渲染、问题生成与闭环验证。

2.1 任务输入与语境定义

系统接收三个关键参数作为元输入：

Context (语境)：定义数据集的业务背景（如：某专业学生的平均分）。
Chart Type (图表类型)：指定视觉表现形式（Line Chart, Bar Chart, etc.）。
Vis Task (视觉任务)：定义评估的认知维度（如：Find Extremum, Trend Detection）。

三、技术实现核心细节

3.1 基于 LLM 的合成数据生成

在 utils.py 中，系统利用 OpenAI API 通过提示词工程（Prompt Engineering）引导模型生成符合统计分布的合成数据。

一致性约束：生成的 dataset.csv 必须严格遵循 context 的语义逻辑。
复杂度控制：根据 vis_task 的难度，动态调整数据量和噪声水平。

3.2 自动化视觉渲染

系统利用 Python 的 pandas 和 matplotlib 库将抽象数据转化为像素。为了确保评估的客观性，渲染过程采用标准化的样式配置，避免了色彩过度修饰对模型识别带来的偏差。

$$\text{Image_Quality} = f(\text{Resolution}, \text{Label_Clarity}, \text{Data_Density})$$

3.3 视觉推理问题的构建

评估的最关键一步是生成与图表高度相关的测验。例如，针对“寻找极值”任务，系统会生成如下结构的 question.csv：

Q: 在上述趋势中，哪个月份的平均分最高？
A: [基于原始 dataset.csv 计算出的真值]

这种基于原始数据生成的“黄金标准答案”避免了人为标注的误差，实现了自动化的准确率统计。

四、实验数据结构与样本分析

在输出目录 code/output/ 中，系统生成了完整的评估链条数据：

文件名	内容描述	作用
dataset.csv	合成的原始数值序列	提供事实真相（Ground Truth）
visualization.png	渲染后的视觉图像	作为多模态 LLM 的视觉输入
question.csv	针对图像提出的推理问题	测试模型的解释能力

案例分析：极值寻找任务

输入语境：过去一年不同专业学生的平均分。
图表类型：折线图（Line Chart）。
视觉任务：寻找最高分及其对应专业。

在该场景下，LLM 必须不仅能识别像素点的相对高度，还需将其与坐标轴的文本标签（Major Name）进行精确关联。

五、项目工程实践价值

EVL-LLMs 项目为评估 LLM 在特定垂直领域的可视化能力提供了标准工具。其工程价值体现在：

闭环自动化：从数据生成到结果验证无需人工干预。
任务可扩展性：通过修改 data 字典，可以轻松扩展至饼图、散点图等复杂视觉任务。
多模态对比基准：可用于对比不同模型（如 GPT-4o 与 Claude 3.5 Sonnet）在视觉解析上的细微差异。

六、结论与展望

可视化素养是 LLM 迈向通用人工智能（AGI）的重要里程碑。EVL-LLMs 通过程序化的方式，将模糊的“理解能力”转化为可度量的“准确率数据”。

下一步研究方向：

引入更复杂的视觉干扰项（如非标准坐标轴缩放）。
增加对动态交互式图表的评估。
探索模型在生成图表时的“幻觉（Hallucination）”检测。

一、 可视化素养（Visualization Literacy）的定义与挑战#

二、 EVL-LLMs 评估流水线架构#

2.1 任务输入与语境定义#

三、 技术实现核心细节#

3.1 基于 LLM 的合成数据生成#

3.2 自动化视觉渲染#

3.3 视觉推理问题的构建#

四、 实验数据结构与样本分析#

案例分析：极值寻找任务#

五、 项目工程实践价值#

六、 结论与展望#