<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Visualization on Zhao Weidong Home Page</title><link>https://wdongz.github.io/blog/tags/visualization/</link><description>Recent content in Visualization on Zhao Weidong Home Page</description><generator>Hugo -- 0.154.4</generator><language>en-us</language><lastBuildDate>Sun, 28 Dec 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://wdongz.github.io/blog/tags/visualization/index.xml" rel="self" type="application/rss+xml"/><item><title>EVL-LLMs：大语言模型可视化素养（Visualization Literacy）的系统性评估框架</title><link>https://wdongz.github.io/blog/projects/evl-llms/</link><pubDate>Sun, 28 Dec 2025 00:00:00 +0000</pubDate><guid>https://wdongz.github.io/blog/projects/evl-llms/</guid><description>&lt;p&gt;随着多模态大语言模型（MLLMs）的飞速发展，模型不仅需要理解文本，更需要具备处理图形化数据的能力。然而，如何量化评估 LLM 在可视化领域的“素养”——即生成准确数据、构建合规图表以及从视觉表示中提取深度信息的能力——成为了一个关键的科研命题。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;EVL-LLMs&lt;/strong&gt; 项目建立了一套自动化的端到端流水线，通过合成数据生成、视觉渲染与自动化提问，对 LLM 的可视化素养进行闭环评估。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一-可视化素养visualization-literacy的定义与挑战"&gt;一、 可视化素养（Visualization Literacy）的定义与挑战&lt;/h2&gt;
&lt;p&gt;可视化素养通常指个体从图形中读取、解释和呈现数据的能力。对于大语言模型而言，这一能力被拆解为两个核心维度：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;构造能力（Construction）&lt;/strong&gt;：根据特定语境（Context）生成结构化数据并转化为代码渲染图表。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;解读能力（Interpretation）&lt;/strong&gt;：针对生成的图表，识别极值、趋势、异常值或进行数据比较。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;在实际评估中，传统的静态数据集易受训练数据污染（Data Contamination）的影响。因此，EVL-LLMs 采用&lt;strong&gt;合成数据流水线&lt;/strong&gt;，确保评估样本的原创性与任务的针对性。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二-evl-llms-评估流水线架构"&gt;二、 EVL-LLMs 评估流水线架构&lt;/h2&gt;
&lt;p&gt;该项目实现了一个高度模块化的流水线，其核心逻辑由四个阶段组成：数据合成、视觉渲染、问题生成与闭环验证。&lt;/p&gt;
&lt;h3 id="21-任务输入与语境定义"&gt;2.1 任务输入与语境定义&lt;/h3&gt;
&lt;p&gt;系统接收三个关键参数作为元输入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Context (语境)&lt;/strong&gt;：定义数据集的业务背景（如：某专业学生的平均分）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chart Type (图表类型)&lt;/strong&gt;：指定视觉表现形式（Line Chart, Bar Chart, etc.）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Vis Task (视觉任务)&lt;/strong&gt;：定义评估的认知维度（如：Find Extremum, Trend Detection）。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="三-技术实现核心细节"&gt;三、 技术实现核心细节&lt;/h2&gt;
&lt;h3 id="31-基于-llm-的合成数据生成"&gt;3.1 基于 LLM 的合成数据生成&lt;/h3&gt;
&lt;p&gt;在 &lt;code&gt;utils.py&lt;/code&gt; 中，系统利用 OpenAI API 通过提示词工程（Prompt Engineering）引导模型生成符合统计分布的合成数据。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;一致性约束&lt;/strong&gt;：生成的 &lt;code&gt;dataset.csv&lt;/code&gt; 必须严格遵循 &lt;code&gt;context&lt;/code&gt; 的语义逻辑。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;复杂度控制&lt;/strong&gt;：根据 &lt;code&gt;vis_task&lt;/code&gt; 的难度，动态调整数据量和噪声水平。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="32-自动化视觉渲染"&gt;3.2 自动化视觉渲染&lt;/h3&gt;
&lt;p&gt;系统利用 Python 的 &lt;code&gt;pandas&lt;/code&gt; 和 &lt;code&gt;matplotlib&lt;/code&gt; 库将抽象数据转化为像素。为了确保评估的客观性，渲染过程采用标准化的样式配置，避免了色彩过度修饰对模型识别带来的偏差。&lt;/p&gt;
&lt;p&gt;$$\text{Image_Quality} = f(\text{Resolution}, \text{Label_Clarity}, \text{Data_Density})$$&lt;/p&gt;</description></item></channel></rss>