通过感知扰动与奖励建模缓解多模态 LLM 作为评判中的感知判断偏差

论文信息

标题: Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

作者: Seojeong Park, Jiho Choi, Junyong Kang, et al.

发布日期: 2026-06-01

PDF 链接: 下载 PDF

当多模态大模型当裁判，眼睛却 “看偏” 了

随着多模态大模型的崛起，我们不仅能用它分析图片、生成文案，还能让它当 “裁判”，评价不同模型生成的回答质量。这种自动化评估范式被称为 MLLM-as-a-Judge。但这对看似全能的裁判，却有一个致命的偏见：当视觉证据与文本线索冲突时，它们往往更相信那张能说会道的 “嘴”，而不是眼见为实的 “眼睛”。

来自韩国的研究团队在论文《Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling》中，系统性地分析了这一现象，并提出了解决方案。

裁判的 “双重偏见”

研究者将这种系统性偏差称为感知判断偏见，并拆解为两种典型失败模式：

感知能力不足：裁判自己就没看清图片（比如数错了苹果的数量），却给同样出错的回答打了高分。这就像糊涂裁判碰上同样糊涂的选手，误以为对方是满分答案。
响应锚定：裁判自己其实看对了，但在评判时却被回答中那些流畅优美的文字描述 “牵着鼻子走”，放弃了基于自身视觉感知做出的判断。这就好比一个考试中，阅卷老师虽然知道历史真相，却给了考生一篇文采飞扬但事实错误的文章高分。

研究团队通过一套精心设计的视觉干扰实验量化了这一问题。他们发现，当回答中同时包含感知和推理错误时，现有裁判模型能轻松识别，准确率超过 0.8。但当巧妙分离出仅存于 “感知层面” 的错误时，准确率骤降超过 10%。这暴露了一个核心缺陷：裁判模型只是在拒绝逻辑混乱的 “烂答案”，而非真正基于视觉证据进行评判。

三阶扰动数据与批排序奖励

为了解决这一难题，研究团队提出了两大核心组件：感知扰动判断数据集和可验证批次排序奖励模型。

PPJD 的构造思路非常巧妙。它不再使用简单的 “好-坏” 二元偏好对，而是为每个正确回答生成两个 “扰乱变体”：

$r_{r_p}$ ：仅对正确回答中与视觉相关的属性进行微调。例如，将 “红色的车” 改为 “蓝色的车”，但保留原有的流畅推理结构。这个回答看起来 “像模像样”，但一对照图片就露馅。
$r_{r_{p+r}}$ ：在感知扰动的基础上，进一步引入推理逻辑错误，形成一个 “全盘皆输” 的彻底错误回答。

这样，每个训练样本就形成了一个四元组： $(x_i, r_c, r_{r_p}, r_{r_{p+r}})$ ，它们之间存在一个明确的全局排序： $r_c \succ r_{r_p} \succ r_{r_{p+r}}$ 。也就是说，完全正确的回答优于纯感知错误的回答，而纯感知错误又优于感知和推理都错的回答。

这种精细化的数据集，为后续的强化学习训练提供了可验证的监督信号。研究团队没有使用传统的 PPO 算法，而是采用了群组相对策略优化方法。GRPO 的精髓在于，它不需要一个单独的值网络来评估状态好坏，而是通过在同一批次内生成多个回答并比较它们的相对优劣来更新策略，训练更加稳定高效。

更巧妙的是奖励函数的设计。它采用了一种层级结构：模型输出必须符合特定格式（格式奖励），然后基于模型对三个回答的排序 $\hat{\bm{\pi}}_i$ 与目标排序 $\bm{\pi}_i^{\star}$ 的加权莱文斯坦距离来给予奖励。这迫使模型不仅要学会辨别单个回答的好坏，还要在批次内建立连贯的、全局一致的排序，从而深刻理解 “感知正确” 远比 “语言流畅” 重要的评判准则。

实践成果与启示

实验结果表明，Perception-Judge 在多个基准测试中均展现了显著的性能提升。在与人类评估的一致性上，其批次级别的评估指标最高提升了 11%，单项评分预测准确率提升了 15%，性能甚至超越了 GPT-4V 等顶尖商业模型。在仅需 3000 个精心设计的训练样本的情况下，模型就展现出了极高的数据效率。

更深入的分析显示，该方法对仅存感知错误的识别能力有大幅提升，直接印证了对感知判断偏见的有效抑制。

这项工作不仅提升了大模型的评估可靠性，更带来了一些重要的实践启发：

对齐的核心是让模型 “看到”：与其通过大量人类反馈来修正模型的内部偏好，不如直接改造训练数据，让它从 “根源” 上学会基于视觉证据做判断。这是一种更经济、更治本的 “注意机制” 对齐策略。
数据质量远胜于数量：用几百万个目标模糊、信号混杂的数据对训练模型，在构建精准评估方面，远不如几千个能精确解耦感知与推理错误的数据有效。
可验证奖励的威力：GRPO 的奖励设计证明了，即便是非可微的排序任务，也能通过精心设计的可验证结构信号进行高效优化，提供了一条通往更稳健、更可解释模型训练的新途径。

展望未来，这一框架可以拓展到更多模态，如视频，去评估模型对动态场景的理解是否存在类似的 “叙事偏见”。同时，如何进一步降低对闭源模型生成监督信号的依赖，实现完全基于开源模型的自蒸馏训练，也是降低门槛、提升可复现性的关键一步。

这项研究不只是教会了多模态模型如何当一个更公正的裁判，它更深层的价值在于，为构建真正以视觉为根基、而非浮于文本表面的 AI 理解系统，铺设了一块重要的基石。