333体育- 紫东太初团队获ACL 2025 SAC Highlights奖！让视觉语言模型学会提问：消解视觉问答中的模糊性

发布于：2025-11-27

紫东太始团队获ACL 2025 SAC Highlights奖！让视觉语言模子学会发问：消解视觉问答中的恍惚性跟着多模态年夜模子技能的快速成长，视觉语言模子（Vision-Language Models, VLMs）于视觉问答（Visual Question Answering, VQA）等使命中揭示出了卓着的能力。然而，真实世界中的视觉问题往往存于恍惚性，例如指代不清、用户用意表达不完备或者拼写过错等，使患上VLM难以直接给出正确的回覆。近日，紫东太始团队提出了一种名为ClearVQA的全新基准与练习要领，初次体系性地研究了VLMs经由过程自动发问举行交互式澄清，以消解问题中恍惚性的能力，得到ACL-2025 SAC Highlights奖项。视觉问答 (Visual question answering, VQA) 使命要求模子按照给定图象及问题，天生天然语言的谜底。然而，用户的语言表达差异及习气问题，经常致使现实利用中常常呈现用户问题恍惚的景象。例如，面临如图1所示的视觉问题，用户可能问：他们站于甚么前面？但现实上，用户可能指的是远景中的食品，也多是远处的餐车。图1 于传统的视觉问答场景中，暗昧不清的问题可能会让视觉语言模子困惑，致使孕育发生非指望的谜底。于这类环境下，咱们夸大模子应先提出澄清性问题，并按照用户反馈天生切合预期的谜底。于多模态与VQA范畴，已经有一些事情研究视觉语言模子怎样应答恍惚的指令或者问题。然而，已经有事情仅经由过程推理可能用意来解决恍惚性，纰漏了现实场景中VLMs可以于与用户交互的历程中消弭视觉问题中存于的恍惚性，从而更正确、详细地天生谜底。然而，这类交互式澄清要领的研究尚处在开端阶段，重要面对两个要害挑战：缺少一个周全有用的基准来评估模子的交互式澄清能力；现有的年夜型VLMs更偏向在直接回覆问题，而非自动提出澄清问题。为了有用应答上述挑战，紫东太始团队提出了ClearVQA，一种夸大交互式澄清的VQA基准及对于应的练习要领。图2 ClearVQA 基准中夸大的视觉问题恍惚性。(a) 于 ClearVQA 中，恍惚性被归纳为三类：指代恍惚、用意不明确及拼写恍惚。Q 暗示原始问题，IQ 暗示用户的真实用意问题，ICQ 暗示抱负的澄清性问题，GT 暗示真实谜底。(b) 测试集试验成果注解，与表述清楚的 IQ 比拟，现有视觉-语言模子（VLM）难以处置惩罚响应的暗昧问题，致使 VQA 正确率显著降落。详细而言，本研究针对于视觉语言模子于处置惩罚视觉问答使命时碰到的问题恍惚性，提出了一个立异的交互式澄清框架，触及如下两个焦点要领： ClearVQA基准的构建：研究团队初次提出了ClearVQA基准，以体系性地评估视觉语言模子（VLM）于交互式澄清场景下的体现。如图2（a）所示，ClearVQA夸大了三类常见的恍惚性问题，包括指代恍惚（Referential ambiguity）、用意不明确（Intent underspecification）与拼写恍惚（Spelling ambiguity），涵盖广泛的视觉理解、跨模态推理、常识推理及场景文本理解场景，提供了详尽的评估指标用在切确量化模子交互式澄清的能力。如图2（b）所示，相对于在表述清楚的原始问题，VLMs往往难以回覆ClearVQA中引入恍惚性后的问题。针对于交互式澄清能力练习要领：为了有用地付与模子交互式澄清能力，研究团队设计了一个彻底主动化的数据天生要领，使用年夜语言模子（LLM）主动构建了存于恍惚性的视觉问题和其对于应的澄清性发问对于。进一步经由过程监视微调（Supervised Fine-Tuning, SFT）及直接偏好优化（Direct Preference Optimization, DPO）两个练习阶段，使患上模子可以或许自动辨认问题中的恍惚性并提出合理的澄清问题，以按照用户反馈精准天生谜底。经由过程这两个焦点要领，研究团队于ClearVQA构建的练习数据上微调了开源视觉语言模子（如LLaVA），如表1所示的成果注解，所提出的要领于存于恍惚性的问题上显著优在传统非交互式模子。这证实了交互式澄清于处置惩罚实际世界中视觉问题恍惚性时的巨年夜潜力及上风。表1 基在提出要领练习的，具有交互式恍惚性澄清能力的 VLM，于ClearVQA上与通用 VLM的机能对于比。不仅云云，如表2所示的试验成果注解，基在所提出的练习计谋，VLMs对于在问题是否存于恍惚性的判定能力甚至优在GPT-4V, 甚至是GPT-4o。这象征着咱们的练习要领也可以做到让VLMs学会对于在存于恍惚性的问题举行交互式澄清的同时，对于表述清楚的问题直接回覆。表2 VLMs区别问题是否存于恍惚性的能力的量化成果综上所述，本研究提出的ClearVQA基准和响应要领，弥补了视觉语言模子于交互式澄清范畴的空缺。这不仅鞭策了多模态理解范畴的理论研究，也对于将来更具人道化及智能化的人工智能体系开发具备必然影响。论文中提出的ClearVQA基准已经开源，接待社区进一步摸索与利用。论文标题：Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. ACL-2025 (SAC Highlights)代码堆栈：https://github.com/jian0805/ClearVQA-333体育