Usage instructions: here
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-28 | Advancing site-specific disease and pest management in precision agriculture: From reasoning-driven foundation models to adaptive, feedback-based learning | null | 作物精准病害管理(SSDM)通过机器学习和深度学习(ML和DL)在实时计算机视觉方面取得了快速进展。研究已从手工特征提取发展到大规模自动化特征学习。借助基础模型(FM),作物病害数据集现正以根本性的新方式进行处理。与传统神经网络不同,FM整合视觉和文本数据,以文本形式解释症状,推理症状与管理之间的关系,并支持为种植者和教育工作者提供交互式问答。机器人技术中的自适应学习和模仿学习进一步实现了田间病害管理。本综述筛选了约40篇关于FM在SSDM中应用的文章,重点关注大语言模型(LLM)和视觉-语言模型(VLM),并讨论了它们在自适应学习(AL)、强化学习(RL)和用于精准喷洒的数字孪生框架中的作用。主要发现包括:(a) FM在2023-24年文献数量激增,正获得关注;(b) VLM的发展速度超过LLM,发表数量增加了5-10倍;(c) RL和AL在智能喷洒方面仍处于萌芽阶段;(d) 结合RL的数字孪生可以虚拟模拟精准喷洒;(e) 解决模拟与现实的差距对于实际部署至关重要;(f) 人机协作仍然有限,尤其是在机器人检测早期症状、人类验证不确定情况的人在环方法中;(g) 具有实时反馈的多模态FM将推动下一代SSDM。如需获取更新、资源和贡献,请访问https://github.com/nitin-dominic/AgriPathogenDatabase,提交论文、代码或数据集。 |
| 2025-10-28 | “Mm, Wat?” Detecting Other-initiated Repair Requests in Dialogue | null | 维持相互理解是人际对话中避免对话中断的关键组成部分,其中修复,尤其是他方发起式修复(OIR,当一方发出疑难信号并促使另一方解决时),起着至关重要的作用。然而,对话代理(CAs)仍然未能识别用户发起的修复,导致对话中断或脱离。本工作提出一个多模态模型,通过整合基于会话分析的语言和韵律特征,自动检测荷兰语对话中的修复发起。结果表明,韵律线索补充了语言特征,并显著提高了预训练文本和音频嵌入的结果,提供了关于不同特征如何相互作用的见解。未来方向包括整合视觉线索,探索多语言和跨语境语料库,以评估其鲁棒性和泛化能力。 |
| 2025-10-28 | OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents | null | 随着决策和推理能力的进步,多模态智能体在计算机应用场景中展现出巨大潜力。过去的评估主要评估了图形用户界面(GUI)交互技能,而工具调用能力,例如由模型上下文协议(MCP)支持的能力,却在很大程度上被忽视了。将集成工具调用的智能体与仅在GUI交互方面进行评估的智能体进行比较,本质上是不公平的。我们提出了OSWorld-MCP,这是首个用于在真实世界环境中评估计算机使用智能体的工具调用、GUI操作和决策能力的全面且公平的基准。我们设计了一种新颖的自动化代码生成管道来创建工具,并将其与从现有工具中精心挑选的部分相结合。严格的手动验证产生了158个高质量工具(涵盖7种常用应用程序),每个工具都经过验证,确保了其正确的功能性、实际适用性和多功能性。对OSWorld-MCP上最先进多模态智能体进行的广泛评估表明,MCP工具普遍提高了任务成功率(例如,OpenAI o3在15步时从8.3%提高到20.4%,Claude 4 Sonnet在50步时从40.1%提高到43.3%),这强调了评估工具调用能力的重要性。然而,即使是最强的模型也具有相对较低的工具调用率,仅为36.3%,这表明仍有改进空间,并凸显了该基准的挑战性。通过明确衡量MCP工具使用技能,OSWorld-MCP加深了对多模态智能体的理解,并为评估其在复杂的、工具辅助环境中的性能设定了新标准。我们的代码、环境和数据可在https://osworld-mcp.github.io公开获取。 |
| 2025-10-28 | Generative AI for Healthcare: Fundamentals, Challenges, and Perspectives | null | 生成式人工智能 (GenAI) 正在席卷全球。它为推进和颠覆现有实践(包括医疗保健)带来了变革性机遇。从用于临床笔记综合和对话辅助的大语言模型 (LLMs) 到整合医学影像、电子健康记录和基因组数据以提供决策支持的多模态系统,GenAI 正在改变医学实践和医疗保健服务(例如诊断和个性化治疗),在减轻临床医生认知负担方面具有巨大潜力,从而改善整体医疗保健服务。然而,GenAI 在医疗保健领域的部署需要深入理解医疗保健任务以及可以实现什么和不能实现什么。在本文中,我们提出了一种以数据为中心的范式,用于医疗保健领域 GenAI 系统的设计和部署。具体而言,我们通过将医疗数据生态系统作为生成式医疗保健系统的基础底层,重新定位了数据生命周期。该生态系统旨在可持续地支持多样化医疗数据和知识的整合、表示和检索。通过有效且高效的数据处理管道(例如语义向量搜索和上下文查询),它支持上游模型组件和下游临床应用的 GenAI 驱动操作。最终,它不仅为基础模型提供高质量、多模态数据,用于大规模预训练和领域特定微调,而且还作为知识检索后端,通过代理层支持任务特定推理。该生态系统使得GenAI能够用于高质量和有效的医疗保健服务。 |
| 2025-10-28 | Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs | null | 多模态大型语言模型(MLLM)在视觉理解方面表现出色,但在需要视觉规划和想象的复杂场景中常常表现不佳。受人类将草图作为一种视觉思维形式来发展和交流想法的启发,我们引入了Latent Sketchpad,一个为MLLM配备内部视觉草稿本的框架。MLLM的内部视觉表示传统上局限于感知理解,我们对其进行了重新利用,以支持生成式视觉思维,同时不损害推理能力。基于前沿MLLM,我们的方法将视觉生成直接融入其原生的自回归推理过程,允许模型将文本推理与视觉潜在表示的生成交织在一起。这些潜在表示引导内部思维过程,并可以被转换为草图图像以提高可解释性。为实现这一点,我们引入了两个组件:一个上下文感知视觉头部自回归地生成视觉表示,以及一个预训练的草图解码器将这些渲染成人类可解释的图像。我们通过我们新的MazePlanning数据集评估了该框架。跨不同MLLM的实验表明,Latent Sketchpad提供了与它们骨干模型相当甚至更优的推理性能。它进一步泛化到不同的前沿MLLM,包括Gemma3和Qwen2.5-VL。通过将模型的文本推理扩展到视觉思维,我们的框架为更丰富的人机交互和更广泛的应用开辟了新的机会。更多详细信息和资源可在我们的项目页面获取:https://latent-sketchpad.github.io/。 |
| 2025-10-28 | SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space | null | 多模态大语言模型(MLLM)在推理分割等视觉-语言任务中展现出令人印象深刻的能力,这些任务中模型根据文本查询生成分割掩码。尽管先前的工作主要集中于扰动图像输入,但语义等效的文本释义(在用户以不同方式表达相同意图的实际应用中至关重要)仍未得到充分探索。为解决这一空白,我们引入了一种新颖的对抗性释义任务:生成语法正确、保留原始查询含义但能降低分割性能的释义。为评估对抗性释义的质量,我们开发了一套全面的自动评估协议,并通过人工研究进行了验证。此外,我们引入了SPARTA,这是一种黑盒、句子级优化方法,它在文本自编码器的低维语义潜在空间中运行,并由强化学习指导。SPARTA取得了显著更高的成功率,在ReasonSeg和LLMSeg-40k数据集上,其性能比现有方法高出2倍。我们使用SPARTA和有竞争力的基线来评估先进推理分割模型的鲁棒性。我们揭示了即使在严格的语义和语法约束下,这些模型仍然容易受到对抗性释义的攻击。所有代码和数据将在论文接收后公开发布。 |
| 2025-10-28 | OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows | null | 由视觉-语言模型 (VLM) 驱动的计算机使用智能体在操作移动平台等数字环境方面展现了类人能力。尽管这些智能体在推进数字自动化方面具有巨大潜力,但它们可能进行的不安全操作(例如系统入侵和隐私泄露)正引起重大担忧。在移动环境广阔而复杂的运行空间中检测这些安全问题,是一个艰巨且仍未得到充分探索的挑战。为了为移动智能体安全研究奠定基础,我们引入了 MobileRisk-Live,这是一个动态沙盒环境,并附带一个包含具有细粒度标注的真实轨迹的安全检测基准。在此基础上,我们提出了 OS-Sentinel,这是一种新颖的混合安全检测框架,它协同结合了一个用于检测显式系统级违规的形式化验证器和一个基于VLM的上下文判断器,用于评估上下文风险和智能体行为。实验表明,OS-Sentinel 在多个指标上相较于现有方法实现了 10%-30% 的改进。进一步的分析提供了关键见解,有助于开发更安全、更可靠的自主移动智能体。 |
| 2025-10-28 | Self-Normalized Quantile Empirical Saddlepoint Approximation | null | 我们提出了一种用于总体分位数频率推断的无密度方法,称作自归一化分位数经验鞍点近似 (SNQESA)。该方法从固定分位数阈值的指示得分构建自归一化枢轴量,然后采用受约束经验鞍点近似来获得高精度的尾部概率。反演这些尾部区域可以产生置信区间和检验,而无需估计目标分位数处的未知密度,从而消除了带宽选择以及影响基于核的Wald/Hall-Sheather区间的边界问题。在温和的局部正则性条件下,所得程序在反演后能达到高阶尾部精度和二阶覆盖率。由于枢轴量基于有界伯努利归约,该方法对于偏斜和重尾分布以及极端分位数仍然可靠。跨轻尾、重尾和多峰分布的大量蒙特卡罗实验表明,SNQESA 在小到中等样本量下提供稳定的覆盖率和有竞争力的区间长度,同时比大B重采样方案快几个数量级。一项采用滚动窗口的风险价值 (VaR) 实证研究进一步突出了其在尾部性能和计算效率方面的优势。该框架自然地扩展到两样本分位数差异和回归类型设置,为无分布分位数推断提供了一种实用、分析透明的替代方案,可替代核方法、自举法和经验似然法。 |
| 2025-10-28 | A Unified Geometric Space Bridging AI Models and the Human Brain | null | 数十年来,神经科学家和计算机科学家一直怀揣着一个共同的抱负:理解智能并构建它。现代人工神经网络在语言、感知和推理方面已能与人类匹敌,然而,这些人工系统是否像大脑一样组织信息,在很大程度上仍是未知数。现有的脑-AI对齐研究已经揭示了这两个系统之间惊人的对应关系,但这类比较仍局限于特定的输入和任务,未能提供一个通用基础来比较具有不同模态(视觉、语言或多模态)的AI模型是如何内在组织起来的。在此,我们引入了一个开创性的概念——类脑空间:这是一个统一的几何空间,无论输入模态、任务或感觉域如何,每个AI模型都可以通过将其内在的空间注意力拓扑组织映射到规范的人类功能性脑网络上,从而在这个空间中被精确地定位和比较。我们对151个Transformer模型进行了广泛分析,这些模型涵盖了最先进的大型视觉模型、大型语言模型和大型多模态模型,结果揭示了这个空间内存在一个连续的弧形几何结构,反映了类脑性的逐渐增强;不同模型在这个几何结构中呈现出与不同类脑程度相关的独特分布模式,这些模式不仅受到其模态的影响,还受到预训练范式是否强调全局语义抽象以及位置编码方案是否促进了跨不同模态的深度融合的影响。此外,模型的类脑程度及其下游任务性能并非“同卵双胞胎”。类脑空间提供了首个统一框架,用于跨领域定位、量化和比较智能,揭示了连接机器与大脑的深层组织原则。 |
| 2025-10-28 | Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes | null | 目的:手术场景理解是推进计算机辅助和智能手术系统的关键。当前方法主要依赖于视觉数据或端到端学习,这限制了细粒度上下文建模。本工作旨在通过整合三维声学信息来增强手术场景表示,从而实现对手术环境在时间上和空间上感知的多模态理解。方法:我们提出了一种新颖的框架,通过将相控麦克风阵列的声学定位信息投影到RGB-D相机生成的动态点云上,从而生成手术场景的四维视听表示。一个基于Transformer的声学事件检测模块识别包含工具-组织交互的相关时间段,这些交互在视听场景表示中被空间定位。该系统在专家执行模拟手术过程的真实手术室设置中进行了实验评估。结果:所提出的方法成功地在三维空间中定位了手术声学事件,并将其与视觉场景元素关联起来。实验评估表明了准确的空间声音定位和多模态数据的鲁棒融合,提供了手术活动的全面、动态表示。结论:这项工作首次提出了在动态手术场景中进行空间声音定位的方法,标志着朝着多模态手术场景表示方向的重大进展。通过整合声学和视觉数据,所提出的框架能够实现更丰富的上下文理解,并为未来的智能和自主手术系统奠定基础。 |
| 2025-10-23 | Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation | link | 大型视觉-语言模型(VLM)在多模态理解方面取得了显著进展,但在对信息密集型图像进行推理时仍面临挑战,这类图像将文本标注与细粒度图形元素密集交织在一起。主要挑战在于精确识别密集布局中的关键线索以及进行多跳推理以整合分散的证据。我们提出了推测裁决(SV),一个受推测解码启发的无需训练的框架,它将多个轻量级草稿专家与一个大型裁决模型相结合。在草稿阶段,小型VLM充当草稿专家以生成推理路径,提供多样化的定位候选;在裁决阶段,一个强大的VLM合成这些路径以生成最终答案,最大限度地降低计算成本同时恢复正确答案。为了进一步提高效率和准确性,SV引入了一种共识专家选择机制,仅将高一致性的推理路径转发给裁决模型。实验结果表明,SV在具有挑战性的信息密集型和高分辨率视觉问答基准(包括InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K)上取得了持续的提升。通过从多个部分准确的推理路径中综合出正确见解,与大型专有模型或训练流程相比,SV实现了错误纠正和成本效益。代码可在https://github.com/Tinaliu0123/speculative-verdict获取。 |
| 2025-10-23 | ARGenSeg: Image Segmentation with Autoregressive Image Generation Model | null | 我们提出了一种新颖的基于自回归生成范式(ARGenSeg)的图像分割方法,在一个统一的框架内实现了多模态理解和像素级感知。先前将图像分割集成到多模态大语言模型(MLLM)中的工作通常采用边界点表示或专用的分割头。这些方法依赖于离散表示或馈入到任务特定解码器中的语义提示,这限制了 MLLM 捕捉细粒度视觉细节的能力。为了解决这些挑战,我们引入了一个基于图像生成的 MLLM 分割框架,它能够自然地为目标对象生成密集的掩码。我们利用 MLLM 输出视觉 token,并使用一个通用的 VQ-VAE 将它们去 token 化为图像,使分割完全依赖于 MLLM 的像素级理解。为了减少推理延迟,我们采用了一种下一尺度预测策略,以并行方式生成所需的视觉 token。大量实验表明,我们的方法在多个分割数据集上超越了先前最先进的方法,推理速度显著提升,同时保持了强大的理解能力。 |
| 2025-10-23 | Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations | null | 我们提出了“共情提示”,这是一种新颖的多模态人机交互框架,它通过融入隐式非语言上下文来丰富大型语言模型(LLM)对话。该系统集成了一项商用面部表情识别服务,以捕获用户的情绪线索,并在提示过程中将其作为上下文信号嵌入。与传统多模态界面不同,共情提示无需用户显式控制;相反,它以非侵入式方式将情感信息融入文本输入,以实现对话的连贯性和流畅性对齐。该架构是模块化和可扩展的,允许集成额外的非语言模块。我们描述了通过本地部署的DeepSeek实例实现的系统设计,并报告了一项初步的服务和可用性评估(N=5)。结果显示,非语言输入被一致地整合到连贯的LLM输出中,参与者特别强调了对话的流畅性。除了这一概念验证之外,共情提示也指向了聊天机器人介导的通信中的应用,特别是在医疗保健或教育等领域,这些领域中用户的情绪信号至关重要,但在口头交流中却常常不透明。 |
| 2025-10-23 | Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process | link | 开发有效的多模态融合方法在许多现实世界场景中变得越来越重要,例如医疗保健和金融。关键挑战在于如何在学习跨模态交互的同时,保留每种模态的特征表达能力。现有方法主要关注跨模态对齐,然而,过分强调模态边际分布的对齐可能会施加过度的正则化,并阻碍每种模态中有意义的表示学习。狄利克雷过程(DP)混合模型是一种强大的贝叶斯非参数方法,它通过其富者愈富特性(即为最显著特征分配不断增加的权重)来放大这些最显著特征。受DP这一独特特性的启发,我们提出了一种新的DP驱动的多模态学习框架,该框架能够自动在显著的模态内表示学习和跨模态对齐之间实现最佳平衡。具体而言,我们假设每种模态都遵循多元高斯混合分布,并进一步采用DP来计算所有分量的混合权重。这种范式允许DP动态分配特征的贡献并选择最显著的特征,利用其富者愈富特性,从而促进多模态特征融合。在多个多模态数据集上进行的大量实验证明了我们模型优于其他竞争对手的卓越性能。消融分析进一步验证了DP在对齐模态分布方面的有效性及其对关键超参数变化的鲁棒性。代码已匿名公开于 https://github.com/HKU-MedAI/DPMM.git |
| 2025-10-23 | Diagnosing Visual Reasoning: Challenges, Insights, and a Path Forward | null | 整合了视觉和文本推理的多模态大语言模型 (MLLMs) 利用思维链 (CoT) 提示来处理复杂的视觉任务,但仍表现出视觉幻觉以及对文本先验知识的过度依赖。我们使用一个三阶段评估框架对最先进的视觉-语言模型进行了系统性诊断,揭示了关键的故障模式。为解决这些问题,我们提出了一种基于智能体的架构,该架构结合了LLM推理和轻量级视觉模块,从而实现了细粒度分析以及对推理链的迭代优化。我们的结果强调,未来的视觉推理模型应侧重于整合更广泛的专用工具来分析视觉内容。我们的系统取得了显著的提升(在MMMU上提升10.3,在MathVista上提升6.0,相对于7B基线),媲美甚至超越了更大的模型。我们将发布我们的框架和评估套件,以促进未来的研究。 |
| 2025-10-23 | Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges | null | 大语言模型 (LLM) 和大多模态模型 (LMM) 取得了前所未有的突破,在自然语言理解、生成和复杂推理方面展示出卓越的能力。这种变革性潜力使其成为机器、车辆和类人机器人之间6G自主通信的关键使能技术。在本文中,我们概述了借助LLM/LMM实现面向任务的自主通信,重点关注多模态感知集成、自适应重配置以及用于无线任务的提示/微调策略。我们通过三个案例研究展示了该框架:基于LMM的交通控制、基于LLM的机器人调度以及基于LMM的环境感知信道估计。实验结果表明,所提出的LLM/LMM辅助自主系统显著优于传统的判别式深度学习 (DL) 模型技术,在动态目标、变化的输入参数和异构多模态条件下仍能保持鲁棒性,而传统静态优化在这些条件下性能会下降。 |
| 2025-10-23 | Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications | null | 大语言模型(LLMs)在通用NLP基准测试中表现出色,但它们在专业领域的能力仍未得到充分探索。在电子商务领域,现有评估,如EcomInstruct、ChineseEcomQA、eCeLLM和Shopping MMLU,存在任务多样性有限(例如,缺乏产品指导和售后问题)、任务模态有限(例如,缺乏多模态数据)、使用合成或人工整理的数据以及狭隘地关注英语和汉语等问题,使得从业者缺乏可靠工具来在复杂、真实的购物场景中评估模型。我们引入了EcomEval,一个综合性的多语言多模态基准,用于评估电子商务领域的大语言模型。EcomEval涵盖六个类别和37项任务(包括8项多模态任务),主要来源于真实的客户查询和交易日志,反映了真实业务交互中嘈杂和异构的性质。为确保参考答案的质量和可扩展性,我们采用半自动化流程,其中大模型起草候选回复,随后由超过50名具有强大电子商务和多语言专业知识的专家标注员审查和修改。我们通过平均不同规模和能力模型的评估分数来定义每个问题和任务类别的难度级别,从而实现以挑战为导向的细粒度评估。EcomEval还涵盖七种语言,包括五种低资源东南亚语言,提供了先前工作中没有的多语言视角。 |
| 2025-10-23 | Diffusion Autoencoders with Perceivers for Long, Irregular and Multimodal Astronomical Sequences | null | 自监督学习已成为表征学习的核心策略,但用于编码数据的大多数架构仅在图像、音频和视频等规则采样的输入上得到验证。在许多科学领域,数据则以长、不规则和多模态序列的形式出现。为了从这些数据中提取语义信息,我们引入了带有Perceiver的扩散自编码器(daep)。daep对异构测量进行标记化,使用Perceiver编码器对其进行压缩,并使用Perceiver-IO扩散解码器进行重建,从而在多样化的数据设置中实现可扩展学习。为了对daep架构进行基准测试,我们将掩码自编码器适配到Perceiver编码器/解码器设计中,并在与daep同属一个架构家族中建立了一个强大的基线(maep)。在各种光谱和光度天文数据集上,daep比VAE和maep基线实现了更低的重建误差,生成了更具区分性的潜在空间,并更好地保留了精细尺度结构。这些结果确立了daep作为数据以不规则、异构序列形式出现的科学领域的有效框架。 |
| 2025-10-23 | EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence | null | 通用人工智能(AGI)的实现需要具身AI智能体能够在物理环境中进行鲁棒的空间感知、有效的任务规划和自适应执行。然而,当前用于具身任务的大语言模型(LLMs)和多模态大语言模型(MLLMs)存在主要局限性,包括模型设计与智能体需求之间的显著差距、实时延迟与性能之间不可避免的权衡,以及使用不真实、离线的评估指标。为解决这些挑战,我们提出了EmbodiedBrain,这是一种新颖的视觉语言基础模型,提供7B和32B两种参数规模。我们的框架具有智能体对齐的数据结构,并采用强大的训练方法,该方法将大规模有监督微调(SFT)与步增强组相对策略优化(Step-GRPO)相结合,通过将先行步骤整合为引导前兆,从而提升长程任务成功率。此外,我们整合了一个全面的奖励系统,包括一个在基础设施层面加速的生成式奖励模型(GRM),以提高训练效率。为实现彻底的验证,我们建立了一个由三部分组成的评估系统,涵盖通用、规划和端到端模拟基准,其突出特点是提出了一个新颖且具有挑战性的模拟环境并将其开源。实验结果表明,EmbodiedBrain在所有指标上均取得了卓越性能,为具身基础模型树立了新的最先进水平。为下一代通用具身智能体铺平道路,我们开源了所有数据、模型权重和评估方法,可在https://zterobot.github.io/EmbodiedBrain.github.io获取。 |
| 2025-10-23 | SheafAlign: A Sheaf-theoretic Framework for Decentralized Multimodal Alignment | null | 传统多模态对齐方法假设所有模态之间存在相互冗余,这种假设在真实世界的分布式场景中失效。我们提出了 SheafAlign,一个用于去中心化多模态对齐的基于层论的框架,它用多个比较空间取代了单一空间对齐。这种方法通过层结构建模成对模态关系,并利用基于去中心化对比学习的目标进行训练。SheafAlign 克服了现有方法的局限性,因为它不要求所有模态之间存在相互冗余,同时保留了共享信息和独特信息。在多模态感知数据集上的实验表明,SheafAlign 具有优越的零样本泛化能力、跨模态对齐能力以及对缺失模态的鲁棒性,且通信成本比最先进的基线降低了 50%。 |
| 2025-10-21 | Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs | link | 尽管多模态大语言模型(MLLMs)擅长整体理解,但它们在捕捉包含复杂场景的密集世界时面临挑战,这需要对复杂细节和对象间的相互关系进行细粒度分析。区域级MLLMs一直是一个有希望的方向。然而,先前的尝试通常被优化为孤立地理解给定区域,忽略了关键的全局上下文。为解决这个问题,我们引入了Grasp Any Region (GAR),以实现全面的区域级视觉理解。凭借一种有效的RoI对齐特征重放技术,GAR支持 (1) 通过利用必要的全局上下文实现精确感知,以及 (2) 建模多个提示之间的交互。综合来看,它自然实现了 (3) 高级组合推理,以回答关于任何区域的特定自由形式问题,将范式从被动描述转变为主动对话。此外,我们构建了GAR-Bench,它不仅为单区域理解提供了更准确的评估,而且更重要的是,衡量了多区域间的交互和复杂推理能力。大量实验表明,GAR-1B不仅保持了最先进的图像描述能力(例如,在DLC-Bench上超越DAM-3B +4.5),而且在建模多个提示之间的关系以及高级理解能力方面表现出色,甚至在GAR-Bench-VQA上超越了InternVL3-78B。更重要的是,我们的零样本GAR-8B甚至在VideoRefer-BenchQ上超越了同领域的VideoRefer-7B,表明其强大的能力可以很容易地迁移到视频领域。 |
| 2025-10-21 | DSI-Bench: A Benchmark for Dynamic Spatial Intelligence | null | 推理动态空间关系至关重要,因为观察者和物体常常同时移动。尽管视觉-语言模型(VLM)和视觉专业模型在2D任务和静态场景中表现出色,但它们全面理解动态3D场景的能力仍然有限。我们引入了动态空间智能,并提出了DSI-Bench,这是一个包含近1,000个动态视频和超过1,700个人工标注问题的基准,涵盖了观察者和物体的九种解耦运动模式。空间和时间对称设计减少了偏差,并实现了对模型关于自身运动和物体运动推理的系统评估。我们对14个VLM和专业模型的评估揭示了主要局限性:模型经常混淆观察者和物体的运动,表现出语义偏差,并且未能准确推断动态场景中的相对关系。我们的DSI-Bench为未来开发具备动态空间智能的通用模型和专业模型提供了有价值的发现和见解。 |
| 2025-10-21 | See the Text: From Tokenization to Visual Reading | link | 人们看到文本。人类通过将单词识别为视觉对象,包括其形状、布局和模式,然后将其与意义联系起来进行阅读,这使我们能够有效地处理拼写错误、扭曲字体和各种书写系统。然而,现代大型语言模型(LLMs)依赖于子词分词,将文本从固定词汇表中分割成片段。尽管这种方法对高资源语言有效,但它会过度分割低资源语言,产生冗长、语言上无意义的序列,并增加计算量。在这项工作中,我们挑战了这种根深蒂固的范式,并转向了一种以视觉为中心的替代方案。我们的方法SeeTok将文本渲染为图像(视觉文本),并利用预训练的多模态大型语言模型来解释它们,复用从大规模多模态训练中学习到的强大OCR和文本-视觉对齐能力。在三种不同的语言任务中,SeeTok与子词分词器持平或超越它们,同时所需的词元减少了4.43倍,并将FLOPs减少了70.5%,并在跨语言泛化、对排版噪声的鲁棒性以及语言层次结构方面取得了额外收益。SeeTok标志着从符号分词向类人视觉阅读的转变,并朝着更自然和认知启发式语言模型迈进了一步。 |
| 2025-10-21 | Seg the HAB: Language-Guided Geospatial Algae Bloom Reasoning and Segmentation | null | 气候变化正在加剧有害藻华(HAB)的发生,尤其是蓝藻,它们通过氧气耗尽、毒素释放以及海洋生物多样性紊乱来威胁水生生态系统和人类健康。传统监测方法,如人工水样采集,仍然劳动密集且在空间和时间覆盖范围上有限。遥感领域视觉-语言模型(VLM)的最新进展已显示出可扩展的AI驱动解决方案的潜力,但在图像推理和藻华严重程度量化方面仍存在挑战。在这项工作中,我们引入了藻类观测与分割(ALGOS),这是一个结合遥感图像理解与严重程度估计的有害藻华监测分割与推理系统。我们的方法整合了GeoSAM辅助的人工评估以精选高质量分割掩码,并使用NASA的蓝藻聚合人工标签(CAML)微调视觉语言模型进行严重程度预测。实验表明,ALGOS在分割和严重程度估计两方面都取得了鲁棒性能,为实用和自动化的蓝藻监测系统铺平了道路。 |
| 2025-10-21 | IF-VidCap: Can Video Caption Models Follow Instructions? | null | 尽管多模态大语言模型(MLLM)在视频字幕生成方面已展现出熟练度,但实际应用需要遵循特定用户指令的字幕,而非生成详尽、无限制的描述。然而,当前基准测试主要评估描述的全面性,而在很大程度上忽视了指令遵循能力。为了弥补这一差距,我们引入了IF-VidCap,一个用于评估可控视频字幕生成的新基准,包含1,400个高质量样本。与现有视频字幕生成或通用指令遵循基准不同,IF-VidCap采用了一个系统性框架,从两个维度评估字幕:格式正确性和内容正确性。我们对20多个知名模型的全面评估揭示了一个细致入微的局面:尽管专有模型持续占据主导地位,但性能差距正在缩小,顶级开源解决方案如今已接近与专有模型持平。此外,我们发现专门用于密集字幕生成的模型在复杂指令下表现不如通用型MLLM,这表明未来的工作应同时推进描述的丰富性和指令遵循的忠实度。 |
| 2025-10-21 | Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents | null | CLIP等对比视觉-语言模型通过学习对齐的图像-文本对,在广泛的多模态任务中展现出强大性能。然而,它们处理复杂、真实世界网络文档的能力仍然有限,尤其是在文本和图像交错、松散对齐或以视觉形式嵌入的场景中。为解决这些挑战,我们提出了以视觉为中心的对比学习(VC2L),这是一个统一框架,使用单一视觉Transformer对文本、图像及其组合进行建模。VC2L通过将所有输入(无论是文本、视觉还是组合)渲染为图像,完全在像素空间中操作,从而消除了对OCR、文本分词或模态融合策略的需求。为了捕获多模态网络文档中复杂的跨模态关系,VC2L采用片段级对比学习目标来对齐连续的多模态片段,利用文档固有的连贯性,而无需明确配对的图像-文本数据。为了评估这种方法的有效性,我们引入了三个检索基准:AnyCIR、SeqCIR和CSR,旨在分别评估跨模态检索、细粒度序列理解以及对未见数据的泛化能力。实验结果表明,VC2L在所提出的基准以及M-BEIR和MTEB等已建立的数据集上,与CLIP风格模型相比,取得了竞争性或卓越的性能。这些发现强调了多模态网络数据作为对比学习宝贵训练资源的潜力,并说明了统一的、以视觉为中心的方法在多模态表示学习中的可扩展性。代码和模型可在以下网址获取:https://github.com/showlab/VC2L。 |
| 2025-10-21 | UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation | link | 文本到图像(T2I)生成领域的最新进展强调了可靠基准的重要性,用于评估生成图像如何准确反映其文本提示的语义。然而,(1) 现有基准缺乏提示场景的多样性和多语言支持,这两者对于实际应用性至关重要;(2) 它们仅在主要维度上提供粗略评估,涵盖的子维度范围狭窄,并且在细粒度子维度评估方面存在不足。为解决这些局限性,我们引入了UniGenBench++,一个用于T2I生成的统一语义评估基准。具体而言,它包含600个提示,这些提示按层次结构组织,以确保覆盖范围和效率:(1) 涵盖多样化的真实世界场景,即5个主要提示主题和20个子主题;(2) 全面探查T2I模型在10个主要和27个次要评估标准上的语义一致性,每个提示评估多个测试点。为了严格评估模型对语言和提示长度变化的鲁棒性,我们为每个提示提供了英文和中文的短形式和长形式版本。利用闭源多模态大型语言模型(MLLM)Gemini-2.5-Pro的通用世界知识和细粒度图像理解能力,我们开发了一个有效的流程,用于可靠的基准构建和精简的模型评估。此外,为进一步促进社区使用,我们训练了一个鲁棒的评估模型,能够实现T2I模型输出的离线评估。通过对开源和闭源T2I模型的全面基准测试,我们系统地揭示了它们在各个方面的优势和劣势。 |
| 2025-10-21 | Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views | link | 尽管视觉-语言模型(VLM)的最新进展在广泛的多模态任务中取得了显著进步,但从有限视角理解三维空间关系仍然是一个重大挑战。先前的推理方法通常依赖于纯文本(例如,拓扑认知图)或二维视觉线索。然而,它们有限的表示能力阻碍了在需要三维空间想象力的特定任务中的性能。为解决这一局限性,我们提出了3DThinker,一个能够在推理时像人类一样有效利用图像中嵌入的丰富几何信息的框架。我们的框架首次在推理过程中无需任何三维先验输入即可实现三维心智构建,并且不依赖于显式标注的三维数据进行训练。具体而言,我们的训练包含两个阶段。首先,我们进行有监督训练,以对齐VLM在推理时生成的三维潜在表示与三维基础模型(例如,VGGT)的潜在表示。然后,我们仅基于结果信号优化整个推理轨迹,从而细化潜在的三维心智构建。在多个基准测试中进行的大量实验表明,3DThinker持续优于强基线模型,并为将三维表示统一到多模态推理中提供了一个新视角。我们的代码将发布于https://github.com/zhangquanchen/3DThinker。 |
| 2025-10-21 | VAR: Visual Attention Reasoning via Structured Search and Backtracking | null | 尽管多模态大语言模型(MLLMs)取得了进展,但其高幻觉倾向以及对脆弱线性推理过程的严重依赖阻碍了它们的发展,导致在复杂任务中表现不佳。为解决这些局限性,我们引入了视觉注意力推理(VAR),这是一个新颖的框架,它将基础推理重构为在推理轨迹空间上的结构化搜索。VAR将推理过程分解为两个关键阶段:可追溯证据锚定和基于搜索的思维链(CoT)生成,其中结合了用于自我纠正的回溯机制。该搜索由一个多方面奖励函数引导,该函数包含语义和几何自验证组件,对未忠实地基于视觉输入的输出进行惩罚。我们对我们的搜索策略进行了理论分析,验证了其以高概率找到正确解决方案的能力。实验结果表明,我们的7B模型VAR-7B在一套全面的幻觉和安全基准测试上创造了新的最先进水平,显著优于现有的开源模型,并展现出与领先的专有系统相匹敌的性能。 |
| 2025-10-21 | CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent | null | 计算机使用智能体(CUAs)通过与操作系统和软件界面进行自然交互来实现任务完成。尽管基于脚本的验证器被广泛用于评估,但它们面临可扩展性有限和无法提供逐步评估的问题。奖励模型提供了有前景的替代方案,但它们在CUA评估上的有效性仍未得到充分探索。为弥补这一空白,我们提出了CUARewardBench,包含四项主要贡献:(1) 首个全面的CUA奖励基准:我们引入了首个用于评估CUA任务中结果奖励模型(ORM)和过程奖励模型(PRM)的基准,实现了轨迹级和步骤级的系统评估。(2) 多样化、实用且可靠的数据集:CUARewardBench包含来自10个软件类别和7种智能体架构的轨迹,这些轨迹具有不同的性能水平(成功率介于25.9%至50.8%)。所有轨迹均通过精心设计的协议进行专家标注,并进行严格的质量控制,以确保其可靠性和实用性。(3) 全面分析与见解:通过对7种视觉-语言模型和3种提示模板进行广泛实验,我们揭示了当前CUA奖励模型的关键局限性,包括视觉推理能力不足、知识缺陷,以及通用视觉-语言模型在奖励评估方面优于专用CUA模型。(4) 一致提示集成(UPE):基于我们全面分析的见解,我们提出了UPE,这是一种新颖的集成方法,通过严格的一致投票和战略性的提示模板配置,显著提高了奖励模型的可靠性。UPE在ORM上达到了89.8%的精度和93.3%的负预测值(NPV),在PRM上达到了81.7%的精度和85.1%的负预测值(NPV),显著优于单一视觉-语言模型和传统集成方法。 |
| 2025-10-16 | From Pixels to Words – Towards Native Vision-Language Primitives at Scale | null | 原生视觉-语言模型(VLM)的体系,在不断发展的模型架构和训练范式塑造下,已成为典型模块化VLM日益增长的竞争者。然而,两朵挥之不去的阴云笼罩着其广泛的探索和推广:(-) 是什么基本限制使原生VLM与模块化VLM区别开来,以及这些障碍能在多大程度上被克服?(-) 如何使原生VLM的研究更易于获取和民主化,从而加速该领域的进展?在本文中,我们阐明了这些挑战,并概述了构建原生VLM的指导原则。具体而言,一个原生VLM基元应:(i) 在共享语义空间内有效对齐像素和词表示;(ii) 无缝整合以前分离的视觉和语言模块的优势;(iii) 内在地体现支持统一视觉-语言编码、对齐和推理的各种跨模态特性。因此,我们推出了NEO,这是一个从第一性原理构建的新颖原生VLM系列,能够在多样化的现实世界场景中与顶级模块化对应物媲美。仅使用3.9亿图像-文本示例,NEO便能从零开始高效发展视觉感知,同时缓解由我们精心设计的基元构建的密集且单一模型内部的视觉-语言冲突。我们将NEO定位为可扩展且强大的原生VLM的基石,并搭配一套丰富的可重用组件,以促进一个成本效益高且可扩展的生态系统。我们的代码和模型已公开发布于:https://github.com/EvolvingLMMs-Lab/NEO。 |
| 2025-10-16 | Learning an Image Editing Model without Image Editing Pairs | link | 最近的图像编辑模型在遵循自然语言编辑指令方面取得了令人印象深刻的成果,但它们依赖于使用大量输入-目标对数据集进行监督微调。这是一个关键瓶颈,因为此类自然存在的配对难以大规模收集。当前的权宜之计是使用利用现有模型零样本能力的合成训练对。然而,这可能会将预训练模型的伪影传播并放大到最终训练模型中。在这项工作中,我们提出了一种新的训练范式,完全消除了对配对数据的需求。我们的方法通过在训练过程中展开少步扩散模型并利用视觉-语言模型(VLM)的反馈来直接优化它。对于每个输入和编辑指令,VLM评估编辑是否符合指令并保留未更改的内容,从而为端到端优化提供直接梯度。为了确保视觉保真度,我们引入了分布匹配损失(DMD),它约束生成的图像保持在预训练模型学习到的图像流形内。我们在标准基准上评估了我们的方法,并进行了广泛的消融研究。在没有任何配对数据的情况下,我们的方法在少步设置下,性能与各种在大量监督配对数据上训练的图像编辑扩散模型相当。在给定相同VLM作为奖励模型的情况下,我们还优于Flow-GRPO等基于强化学习(RL)的技术。 |
| 2025-10-16 | RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks | link | 为解决长周期任务,最近的分层视觉-语言-动作 (VLA) 框架采用基于视觉-语言模型 (VLM) 的规划器,将复杂的操纵任务分解成低级视觉运动策略能够轻松处理的更简单的子任务。通常,VLM 规划器会经过微调以学习如何分解目标任务。这种微调需要将目标任务演示通过人工标注或启发式规则分割成子任务。然而,启发式子任务可能与视觉运动策略的训练数据显著偏离,从而降低任务性能。为解决这些问题,我们提出了一种基于检索的演示分解器 (RDD),它通过将分解后的子任务区间的视觉特征与低级视觉运动策略训练数据中的视觉特征进行对齐,从而自动将演示分解成子任务。我们的方法在模拟和真实世界任务中均优于最先进的子任务分解器,证明了其在不同设置下的鲁棒性。代码和更多结果可在 rdd-neurips.github.io 获取。 |
| 2025-10-16 | MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning | link | 尽管大语言模型(LLMs)在文本推理方面表现出色,但在几何等本质上依赖视觉辅助的数学领域中却面临挑战。现有的视觉思维链(VCoT)方法常受限于僵化的外部工具,或未能生成复杂问题解决所需的高保真、策略性及时的图示。为了弥合这一鸿沟,我们引入了MathCanvas,这是一个旨在赋予统一的大型多模态模型(LMMs)针对数学问题的内在VCoT能力的全面框架。我们的方法包含两个阶段。首先,在视觉操作阶段,我们使用一个新颖的1520万对语料库预训练模型,该语料库包含1000万个文本描述到图示的对(MathCanvas-Imagen)和520万个分步编辑轨迹(MathCanvas-Edit),以使模型掌握图示的生成和编辑。其次,在策略性视觉辅助推理阶段,我们使用MathCanvas-Instruct(一个包含21.9万个交错视觉-文本推理路径的新数据集)微调模型,教导模型何时以及如何利用视觉辅助。为了促进严格的评估,我们引入了MathCanvas-Bench,这是一个包含3000个挑战性问题的基准,要求模型生成交错的视觉-文本解决方案。我们的模型BAGEL-Canvas在此框架下训练,在MathCanvas-Bench上相较于强大的LMM基线模型实现了86%的相对提升,并展示了对其他公开数学基准的出色泛化能力。我们的工作提供了一个完整的工具包——包括框架、数据集和基准——以解锁LMMs中复杂、类人的视觉辅助推理能力。项目页面:https://mathcanvas.github.io/ |
| 2025-10-16 | OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression | null | 全身多模态人体运动生成面临两大主要挑战:一是创建有效的运动生成机制,二是将文本、语音和音乐等各种模态整合到一个统一的框架中。与以往通常采用离散掩码建模或自回归建模的方法不同,我们开发了一种连续掩码自回归运动变换器,该变换器在考虑人体运动中的序列特性时执行因果注意力。在该变换器中,我们引入了门控线性注意力和RMSNorm模块,它们促使变换器关注关键动作并抑制由异常运动或多模态内异构分布引起的不稳定性。为了进一步增强运动生成和多模态泛化能力,我们采用DiT结构将来自变换器的条件扩散到目标。为融合不同模态,AdaLN和交叉注意力被用于注入文本、语音和音乐信号。实验结果表明,我们的框架在所有模态上均优于以往方法,包括文本到运动、语音到手势和音乐到舞蹈。我们的方法代码将公开。 |
| 2025-10-16 | DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation | null | 像英语这样的接触语言表现出丰富的地域变体,即方言,方言使用者在与生成模型交互时经常使用这些方言。然而,多模态生成模型在给定方言文本输入的情况下能否有效生成内容?在这项工作中,我们通过构建一个涵盖六种常见英语方言的新大规模基准来研究这个问题。我们与方言使用者合作,收集并验证了超过4200个独特的提示,并在17个图像和视频生成模型上进行了评估。我们的自动和人工评估结果表明,当提示中只使用一个方言词时,当前最先进的多模态生成模型表现出32.26%到48.17%的性能下降。常见的缓解方法,例如微调和提示重写,只能将方言性能提高很小的幅度(< 7%),同时可能导致标准美式英语(SAE)性能的显著下降。为此,我们设计了一种通用的基于编码器的多模态生成模型缓解策略。我们的方法教导模型识别新的方言特征,同时保持SAE性能。在Stable Diffusion 1.5等模型上的实验表明,我们的方法能够同时将五种方言的性能提升至与SAE持平(+34.4%),同时对SAE性能造成接近零的损失。 |
| 2025-10-16 | TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG | null | 抑郁症是一种广泛存在的精神健康障碍,但其自动检测仍然具有挑战性。先前的工作探索了单模态和多模态方法,其中多模态系统通过利用互补信号展现出潜力。然而,现有研究在范围上存在局限性,缺乏对特征的系统比较,并且评估协议不一致。我们通过系统地探索脑电图(EEG)以及语音和文本的特征表示和建模策略来弥补这些不足。我们评估了手工特征与预训练嵌入,评估了不同神经网络编码器的有效性,比较了单模态、双模态和三模态配置,并分析了融合策略,特别关注了脑电图(EEG)的作用。我们采用了受试者独立的一致划分,以确保稳健且可复现的基准测试。我们的结果表明:(i) 脑电图、语音和文本模态的组合增强了多模态检测,(ii) 预训练嵌入优于手工特征,以及 (iii) 精心设计的三模态模型实现了最先进的性能。我们的工作为多模态抑郁症检测的未来研究奠定了基础。 |
| 2025-10-16 | MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos | null | 密集视频目标字幕生成 (DVOC) 是一项在视频中联合检测、跟踪和生成目标轨迹字幕的任务,需要理解时空细节并用自然语言描述它们的能力。由于任务的复杂性以及手动标注的高昂成本,以往的方法通常采用分离的训练策略,这可能导致次优的性能。为了解决这个问题,我们提出利用最先进的VLM生成关于时空局部化实体的字幕。通过使用我们合成的字幕(LVISCap和LV-VISCap)扩展LVIS和LV-VIS数据集,我们训练了MaskCaptioner,这是一个能够联合检测、分割、跟踪和生成目标轨迹字幕的端到端模型。此外,经过LVISCap和LV-VISCap上的预训练,MaskCaptioner在三个现有基准测试(VidSTG、VLN和BenSMOT)上取得了最先进的DVOC成果。数据集和代码可在 https://www.gabriel.fiastre.fr/maskcaptioner/ 获取。 |
| 2025-10-16 | Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection | null | 现有半监督视频异常检测 (VAD) 方法常常难以检测涉及对象交互的复杂异常,并且通常缺乏可解释性。为了克服这些局限性,我们提出了一种利用多模态大语言模型 (MLLMs) 的新颖VAD框架。与以往基于MLLM的方法在帧级别进行直接异常判断不同,我们的方法侧重于提取和解释随时间变化的对象活动和交互。通过使用不同时刻对象对的视觉输入查询一个MLLM,我们从正常视频中生成活动和交互的文本描述。这些文本描述作为视频中对象活动和交互的一种高层次表示。它们在测试时用于检测异常,通过将它们与在正常训练视频中发现的文本描述进行比较。我们的方法本质上提供了可解释性,并且可以与许多传统的VAD方法结合以进一步增强它们的可解释性。在基准数据集上进行的广泛实验表明,我们的方法不仅能有效检测复杂的基于交互的异常,而且在不含交互异常的数据集上也能达到最先进的性能。 |
| 2025-10-16 | You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction | null | 尽管多模态大语言模型(MLLMs)的兴起重新激发了对零样本视觉分类的兴趣,但评估自回归模型自由形式响应的问题仍然是一个持续存在的挑战。大多数现有工作专注于纯语言任务,或者没有考虑超过5个选项的多项选择题(MCQs),而这两者都是解决细粒度视觉分类(FGVC)任务的关键能力,因为在FGVC中选项数量可达数百到数千,且选项之间高度相关。此外,在这种高度多选的MCQ设置中,尚不清楚如何将大语言模型(LLM)的选项提取扩展到基于检索的问题,因为计算选项集上的概率在计算上是昂贵的。在这项工作中,我们研究了nlg2choice,这是一种简单的两阶段方法,它首先以最少的约束向多模态大语言模型(MLLM)提出任务的开放式问题,然后使用纯文本约束解码来预测最可能的选项。在检索设置中,我们通过一种早期停止方法计算约束响应选择该选项的概率,以显著提高吞吐量。我们的结果显示,在七个细粒度视觉数据集上,当在分类和检索方面进行评估时,性能有所提升,并表明这种性能在LLM用户可以通过自然语言实现任务的各种方式中都保持稳定。 |
| 2025-10-14 | DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search | null | 多模态大型语言模型(MLLMs)在实际应用中需要访问外部知识源,并且必须对动态且不断变化的现实世界信息保持响应,以解决信息查询和知识密集型用户查询。现有方法,例如检索增强生成(RAG)方法、搜索代理和配备搜索功能的MLLMs,常常面临死板的流程、过多的搜索调用以及构建不佳的搜索查询,这些问题导致效率低下和次优结果。为了解决这些局限性,我们提出了DeepMMSearch-R1,这是首个能够执行按需、多轮网络搜索,并为图像和文本搜索工具动态生成查询的多模态大型语言模型。具体而言,DeepMMSearch-R1可以基于输入图像的相关裁剪区域发起网络搜索,使图像搜索更有效,并且可以根据检索到的信息迭代调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于一个两阶段训练流程:首先是冷启动监督微调阶段,随后是在线强化学习优化。为了训练,我们引入了DeepMMSearchVQA,这是一个通过自动化流程创建的新颖多模态VQA数据集,其中融合了来自网络搜索工具的现实世界信息。该数据集包含多样化的多跳查询,整合了文本和视觉信息,教导模型何时搜索、搜索什么、使用哪个搜索工具以及如何对检索到的信息进行推理。我们在一系列知识密集型基准测试中进行了广泛的实验,以证明我们方法的优越性。最后,我们分析了结果并提供了对推进多模态网络搜索具有宝贵价值的见解。 |
| 2025-10-14 | Detect Anything via Next Point Prediction | link | 目标检测长期以来由YOLO、DETR和Grounding DINO等传统的基于坐标回归的模型主导。尽管最近的努力试图利用多模态大语言模型(MLLMs)来解决这项任务,但它们面临着低召回率、重复预测、坐标未对齐等挑战。在这项工作中,我们弥合了这一差距,并提出了Rex-Omni,一个30亿参数规模的多模态大语言模型,它实现了最先进的目标感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下取得了与基于回归的模型(例如DINO、Grounding DINO)相当或超越的性能。这得益于三项关键设计:1) 任务表述:我们使用特殊token表示0到999的量化坐标,降低了模型的学习难度,并提高了坐标预测的token效率;2) 数据引擎:我们构建了多个数据引擎,以生成高质量的接地、指代和指向数据,为训练提供了语义丰富的监督;3) 训练流程:我们采用了两阶段训练过程,将2200万数据的监督微调与基于GRPO的强化后训练相结合。这种强化学习后训练利用了几何感知的奖励,有效弥合了离散到连续坐标预测的鸿沟,提高了边界框精度,并减轻了源于初始SFT阶段教师指导性质的不良行为,例如重复预测。除了传统的检测,Rex-Omni固有的语言理解能力使其具备了多功能能力,例如目标指代、指向、视觉提示、GUI接地、空间指代、光学字符识别(OCR)和关键点检测,所有这些能力都在专用基准上进行了系统评估。我们相信Rex-Omni为更通用、语言感知的视觉感知系统铺平了道路。 |
| 2025-10-14 | ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution | null | 现有的多模态大语言模型(MLLMs)由于图像输入引入了额外的视觉tokens,导致推理成本增加。在这项工作中,我们提出了一种新颖的训练算法——视觉一致性学习(ViCO),该算法使模型能够使用不同数量的视觉tokens来表示具有不同语义复杂度的图像。我们方法的核心思想是采用多个MLP连接器,每个连接器具有不同的图像压缩率,根据图像的语义复杂度对视觉tokens进行下采样。在训练过程中,我们最小化了在不同MLP连接器条件下产生的响应之间的KL散度。在推理时,我们引入了一个图像路由器,称为视觉分辨率路由器(ViR),它能自动为每个图像块选择适当的压缩率。与现有根据图像分辨率调整视觉tokens数量的动态高分辨率策略相比,我们的方法根据语义复杂度动态调整视觉tokens的数量。实验结果表明,我们的方法可以将视觉tokens的数量减少多达50%,同时保持模型的感知、推理和OCR能力。我们希望这项工作能促进更高效MLLMs的发展。代码和模型将发布以促进未来的研究。 |
| 2025-10-14 | UniFusion: Vision-Language Model as Unified Encoder in Image Generation | null | 尽管视觉生成领域最近取得了显著进展,但大多数现有架构仍然依赖于独立的图像和文本编码器。这种分离限制了扩散模型执行跨模态推理和知识迁移的能力。此前弥合这一鸿沟的尝试通常利用VLM的最后一层信息、采用多个视觉编码器,或联合训练用于文本和图像生成的大型统一模型,但这需要大量的计算资源和大规模数据,从而限制了其可访问性。我们提出了UniFusion,这是一种基于扩散的生成模型,以冻结的大型视觉-语言模型(VLM)为条件,该模型充当统一的多模态编码器。UniFusion的核心是层级注意力池化(LAP)机制,它从冻结VLM的文本和视觉token中提取高层语义和低层细节,以条件化扩散生成模型。我们证明LAP在用于生成的文本-图像对齐以及将视觉信息从VLM忠实地传输到扩散模型方面优于其他浅层融合架构,这对于编辑至关重要。我们提出了VLM赋能的灵活推理重写注入(VERIFI),它在模型内提示重写过程中,仅以VLM生成的文本token为条件来控制扩散Transformer(DiT)。VERIFI结合了条件分布的对齐与VLM的推理能力,从而增加了推理时的能力和灵活性。此外,在编辑任务上进行微调不仅改进了用于生成的文本-图像对齐,表明了跨模态知识迁移,而且还展现出巨大的泛化能力。我们的模型在单图像编辑上训练后,能够零样本泛化到多个图像引用,进一步证明了UniFusion统一编码器设计的合理性。 |
| 2025-10-14 | SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models | link | 近年来,统一多模态模型(UMMs)取得了显著进展,它们将视觉-语言生成和理解能力整合到单一框架中。然而,一个显著的差距在于,模型强大的视觉理解能力往往无法迁移到其视觉生成能力上。模型可能根据用户指令正确理解图像,却无法根据文本提示生成逼真的图像。这种现象直接提出了一个引人深思的问题:模型能否通过使用其理解模块来奖励其生成模块,从而实现自我提升?为了弥合这一差距并实现自我提升,我们引入了SRUM,这是一种自我奖励的后训练框架,可直接应用于现有各种设计的UMMs。SRUM创建一个反馈循环,其中模型的理解模块充当内部“评估器”,提供纠正信号以改进其生成模块,而无需额外的人工标注数据。为确保这种反馈是全面的,我们设计了一个全局-局部双重奖励系统。为了解决图像固有的结构复杂性,该系统提供了多尺度指导:全局奖励确保了整体视觉语义和布局的正确性,而局部奖励则细化了细粒度的对象级保真度。SRUM带来了强大的能力并展现出强大的泛化性,将T2I-CompBench上的性能从82.18提升到88.37,并将T2I-ReasonBench上的性能从43.82提升到46.75。总体而言,我们的工作建立了一个强大的新范式,使UMMs的理解模块能够通过自我奖励来指导和增强其自身的生成。 |
| 2025-10-14 | VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage | null | 多模态大语言模型(MLLMs)在视觉与语言联合任务中展现出显著能力。然而,现有的视觉问答(VQA)基准测试通常无法评估深度语义理解,尤其是在视觉艺术分析等复杂领域。这些问题局限于简单的句法结构和表面层面的属性,未能捕捉人类视觉探究的多样性和深度。这种局限性促使模型利用统计捷径而非进行视觉推理。为弥补这一空白,我们引入了VQArt-Bench,一个针对文化遗产领域的新型大规模VQA基准测试。该基准测试采用新颖的多智能体管道构建,其中专门的智能体协同生成细致入微、经过验证且语言多样的问题。由此产生的基准测试根据相关的视觉理解维度进行构建,旨在探究模型解释符号意义、叙事和复杂视觉关系的能力。我们对14个最先进的MLLMs在该基准测试上的评估揭示了当前模型的显著局限性,包括在简单计数任务中出人意料的弱点,以及专有模型与开源模型之间明显的性能差距。 |
| 2025-10-14 | HYPE: Hybrid Planning with Ego Proposal-Conditioned Predictions | null | 在复杂的城市环境中,安全且可解释的运动规划需要推理双向多智能体交互。这种推理需要估计潜在自车驾驶机动的成本。许多现有规划器通过基于采样的方法生成初始轨迹,并通过对学习到的未来环境状态预测进行优化来对其进行细化,这需要一个编码期望车辆行为的成本函数。设计这样的成本函数可能非常具有挑战性,尤其是当必须考虑广泛复杂的城市场景时。我们提出了HYPE:结合自车提案条件预测的混合规划,这是一个将来自学习到的提案模型的多模态轨迹提案作为启发式先验整合到蒙特卡洛树搜索(MCTS)细化中的规划器。为了建模双向交互,我们引入了一个自车条件占用预测模型,从而实现了一致的、场景感知的推理。我们的设计通过考虑提案驱动的指导,仅需要极简的基于网格的成本项,显著简化了细化中的成本函数设计。在nuPlan和DeepUrban这两个大规模真实世界基准上的评估表明,HYPE有效地实现了最先进的性能,尤其是在安全性和适应性方面。 |
| 2025-10-14 | Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception | null | 多模态信息的细粒度感知对于推动人机交互至关重要。随着音视频技术的最新进展,能够并行处理音频和视频信号的全能语言模型(OLMs)已成为实现更丰富理解和推理的一种有前景的范式。然而,它们捕获和描述细粒度细节的能力仍未得到充分探索。在这项工作中,我们从数据管道、模型和基准的角度对全能细致感知进行了系统而全面的调查。我们首先识别出当前OLMs中细节与幻觉之间固有的“共生”现象。为解决此问题,我们提出了Omni-Detective,这是一种集成工具调用的代理式数据生成管道,旨在自主生成高度详细但幻觉最少的多模态数据。基于Omni-Detective生成的数据,我们训练了两个字幕生成模型:用于仅音频细致感知的Audio-Captioner,以及用于音视频细致感知的Omni-Captioner。在级联评估协议下,Audio-Captioner在MMAU和MMAR上取得了所有开源模型中的最佳性能,超越了Gemini 2.5 Flash,并提供了与Gemini 2.5 Pro相当的性能。在现有细致字幕生成基准上,Omni-Captioner在VDC上创下了新的最先进水平,并在video-SALMONN 2测试集上实现了细节与幻觉之间的最佳权衡。鉴于缺乏全能细致感知的专用基准,我们设计了Omni-Cloze,这是一种新颖的完形填空式评估方法,用于细致的音频、视觉和音视频字幕生成,可确保稳定、高效和可靠的评估。实验结果和分析证明了Omni-Detective在生成高质量细致字幕方面的有效性,以及Omni-Cloze在评估此类细致字幕方面的优越性。 |
| 2025-10-14 | Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning | null | 多模态大语言模型(MLLMs)正越来越多地应用于现实世界场景,其中用户提供的图像通常不完美,需要主动的图像操作(例如裁剪、编辑或增强)以揭示显著的视觉线索。除了静态视觉感知之外,MLLMs还必须“与图像一起思考”:动态地转换视觉内容并将其与其他工具集成以解决复杂任务。然而,这种从将视觉视为被动上下文到可操作的认知工作空间的转变仍未得到充分探索。大多数现有基准仍然遵循“思考图像”范式,其中图像被视为静态输入。为了弥补这一空白,我们引入了IRIS(与图像和系统交互推理),旨在评估MLLMs在“与图像一起思考”范式下,在复杂的视觉-文本任务中进行感知、转换和推理的能力。IRIS包含1,204个具有挑战性的开放式视觉任务(603个单轮任务,601个多轮任务),涵盖五个不同领域,每个任务都配有详细的评分标准以实现系统评估。我们的评估表明,当前的MLLMs在需要视觉与通用工具有效集成的任务中表现不佳。即使是最强的模型(GPT-5-think)也仅达到18.68%的通过率。我们进一步观察到不同的工具使用行为,OpenAI模型从多样化的图像操作中获益,而Gemini-2.5-pro则没有显示出改进。通过引入第一个围绕“与图像一起思考”的基准,IRIS为推进MLLMs中的视觉智能提供了关键见解。 |
| 2025-10-14 | Reflection-Based Task Adaptation for Self-Improving VLA | null | 预训练视觉-语言-动作(VLA)模型代表着通用机器人领域的一大飞跃,然而,如何有效地将它们就地适应新颖的特定任务,仍然是一个重大障碍。尽管强化学习(RL)是实现这种适应性的一种有前景的途径,但其过程通常效率低下,阻碍了任务的快速掌握。我们引入了反思性自适应(Reflective Self-Adaptation),一个无需人工干预即可实现快速、自主任务适应的框架。我们的框架建立了一个自我改进循环,在此循环中,智能体从自身经验中学习,以增强策略和执行。我们框架的核心是一个双路径架构,它解决了完整的适应生命周期。首先,一个故障驱动的反思性强化学习(Failure-Driven Reflective RL)路径,通过利用VLM的因果推理能力,从故障分析中自动合成有针对性的密集奖励函数,从而实现快速学习。这提供了一个集中的学习信号,显著加速了策略探索。然而,优化此类代理奖励引入了“奖励欺骗”(reward hacking)的潜在风险,即智能体掌握了奖励函数但未能完成实际任务。为了抵消这种风险,我们的第二条路径,成功驱动的质量引导微调(Success-Driven Quality-Guided SFT),将策略建立在整体成功的基础上。它识别并选择性地模仿高质量的成功轨迹,确保智能体与最终任务目标保持一致。该路径通过一个条件课程机制得到强化,以辅助初始探索。我们在具有挑战性的操作任务中进行了实验。结果表明,我们的框架实现了更快的收敛,并与代表性基线相比,获得了更高的最终成功率。我们的工作提出了一种稳健的解决方案,用于创建能够高效、可靠地适应新环境的自我改进智能体。 |
| 2025-10-10 | StreamingVLM: Real-Time Understanding for Infinite Video Streams | link | 视觉语言模型(VLMs)可以为实时助手和自主智能体提供支持,但它们面临一个关键挑战:在不增加延迟和内存使用量的情况下,理解接近无限的视频流。对整个视频进行全注意力处理会导致二次方的计算成本,并在长视频上表现不佳。同时,简单的滑动窗口方法也存在缺陷,因为它们要么破坏连贯性,要么因冗余的重复计算而导致高延迟。在本文中,我们引入了StreamingVLM,一个旨在对无限视觉输入进行实时、稳定理解的模型。我们的方法是一个统一框架,将训练与流式推理对齐。在推理过程中,我们通过重用注意力汇聚点(attention sinks)的状态、一个短窗口的近期视觉令牌和一个长窗口的近期文本令牌来维护一个紧凑的KV缓存。这种流式处理能力是通过一个简单的监督微调(SFT)策略灌输的,该策略对短的、重叠的视频块应用全注意力,从而有效地模仿了推理时的注意力模式,而无需在过长的上下文中进行训练。为了进行评估,我们构建了Inf-Streams-Eval,这是一个新的基准,其中视频平均时长超过两小时,并且要求帧与文本之间进行密集的、每秒对齐。在Inf-Streams-Eval上,StreamingVLM对GPT-4O mini取得了66.18%的胜率,并在单个NVIDIA H100上以高达8 FPS的速度保持稳定、实时的性能。值得注意的是,我们的SFT策略还在没有任何针对VQA的微调的情况下增强了通用的VQA能力,将LongVideoBench上的性能提高了+4.30,将OVOBench Realtime上的性能提高了+5.96。代码可在https://github.com/mit-han-lab/streaming-vlm获取。 |
| 2025-10-10 | VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation | null | 视觉-语言-动作(VLA)模型通过利用预训练视觉-语言模型(VLM)强大的感知能力,显著推动了机器人操作的发展。通过将动作模块集成到这些预训练模型中,VLA方法展现出更好的泛化能力。然而,从头开始训练它们成本高昂。在这项工作中,我们提出了一种简单而有效的基于蒸馏的框架,通过从预训练的小型动作模型转移知识,使VLM具备动作执行能力。我们的架构保留了原始VLM结构,仅添加了一个动作token和一个状态编码器以整合物理输入。为了蒸馏动作知识,我们采用了两阶段训练策略。首先,我们通过将VLM隐藏状态映射到小型动作模型的动作空间,执行轻量级对齐,从而有效重用其预训练的动作解码器并避免昂贵的预训练。其次,我们选择性地微调语言模型、状态编码器和动作模块,使系统能够整合多模态输入并生成精确的动作。具体来说,动作token为VLM提供了一个预测未来动作的直接句柄,而状态编码器则允许模型整合仅凭视觉无法捕捉到的机器人动力学。这种设计相较于从头开始训练大型VLA模型,实现了显著的效率提升。与现有最先进方法相比,我们的方法在LIBERO上取得了97.3%的平均成功率(提升11.8%),在LIBERO-LONG上取得了93.5%(提升24.5%)。在涵盖五项操作任务的实际世界实验中,我们的方法始终优于教师模型,达到了82.0%的成功率(提升17%),这表明动作蒸馏有效使VLM能够生成精确的动作,同时大幅降低了训练成本。 |
| 2025-10-10 | SpaceVista: All-Scale Visual Spatial Reasoning from mm to km | link | 随着当前空间推理探索的激增,研究人员在理解室内场景方面取得了显著进展,但在机器人和自动驾驶等多样化应用中仍面临挑战。本文旨在通过解决两个关键挑战来推进多样化场景下的全尺度空间推理:1) 数据集构建过度依赖室内3D扫描和劳动密集型手动标注;2) 缺乏有效的全尺度场景建模,这常导致对单个场景的过拟合。在本文中,我们引入了一个整体解决方案,该方案集成了结构化空间推理知识系统、尺度感知建模和渐进式训练范式,据我们所知,这是首次尝试拓宽多模态大语言模型(MLLMs)的全尺度空间智能。利用任务特定、专家驱动的自动化流程,我们在5个空间尺度上收集了超过38K的视频场景,以创建SpaceVista-1M,这是一个包含约1M空间问答对、涵盖19种不同任务类型的数据集。尽管专家模型可以注入有用的领域知识,但它们在评估方面不可靠。然后,我们通过手动录制、检索和组装视频数据,构建了一个具有精确标注的全尺度基准。然而,由于潜在的知识冲突,使用SpaceVista-1M进行朴素训练常导致次优结果。因此,我们引入了SpaceVista-7B,这是一个接受语义之外的密集输入的空间推理模型,并使用尺度作为尺度感知专家和渐进式奖励的锚点。最后,在包括我们的SpaceVista-Bench在内的5个基准上的广泛评估表明了有竞争力的性能,展示了在所有尺度和场景下的强大泛化能力。我们的数据集、模型和基准将发布在https://peiwensun2000.github.io/mm2km。 |
| 2025-10-10 | Vision Language Models: A Survey of 26K Papers | null | 我们对2023-2025年CVPR、ICLR和NeurIPS的26,104篇录用论文进行了透明、可复现的研究趋势测量。我们对论文标题和摘要进行规范化和词组保护处理,并与手工构建的词典进行匹配,以分配多达35个主题标签,并挖掘有关任务、架构、训练方案、目标函数、数据集以及共同提及模态的细粒度线索。分析量化了三个宏观转变:(1) 多模态视觉-语言-大型语言模型(LLM)工作的急剧增长,这类工作越来越多地将经典感知重构为指令遵循和多步推理;(2) 生成方法稳步扩展,其中扩散模型研究集中在可控性、蒸馏和速度方面;(3) 3D和视频活动的持续活跃,其构成表示从NeRFs转向高斯泼溅,并越来越重视以人-和智能体-为中心的理解。在视觉-语言模型(VLM)内部,提示、适配器、LoRA等参数高效适应技术以及轻量级视觉-语言桥接占据主导地位;训练实践从从头构建编码器转向指令微调和微调强大的骨干网络;对比学习目标相对于交叉熵/排序和蒸馏有所减少。跨会议比较显示,CVPR在3D领域影响力更强,ICLR拥有最高的VLM份额,而效率或鲁棒性等可靠性主题则在各领域中扩散。我们发布了词典和方法,以方便审计和扩展。局限性包括词典召回率和仅限于摘要的范围,但纵向信号在不同会议和年份之间保持一致。 |
| 2025-10-10 | AutoPR: Let’s Automate Your Academic Promotion! | link | 随着同行评审研究数量的激增,学者们越来越依赖社交平台进行发现,而作者则投入大量精力推广其工作以确保可见性和被引用。为了简化这一过程并减少对人力投入的依赖,我们引入了自动推广(AutoPR),这是一项新颖的任务,旨在将研究论文转化为准确、引人入胜且及时的公共内容。为了实现严格的评估,我们发布了PRBench,这是一个多模态基准,将512篇同行评审文章与高质量推广帖文关联起来,从三个维度评估系统:忠实度(准确性和语气)、参与度(受众定位和吸引力)和对齐度(时间选择和渠道优化)。我们还引入了PRAgent,一个多智能体框架,它分三阶段自动化AutoPR:多模态准备下的内容提取、协作合成以生成精炼输出,以及平台特定适应以优化规范、语气和标签,从而实现最大覆盖。在PRBench上与直接LLM(大型语言模型)管线相比,PRAgent展现了显著的改进,包括总观看时长增加604%、点赞数增长438%,以及整体参与度至少提升2.9倍。消融研究表明,平台建模和定向推广对这些提升贡献最大。我们的结果将AutoPR定位为一个可处理、可衡量的研究问题,并为可扩展、有影响力的自动化学术交流提供了路线图。 |
| 2025-10-10 | MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval | null | 我们引入了MRMR,这是首个需要密集推理的专家级多学科多模态检索基准。MRMR包含1,502个查询,涵盖23个领域,其正向文档均经过人类专家仔细验证。与之前的基准相比,MRMR引入了三个关键进展。首先,它在不同专业领域对检索系统提出挑战,从而实现跨领域的细粒度模型比较。其次,查询是推理密集型的,图像需要更深层次的解读,例如诊断显微镜切片。我们进一步引入了矛盾检索,这是一项要求模型识别冲突概念的新颖任务。最后,查询和文档被构建为图像-文本交错序列。与早期仅限于单张图像或单模态文档的基准不同,MRMR提供了一个具有多图像查询和混合模态语料库文档的现实设置。我们在MRMR上对4类多模态检索系统和14个前沿模型进行了广泛评估。结合大型语言模型生成的图像描述的文本嵌入模型Qwen3-Embedding取得了最高性能,凸显了多模态检索模型仍有巨大的改进空间。尽管最新的多模态模型(例如Ops-MM-Embedding)在专家领域查询上表现出竞争力,但在推理密集型任务上表现不足。我们相信MRMR为在更现实和更具挑战性的场景中推进多模态检索铺平了道路。 |
| 2025-10-10 | PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs | link | 使用、理解和创造工具的能力是人类智能的标志,使人类能够与物理世界进行复杂的互动。任何通用智能体若要实现真正的多功能性,也必须掌握这些基本技能。尽管现代多模态大语言模型 (MLLM) 在具身智能和下游视觉-语言-动作 (VLA) 模型中利用其广泛的常识进行高层规划,但它们对物理工具的真实理解程度仍未被量化。为了弥合这一差距,我们提出了 PhysToolBench,这是首个专门用于评估 MLLM 对物理工具理解能力的基准。我们的基准被构建为一个包含超过 1,000 对图像-文本对的视觉问答 (VQA) 数据集。它评估了三个不同难度级别的能力:(1) 工具识别:要求识别工具的主要功能。(2) 工具理解:测试掌握工具操作基本原理的能力。(3) 工具创造:挑战模型在常规选项不可用时,利用周围物体制造新工具。我们对 32 种 MLLM(涵盖了专有模型、开源模型、专用具身模型以及 VLA 中的骨干模型)进行的全面评估揭示了它们在工具理解方面存在的显著缺陷。此外,我们提供了深入分析并提出了初步解决方案。代码和数据集已公开可用。 |
| 2025-10-10 | Unsupervised full-field Bayesian inference of orthotropic hyperelasticity from a single biaxial test: a myocardial case study | null | 在传统的均质组织测试中,充分捕捉这种行为需要激发多种变形模式,即组合三轴剪切测试和双轴拉伸测试。本质上,这种多模式实验方案需要多个组织样本和大量的样本操作。内在的样本间变异性和操作引起的组织损伤可能会对逆向识别的组织行为产生不利影响。在这项工作中,我们旨在通过将注意力集中在参数估计问题中异质变形剖面的使用来弥补这一空白。更具体地说,我们改进了EUCLID(一种用于自动发现本构模型的无监督方法),以利用贝叶斯推断方法和三维连续体单元,对高度非线性、正交各向异性本构模型进行参数识别。我们展示了它在不同噪声水平下,从单一异质双轴拉伸测试中量化推断合成心肌组织薄片材料模型参数的强大能力。该方法与真值模拟以及相应的可信区间表现出良好的一致性。我们的工作突出了从单一双轴拉伸测试中表征高度非线性、正交各向异性材料模型并进行不确定性量化的潜力。 |
| 2025-10-10 | Multimodal Policy Internalization for Conversational Agents | link | ChatGPT和Alexa+等现代对话代理依赖于指定元数据、响应风格和工具使用规则的预定义策略。随着这些基于大型语言模型的系统扩展以支持多样化的业务和用户查询,此类策略(通常以上下文提示的形式实现)正变得日益复杂和冗长,使得忠实遵循变得困难并带来了高昂的固定计算成本。随着多模态代理的兴起,管理视觉和多模态行为的策略至关重要但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和示例,而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化(MPI),这是一项新任务,旨在将推理密集型多模态策略内化到模型参数中,从而在推理时无需包含策略即可实现更强的策略遵循能力。MPI带来了独特的数据和算法挑战。我们构建了两个数据集,涵盖合成和真实世界的决策制定与工具使用任务,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,接着执行有监督微调,最后应用PolicyRollout,这是一种GRPO风格的强化学习扩展,通过策略感知响应来增强rollout,以实现有根据的探索。TriMPI在端到端准确性、泛化能力和抗遗忘性方面取得了显著提升。作为多模态策略内化领域的首项工作,我们提供了数据集、训练方案和全面的评估,以促进未来的研究。项目页面:https://mikewangwzhl.github.io/TriMPI。 |
| 2025-10-10 | D-TPT: Dimensional Entropy Maximization for Calibrating Test-Time Prompt Tuning in Vision-Language Models | null | 测试时适应范式通过对源模型产生的未标记目标数据进行即时适应,为域偏移提供了灵活性。视觉-语言模型(VLMs)利用其泛化能力处理多样化的下游任务,而测试时提示调优已成为适应VLMs的一个突出解决方案。在这项工作中,我们探索了对比式视觉-语言模型,并识别出由跨模态的单一主导特征维度引起的模态鸿沟。我们观察到文本和图像模态中的主导维度均表现出高预测敏感性,并且限制其影响可以改善校准误差。基于这一洞察,我们提出了维度熵最大化方法,该方法通过将文本特征的分布规范化趋向均匀性,以减轻主导维度的依赖性。我们的方法缓解了测试时提示调优中校准性能的下降,为增强视觉-语言模型在实际部署场景中的可靠性提供了一个简单而有效的解决方案。 |
| 2025-10-09 | MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning | null | 视觉语言模型(VLMs)正越来越多地被部署为控制器,能够访问外部工具进行复杂推理和决策,然而,其有效性仍受限于高质量多模态轨迹的稀缺性以及手动标注的成本。我们通过一个以视觉为中心的智能体微调框架来解决这一挑战,该框架自动合成多模态轨迹,生成分步偏好对,并训练一个VLM控制器以实现稳健的工具使用推理。我们的管道首先构建了M-TRACE,一个包含2.85万个多模态任务和17.7万条经过验证轨迹的大规模数据集,从而实现基于模仿的轨迹微调。在此基础上,我们开发了MATRIX智能体,一个在M-TRACE上进行微调的控制器,用于分步工具推理。为实现更精细的对齐,我们进一步引入了Pref-X,一组包含1.1万个自动生成的偏好对,并在此基础上通过分步偏好学习优化MATRIX。在Agent-X、GTA和GAIA这三个基准测试中,MATRIX持续超越开源和闭源VLM,展示了可扩展且有效的多模态工具使用能力。我们的数据和代码可在https://github.com/mbzuai-oryx/MATRIX获取。 |
| 2025-10-09 | NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints | null | 组合式训练一直是现有多模态大语言模型(MLLM)中事实上的范式,其中预训练视觉编码器通过连续多模态预训练与预训练大语言模型连接。然而,由于训练分离,这种范式的多模态扩展特性仍然难以探索。在本文中,我们关注以端到端方式对 MLLM 进行原生训练,并在实际设置(即数据约束)下系统地研究其设计空间和扩展特性。通过仔细研究 MLLM 中的各种选择,我们获得了能够最佳平衡性能和训练成本的最优元架构。之后,我们进一步探索了原生 MLLM 的扩展特性,并指出了视觉编码器和 LLM 之间正相关的扩展关系。基于这些发现,我们提出了一个名为 NaViL 的原生 MLLM,并结合了一个简单且经济高效的方案。在 14 个多模态基准测试上的实验结果证实了 NaViL 相对于现有 MLLM 具有竞争力的性能。除此之外,我们的发现和结果为未来原生 MLLM 的研究提供了深入的见解。 |
| 2025-10-09 | How to Teach Large Multimodal Models New Skills | link | 我们如何在不抹除其先前能力的情况下,教授大型多模态模型 (LMMs) 新技能?我们研究了在五种目标技能上进行的序贯微调,同时监测了跨越三种模型家族的八个保留基准上的通用能力。我们观察到,在窄范围微调后,保留任务上出现的“遗忘”可以在后期阶段部分恢复。我们将这种行为归因于输出词元分布中可测量的偏移,这通过一个与遗忘共同变化的简单计数偏差探测器体现出来。受此启发,我们确定了两种简单、稳健的微调方案,它们在强力学习的同时限制了漂移:(i) 仅更新自注意力投影层,以及 (ii) 仅更新多层感知机 (MLP) 的门控和向上投影 (Gate&Up),同时冻结向下投影 (Down projection)。跨模型和任务,这些选择带来了强大的目标增益,同时在很大程度上保留了保留性能。代码可在 https://github.com/jessemelpolio/LMM_CL 获取。 |
| 2025-10-09 | SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models | null | 大规模多模态模型(LMMs)在各种能力上取得了显著进展;然而,科学领域中复杂的视频推理仍然是一个重要且充满挑战的前沿。当前的视频基准主要针对高度依赖感知/识别的通用场景,而推理任务相对简单,这导致了饱和,从而未能有效评估先进的多模态认知技能。为了弥补这一关键空白,我们引入了SciVideoBench,一个专门用于评估科学背景下先进视频推理能力的严格基准。SciVideoBench包含1000个精心制作的多项选择题,这些问题来源于前沿的科学实验视频,涵盖超过25个专业学术领域,并经过半自动系统验证。每个问题都要求精深的领域特定知识、精准的时空感知和复杂的逻辑推理,有效地挑战了模型的更高阶认知能力。我们的评估突出显示了最先进的专有和开源LMMs(包括Gemini 2.5 Pro和Qwen2.5-VL)中存在显著的性能缺陷,这表明在视频推理能力方面仍有巨大的进步空间。对推理复杂性和视觉基础等关键因素的详细分析,为LMMs的未来发展提供了宝贵的见解和明确的方向,从而推动真正有能力的多模态AI合作科学家的演变。我们希望SciVideoBench能够符合社区的兴趣,并帮助推动前沿AI在科学前沿领域的进步和应用。 |
| 2025-10-09 | MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization | link | 尽管当前多模态大语言模型(MLLMs)已在数学和逻辑等推理任务中展现出熟练的能力,但它们在长链式反思推理方面的能力(这是解决复杂现实世界问题的先决条件)仍未得到充分探索。在这项工作中,我们首先进行了一项广泛的实证研究以评估这种能力。利用精心设计的数据合成引擎,我们构建了MM-HELIX,这是一个包含1,260个样本的多模态基准,涵盖42个需要迭代思考和回溯的挑战性合成任务。在此基准上的实证结果表明,现有MLLMs在长链式反思推理方面存在显著的性能不足。为解决这一局限性,我们生成了后训练数据,并进一步探索了利用这些数据的学习范式。我们首先开发了逐步启发式响应生成流程,以创建MM-HELIX-100K,这是一个包含10万条高质量反思推理轨迹的大规模数据集,用于指令微调阶段。考虑到标准强化学习在复杂任务上因稀疏的奖励信号以及在监督微调后出现的灾难性遗忘而表现不佳,我们提出了自适应混合策略优化(AHPO),这是一种新颖的训练策略,它将离线监督和在线优化动态统一到一个阶段中。这种策略使模型能够在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。将其应用于Qwen2.5-VL-7B基线模型时,我们的方法在MM-HELIX基准上取得了+18.6%的准确率提升,并在一般数学和逻辑任务上展现出强大的泛化能力,平均性能提升了+5.7%。我们的工作表明,MLLMs中的反思推理可以被有效地学习和泛化,为开发更强大的MLLMs铺平了道路。 |
| 2025-10-09 | SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models | link | 空间推理仍然是视觉-语言模型(VLM)面临的一个基本挑战,尽管近期有所进展,但当前方法仍难以实现鲁棒性能。我们发现这一局限性源于一个关键空白:现有方法试图直接学习空间推理,而未建立感知和理解的层次化基础。为解决这一挑战,我们提出了一种逐步构建空间智能的全面方法论。我们引入了SpatialLadder-26k,这是一个包含26,610个样本的多模态数据集,涵盖目标定位、单图像、多视角和视频空间推理任务,该数据集通过标准化流程构建,确保了跨模态的系统性覆盖。基于该数据集,我们设计了一个三阶段渐进式训练框架:(1) 通过目标定位建立空间感知,(2) 通过多维空间任务发展空间理解,(3) 通过带有可验证奖励的强化学习强化复杂推理。这种方法产生了SpatialLadder,这是一个30亿参数模型,在空间推理基准测试中取得了最先进的性能,比基础模型平均提升23.4%,超过GPT-4o 20.8%,并超过Gemini-2.0-Flash 10.1%。值得注意的是,SpatialLadder在域外基准测试中保持了强大的泛化能力,提升了7.2%,这证明了从感知到推理的渐进式训练对于鲁棒的空间智能至关重要。 |
| 2025-10-09 | MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration | link | 真实世界视频由于多样的采集和传输条件,常遭受复杂的退化,例如噪声、压缩伪影和低光照失真。现有恢复方法通常需要专业人员手动选择专用模型,或依赖于难以泛化到不同退化类型的单一架构。受专家经验启发,我们提出了MoA-VR,这是首个智能体混合视频恢复系统,通过三个协调智能体(退化识别、路由与恢复、恢复质量评估)模仿人类专业人员的推理和处理过程。具体而言,我们构建了一个大规模高分辨率视频退化识别基准,并建立了一个由视觉-语言模型(VLM)驱动的退化识别器。我们进一步引入了一个由大语言模型(LLM)驱动的自适应路由器,该路由器通过观察工具使用模式自主学习有效的恢复策略。为了评估中间和最终处理的视频质量,我们构建了恢复视频质量(Res-VQ)数据集,并设计了一个专为恢复任务定制的基于VLM的视频质量评估(VQA)模型。大量实验表明,MoA-VR能有效处理多样和复合退化,在客观指标和感知质量方面持续优于现有基线。这些结果突出了在通用视频恢复系统中整合多模态智能和模块化推理的潜力。 |
| 2025-10-09 | Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models | null | 传统多模态学习器为诸如视觉问答等任务寻找统一表示,但严重依赖成对数据集。然而,一个被忽视但却可能很有潜力的问题是:能否利用辅助的未成对多模态数据直接增强目标模态中的表示学习?我们引入了UML(Unpaired Multimodal Learner,未成对多模态学习器),这是一种模态无关的训练范式,其中单一模型交替处理来自不同模态的输入,并在它们之间共享参数。这种设计利用了不同模态是共享底层现实的投影这一假设,使模型能够从跨模态结构中受益,而无需明确的成对数据。理论上,在线性数据生成假设下,我们表明未成对的辅助数据可以产生比单模态训练对数据生成过程严格更具信息量的表示。经验上,我们表明使用来自辅助模态(例如文本、音频或图像)的未成对数据,可以持续提高跨越不同单模态目标(例如图像和音频)的下游性能。我们的项目页面:https://unpaired-multimodal.github.io/ |
| 2025-10-09 | InstructX: Towards Unified Visual Editing with MLLM Guidance | null | 随着多模态大语言模型(MLLMs)在视觉理解和推理方面展现出强大能力,人们对利用它们提升扩散模型编辑性能的兴趣日益增长。尽管取得了快速进展,但大多数研究缺乏对MLLM设计选择的深入分析。此外,MLLMs与扩散模型的集成在某些困难任务(如视频编辑)中仍是一个开放性挑战。在本文中,我们提出了InstructX,一个用于图像和视频编辑的统一框架。具体而言,我们对集成MLLMs和扩散模型以实现指令驱动的跨多样任务编辑进行了全面研究。在此研究的基础上,我们分析了统一建模中图像和视频之间的协作与区别。(1) 我们展示了在图像数据上进行训练可以在没有明确监督的情况下产生涌现的视频编辑能力,从而缓解了稀缺视频训练数据带来的限制。(2) 通过整合模态特定的MLLM特征,我们的方法有效地将图像和视频编辑任务统一到一个单一模型中。大量实验表明,我们的方法可以处理广泛的图像和视频编辑任务,并取得了最先进的性能。 |
| 2025-10-09 | The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping | null | 象似性,即语言形式与意义之间的相似性,在手语中普遍存在,为视觉基础提供了一个天然的试验平台。对于视觉-语言模型(VLM)而言,挑战在于从动态的人体动作而非静态上下文中恢复这些基本映射。我们引入了“视觉象似性挑战赛”,这是一个新颖的基于视频的基准,它调整了心理语言学测量方法,用于评估VLM在三个任务上的表现:(i) 语音手语形式预测(例如,手形、位置),(ii) 透明度(从视觉形式推断意义),以及(iii) 分级象似性评级。我们在零样本和少样本设置下,使用荷兰手语评估了13个最先进的VLM,并将其与人类基线进行比较。在语音形式预测方面,VLM能够恢复一些手形和位置细节,但仍低于人类表现;在透明度方面,它们远低于人类基线;并且只有顶级模型与人类的象似性评级适度相关。有趣的是,具有更强语音形式预测能力的模型与人类象似性判断的相关性更好,这表明它们对视觉基础结构具有共同的敏感性。我们的发现验证了这些诊断任务,并启发了以人为中心的信号和具身学习方法,以用于建模象似性并改善多模态模型中的视觉基础。 |
| 2025-10-07 | EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark | null | 现有的大多数第一人称视角理解基准主要关注白天场景,却忽视了实际应用中不可避免的低光照条件。为了弥补这一空白,我们提出了EgoNight,这是首个针对夜间第一人称视角的综合基准,以视觉问答(VQA)作为核心任务。EgoNight的一个关键特征是引入了昼夜对齐视频,这些视频利用白天数据提高了夜间标注质量,并揭示了不同光照条件之间明显的性能差距。为实现这一目标,我们收集了Blender渲染的合成视频和真实世界录像,确保场景和动作在视觉上和时间上对齐。利用这些配对视频,我们构建了EgoNight-VQA,它由一个新颖的昼间增强夜间自动标注引擎支持,并通过大量人工验证进行了完善。每个问答对都经过标注员的二次检查以确保可靠性。EgoNight-VQA总计包含3658个问答对,涵盖90个视频和12种不同的问答类型,耗费超过300小时的人工工作。对最先进多模态大语言模型(MLLMs)的评估揭示了从白天到夜晚迁移时性能的显著下降,这强调了在低光照条件下进行推理的挑战。除了VQA,EgoNight还引入了两项辅助任务:昼夜对应关系检索和夜间第一人称深度估计,以进一步探索现有模型的边界。我们相信EgoNight-VQA为推动应用驱动的第一人称视角研究以及开发能够在不同光照领域泛化的模型提供了坚实的基础。所有数据和代码将在论文接收后公开。 |
| 2025-10-07 | Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images | link | 我们解决了在日常场景中从单张图像预测双手3D手部运动与姿态的问题。为了解决多样化场景中3D手部标注不足的问题,我们设计了一个标注流程,该流程包含一个扩散模型,用于将2D手部关键点序列提升为4D手部运动。对于预测模型,我们采用了一种扩散损失,以解释手部运动分布中的多模态性。在6个数据集上进行的广泛实验表明,相较于最佳基线模型,在具有推断标签的多样化数据上进行训练具有优势(14%的提升),并且我们的提升(42%更好)和预测(16.4%的增益)模型是有效的,尤其是在对日常图像的零样本泛化能力方面。 |
| 2025-10-07 | Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation | null | 生成式医疗模型在模态特异性场景中受限,这阻碍了来自影像、病理和临床记录的互补证据的整合。这种碎片化限制了它们发展成为能够在生物医学数据全谱范围内学习和推理的基础模型。我们提出了MeDiM,这是首个医疗离散扩散模型,它无需模态特异性组件即可学习跨模态的共享分布。MeDiM统一了多种生成任务:在图像和文本之间进行翻译,并响应提示联合生成跨领域的图像-报告对。MeDiM基于离散扩散框架构建,通过共享概率空间弥合了视觉和语言表示。为了实现统一和灵活的医疗生成,我们采用多模态大语言模型(MLLM)作为扩散骨干,利用其先验知识和跨模态推理能力。我们引入了两个关键设计:(1)移除因果注意力掩码以实现双向上下文,以及(2)注入连续时间步嵌入以增强扩散感知。实验表明MeDiM实现了高保真医疗生成(在MIMIC-CXR上FID为16.60,在PathGen上FID为24.19)和准确的报告生成(METEOR分别为0.2650和0.2580)。联合生成的图像-报告对进一步提升了下游性能(BLEU-1提高6.43%,BLEU-2提高18.57%,BLEU-3提高31.58%,METEOR提高4.80%),表明MeDiM支持连贯且具有临床依据的多模态输出。 |
| 2025-10-07 | Multimodal Feature Prototype Learning for Interpretable and Discriminative Cancer Survival Prediction | null | 生存分析在临床决策中发挥着至关重要的作用。然而,当前使用的模型往往难以解释,这降低了它们在临床环境中的实用性。原型学习提供了一个潜在的解决方案,但传统方法侧重于局部相似性和静态匹配,忽略了更广泛的肿瘤背景,并缺乏与基因组数据的强大语义对齐。为了克服这些问题,我们引入了一种创新的基于原型的多模态框架FeatProto,旨在通过解决病理学中当前原型学习方法学的重大局限性来增强癌症生存预测。我们的框架建立了一个统一的特征原型空间,该空间将全玻片图像(WSI)的全局和局部特征与基因组图谱相结合。这种整合促进了可追溯和可解释的决策制定过程。我们的方法包括三项主要创新:(1) 一种鲁棒的表型表示,它将关键斑块与全局上下文融合,并与基因组数据协调以最小化局部偏差。(2) 一种指数原型更新策略(EMA ProtoUp),它维持稳定的跨模态关联,并采用漂移机制使原型灵活适应肿瘤异质性。(3) 一种分层原型匹配方案,旨在捕捉全局中心性、局部典型性和群体水平趋势,从而完善原型推断。对四个公开可用的癌症数据集进行的全面评估表明,我们的方法在准确性和互操作性方面均超越了当前领先的单模态和多模态生存预测技术,为关键医疗应用的原型学习提供了新视角。我们的源代码可在https://github.com/JSLiam94/FeatProto获取。 |
| 2025-10-07 | When Thinking Drifts: Evidential Grounding for Robust Video Reasoning | null | 视频推理,即使机器能够通过多步逻辑从动态视觉内容中进行推理的任务,对于高级人工智能至关重要。尽管思维链(CoT)机制已增强了基于文本任务中的推理能力,但其在视频理解中的应用仍未得到充分探索。本文进行了一项系统分析,揭示了CoT在视频推理中往往会降低性能,产生冗长但具有误导性的内部独白,并导致视觉细节的幻觉和对正确直觉的覆盖——我们称此现象为“视觉思维漂移”。我们通过贝叶斯视角解释这种漂移,认为CoT轨迹往往偏离实际视觉证据,转而放大内部偏见或语言先验,导致模型更倾向于编造故事而非进行基于证据的推理。为了解决这个问题,我们引入了视觉证据奖励(VER),这是一种新颖的强化学习框架,它明确奖励生成可验证地基于视觉证据的推理轨迹。在10个不同的视频理解基准上进行的全面评估表明,我们的Video-VER始终能取得顶尖性能。我们的工作揭示了以视频为中心的推理所面临的独特挑战,并鼓励开发能够稳健地将其推理建立在视觉证据之上的AI——这对于大型多模态模型而言,不仅意味着“先思考再回答”,更意味着“边看边思考”。 |
| 2025-10-07 | Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA | null | 验证码(CAPTCHA)最初旨在区分人类和机器人,现已演变为一个真实世界的基准,用于评估视觉语言模型(VLMs)的空间推理能力。在这项工作中,我们首先展示了循序渐进的推理对于视觉语言模型(VLMs)解决代表高难度空间推理任务的验证码至关重要,并且当前的商业视觉语言模型在此类推理方面仍然面临困难。具体而言,我们观察到大多数商业视觉语言模型(例如Gemini、Claude、GPT等)未能有效解决验证码,因此准确率较低(约21.9%)。然而,我们的发现表明,在生成最终坐标之前要求模型执行循序渐进的推理,可以显著提高其解决准确率,凸显了这一差距的严重性。为了系统地研究这个问题,我们引入了CAPTCHA-X,这是首个包含推理的真实世界验证码基准,涵盖七类验证码(例如五子棋、hCaptcha等),并提供了循序渐进的动作解决方案和基础标注。我们进一步定义了五个面向推理的指标,能够对模型的推理能力进行全面评估。为了验证推理的有效性,我们还提出了一个通用的基于代理式视觉语言模型(VLM)的框架,该框架融入了模型固有的推理能力。我们的方法在五种高难度验证码类型上取得了最先进的性能,平均解决准确率达到83.9%,显著超越了现有基线。这些结果揭示了当前模型的局限性,并强调了推理在未来推进视觉空间挑战方面的重要性。 |
| 2025-10-07 | Detection and Measurement of Hailstones with Multimodal Large Language Models | null | 本研究考察了利用预训练多模态大语言模型,通过社交媒体和新闻图像检测和测量冰雹。本研究的数据集包含474张众包冰雹图像,这些图像来自2022年1月至2024年9月期间奥地利有记录的冰雹事件。这些冰雹的最大直径范围为2到11厘米。我们估计了冰雹直径,并比较了利用单阶段和双阶段提示策略的四种不同模型。后者利用图像中参照物(例如人手)提供的额外尺寸线索。我们的结果表明,预训练模型已经具备从图像中测量冰雹直径的潜力,其中最佳模型的平均平均绝对误差为1.12厘米。与单阶段提示相比,双阶段提示提高了大多数模型的可靠性。我们的研究表明,这些现成的模型即使未经微调,也能通过从社交媒体图像中提取有意义且空间密集的信息,补充传统的冰雹传感器,从而实现对恶劣天气事件更快、更详细的评估。从社交媒体和其他来源自动实时获取图像仍然是一项开放任务,但它将使我们的方法直接适用于未来的冰雹事件。 |
| 2025-10-07 | Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis | null | 微光图像增强(LLIE)对于监控、自动导航和医学成像等安全关键型应用至关重要,因为在这些应用中,可见性下降会损害下游任务性能。近期,扩散模型因其通过迭代去噪建模复杂图像分布的能力,已成为LLIE领域一种有前景的生成范式。本综述对用于LLIE的扩散模型提供了最新批判性分析,其突出特点是对生成对抗网络和基于Transformer的最新方法进行了深入的比较性能评估,全面考察了实际部署挑战,并对基础模型等新兴范式的作用提出了前瞻性视角。我们提出了一种多视角分类法,涵盖六个类别:内在分解、光谱与潜在、加速、引导、多模态和自主;该分类法根据物理先验、条件方案和计算效率来映射增强方法。我们的分类法基于模型机制和条件信号的混合视角。我们评估了定性失效模式、基准不一致性以及解释性、泛化性与推理效率之间的权衡。我们还讨论了实际部署限制(例如,内存、能源消耗)和伦理考量。本综述旨在通过突出趋势和提出开放研究问题(包括新颖条件化、实时适应和基础模型的潜力),指导下一代基于扩散的LLIE研究。 |
| 2025-10-07 | Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density | null | 联合嵌入预测架构(JEPAs)学习到的表征能够开箱即用地解决众多下游任务。JEPAs结合了两个目标:(i) 一个潜在空间预测项,即轻微扰动样本的表征必须可以从原始样本的表征中预测出来;以及 (ii) 一个抗坍塌项,即并非所有样本都应具有相同的表征。尽管 (ii) 通常被认为是表征坍塌的显而易见的补救措施,但我们发现JEPAs的抗坍塌项作用远不止于此——它可证明地估计数据密度。简而言之,任何成功训练的JEPA都可以用来获取样本概率,例如用于数据整理、异常检测,或仅仅用于密度估计。我们的理论发现与所使用的数据集和架构无关——无论如何,都可以使用模型在 $x$ 处的雅可比矩阵,高效地以封闭形式计算样本 $x$ 的学习概率。我们的发现经过了经验验证,涵盖了不同数据集(合成数据集、受控数据集和ImageNet),以及属于JEPA家族的不同自监督学习方法(I-JEPA和DINOv2),并在多模态模型(如MetaCLIP)上进行了验证。我们将提取JEPA学习到的密度的方法命名为JEPA-SCORE。 |
| 2025-10-07 | BioAutoML-NAS: An End-to-End AutoML Framework for Multimodal Insect Classification via Neural Architecture Search on Large-Scale Biodiversity Data | null | 昆虫分类对于农业管理和生态研究至关重要,因为它直接影响作物健康和生产。然而,由于昆虫的复杂特征、类别不平衡和大规模数据集,这项任务仍然具有挑战性。为解决这些问题,我们提出了BioAutoML-NAS,这是首个使用多模态数据(包括图像和元数据)的BioAutoML模型,它将神经架构搜索(NAS)应用于图像,以自动学习每个单元内每个连接的最佳操作。多个单元堆叠形成完整网络,每个单元提取详细的图像特征表示。多模态融合模块将图像嵌入与元数据结合,使模型能够利用视觉和类别生物信息对昆虫进行分类。交替双层优化训练策略联合更新网络权重和架构参数,同时零操作移除不重要的连接,从而生成稀疏、高效且高性能的架构。在BIOSCAN-5M数据集上的大量评估表明,BioAutoML-NAS实现了96.81%的准确率、97.46%的精确率、96.81%的召回率和97.05%的F1分数,分别比最先进的迁移学习、Transformer、AutoML和NAS方法高出约16%、10%和8%。在Insects-1M数据集上的进一步验证获得了93.25%的准确率、93.71%的精确率、92.74%的召回率和93.22%的F1分数。这些结果表明BioAutoML-NAS提供了准确、可靠的昆虫分类,支持现代可持续农业。 |
| 2025-10-03 | LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models | null | 多模态大语言模型 (MLLMs) 在通用视觉基准上表现出色,但在医学影像等专业领域面临分布外 (OOD) 任务挑战,这些领域的标注数据有限且昂贵。我们提出了LEAML,一个标签高效的适应框架,它利用稀缺的标注VQA样本和大量的未标注图像。我们的方法通过由标题蒸馏正则化的问答生成器,为未标注数据生成领域相关的伪问答对。重要的是,我们仅选择性地更新与问答最相关的神经元,使问答生成器能够在蒸馏过程中高效获取领域特定知识。在胃肠内窥镜和体育VQA上的实验表明,在最少监督下,LEAML始终优于标准微调,突显了我们提出的LEAML框架的有效性。 |
| 2025-10-03 | Improving GUI Grounding with Explicit Position-to-Coordinate Mapping | null | GUI接地,即将自然语言指令映射到像素坐标的任务,对自主代理至关重要,但对当前视觉-语言模型(VLMs)来说仍然很困难。核心瓶颈是可靠的块到像素映射,当外推到训练期间未见过的高分辨率显示器时,这种映射就会失效。当前方法直接从视觉特征中将坐标生成为文本标记,这迫使模型隐式地推断复杂的位置到像素映射;结果是,在新分辨率下,准确性下降,故障增多。我们通过两种互补的创新来解决这个问题。首先,RULER标记作为显式坐标标记,让模型能够像参考地图上的网格线一样参考位置,并进行调整而不是从头生成坐标。其次,交错式MRoPE (I-MRoPE) 通过确保宽度和高度维度被平等地表示来改进空间编码,解决了标准位置编码方案的不对称性。在ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro上的实验显示,接地准确性持续提升,在高分辨率界面上的提升最大。通过提供显式空间指导而非依赖隐式学习,我们的方法实现了跨越不同分辨率和平台的更可靠的GUI自动化。 |
| 2025-10-03 | Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner | null | 扩散语言模型,特别是掩码离散扩散模型,最近取得了巨大成功。尽管有一些理论和初步的实证结果表明循环Transformer或连续思维链在潜在推理方面具有优势,但连续扩散模型的性能通常不如其离散对应物。在本文中,我们认为扩散语言模型不一定需要在离散空间中。具体来说,我们证明了连续扩散模型比离散扩散和循环Transformer具有更强的表达能力。我们将理论表达能力与经验性能之间的矛盾归因于它们的实际可训练性:虽然连续扩散提供了循环Transformer所缺乏的中间监督,但它们在将连续表示空间中的令牌解码到离散令牌空间时引入了额外的困难。因此,我们提出了协同演化连续离散扩散(CCDD),它在连续表示空间和离散令牌空间的并集上定义了一个联合多模态扩散过程,利用单个模型在联合空间中同时去噪。通过结合两种模态,CCDD在潜在空间中具有丰富的语义表达能力,并且借助显式离散令牌,具有良好的可训练性和样本质量。我们还为CCDD提出了有效的架构和先进的训练/采样技术,这在真实世界任务的广泛语言建模实验中展现出强大的经验性能。 |
| 2025-10-03 | Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning | null | 视觉语言模型 (VLM) 在视觉规划方面展现出强大潜力,但在精确的空间推理和长程推理方面表现不足。相比之下,规划领域定义语言 (PDDL) 规划器擅长长程形式化规划,但无法解释视觉输入。近期工作通过使 VLM 能够将视觉规划问题转化为 PDDL 文件用于形式化规划,从而结合了这些互补优势。然而,尽管 VLM 可以令人满意地生成 PDDL 问题文件,但它们却难以准确生成描述所有规划规则的 PDDL 领域文件。因此,先前方法依赖人类专家预定义领域文件,或依赖持续的环境访问进行细化。我们提出了 VLMFP,一个双 VLM 引导的框架,能够自主生成 PDDL 问题文件和领域文件,以实现形式化视觉规划。VLMFP 引入了两个 VLM 以确保可靠的 PDDL 文件生成:一个 SimVLM 根据输入的规则描述模拟行动后果,另一个 GenVLM 则通过比较 PDDL 和 SimVLM 的执行结果来生成并迭代细化 PDDL 文件。VLMFP 释放了多层次的泛化能力:相同的生成 PDDL 领域文件适用于同一问题下的所有不同实例,并且 VLM 可以泛化到具有不同外观和规则的不同问题。我们使用 6 个网格世界领域评估了 VLMFP,并测试了其对未见实例、外观和游戏规则的泛化能力。平均而言,SimVLM 分别针对已见和未见外观,准确描述了 95.5%、82.6% 的情景,模拟了 85.5%、87.8% 的行动序列,并判断了 82.4%、85.6% 的目标达成率。在 SimVLM 的指导下,VLMFP 可以生成 PDDL 文件,分别针对已见和未见外观中的未见实例,实现 70.0%、54.1% 的有效规划。项目页面:https://sites.google.com/view/vlmfp。 |
| 2025-10-03 | SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus | null | 脊柱疾病影响全球6.19亿人,是主要致残原因,然而,AI辅助诊断仍受限于缺乏具备椎体层面感知能力的多模态数据集。脊柱疾病的临床决策需要在特定椎体层面,跨X射线、CT和MRI进行复杂的推理。然而,进展一直受制于缺乏可追溯、基于临床的指令数据以及标准化、脊柱专用基准。为此,我们推出了SpineMed,一个与执业脊柱外科医生共同设计的生态系统。其包含SpineMed-450k,这是首个专门为跨影像模态的椎体层面推理而设计的大规模数据集,包含超过45万条指令实例,以及SpineBench,一个基于临床的评估框架。SpineMed-450k数据源自多种途径,包括教科书、临床指南、开放数据集和约1000例去身份化的医院病例,并采用临床医生参与的循环流程,结合两阶段大语言模型生成方法(草稿和修订),以确保高质量、可追溯的数据,用于问答、多轮会诊和报告生成。SpineBench从临床关键维度评估模型,包括椎体层面识别、病理评估和手术规划。我们对SpineBench上近期几种先进的大型视觉语言模型(LVLMs)进行的综合评估,揭示了它们在细粒度、特定层面推理方面的系统性弱点。相比之下,我们在SpineMed-450k上微调的模型在所有任务上都表现出持续显著的改进。临床医生评估证实了我们模型输出的诊断清晰度和实用性。 |
| 2025-10-03 | Focal-plane wavefront sensing with moderately broadband light using a short multi-mode fiber | null | 我们提出了一种基于短多模光纤(MMF)的焦平面波前传感器(FPWFS),能够在适度宽带照明下工作。通过将畸变的焦平面场耦合到长度小于1厘米的MMF中,我们在近红外波长处实现了10纳米带宽范围内的模式干涉保持。产生的输出强度图样编码了瞳孔相位信息,从而可以通过神经网络实现波前恢复。我们的方法解决了偶次瞳孔相位像差固有的符号模糊性,并使用现成的计算硬件在毫秒级时间尺度上运行,适用于实时自适应光学。与传统瞳孔平面传感器不同,所提出的FPWFS与科学光束共享光路,通过实现波前和焦平面强度同时重建,消除了非共路像差。其简洁性、紧凑性、灵敏度和低成本使其成为下一代天文仪器的有吸引力的候选者。 |
| 2025-10-03 | TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency | null | 随着大型多模态模型(LMMs)的迅速发展,近期的文本到图像(T2I)模型能够生成高质量图像,并对短提示词表现出良好的对齐性。然而,它们在有效理解和遵循长而详细的提示词方面仍然面临挑战,表现出生成不一致的问题。为解决这一挑战,我们引入了LPG-Bench,一个用于评估基于长提示词的文本到图像生成的综合基准。LPG-Bench包含200个精心设计的提示词,平均长度超过250词,接近了几个领先商业模型的输入容量。利用这些提示词,我们从13个最先进的模型中生成了2,600张图像,并进一步进行了全面的人工排序标注。基于LPG-Bench,我们发现最先进的T2I对齐评估指标在基于长提示词的图像生成上与人类偏好表现出较差的一致性。为弥补这一差距,我们引入了一种新颖的零样本度量,称为TIT,它基于文本到图像再到文本的一致性,用于评估长提示词生成的图像。TIT的核心概念是通过直接比较原始提示词与LMM对生成图像产生的描述之间的一致性来量化T2I对齐性,它包括一个高效的基于分数的实现TIT-Score和一个基于大型语言模型(LLM)的实现TIT-Score-LLM。大量实验表明,与CLIP-score、LMM-score等相比,我们的框架与人类判断表现出卓越的一致性,其中TIT-Score-LLM在成对准确率上比最强的基线实现了7.31%的绝对提升。LPG-Bench和TIT方法共同为T2I模型的基准测试和发展提供了更深入的视角。所有资源都将公开可用。 |
| 2025-10-03 | Multimodal Carotid Risk Stratification with Large Vision-Language Models: Benchmarking, Fine-Tuning, and Clinical Insights | null | 颈动脉粥样斑块疾病的可靠风险评估仍然是一个主要的临床挑战,因为它需要以对临床医生透明且可解释的方式整合多样化的临床和影像信息。本研究通过将超声成像 (USI) 与结构化的临床、人口统计学、实验室和蛋白质生物标志物数据相结合,探讨了最先进和近期的大型视觉-语言模型 (LVLM) 在多模态颈动脉斑块评估中的潜力。研究提出了一种通过访谈式问题序列模拟真实诊断场景的框架,并比较了一系列开源LVLM,包括通用型和医学专业调优模型。零样本实验表明,即使LVLM功能强大,也并非所有模型都能准确识别成像模态和解剖结构,同时所有模型在准确的风险分类方面表现不佳。为解决这一局限性,本研究使用低秩适应 (LoRA) 将LLaVa-NeXT-Vicuna适应到超声领域,从而显著改善了卒中风险分层。以文本形式整合多模态表格数据进一步提高了特异性和平衡准确度,与在相同数据集上训练的先前卷积神经网络 (CNN) 基线模型相比,取得了具有竞争力的性能。我们的研究结果突出了LVLM在基于超声的心血管风险预测中的潜力和局限性,强调了多模态整合、模型校准和领域适应对于临床转化的重要性。 |
| 2025-10-03 | SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos | null | 我们提出了SALSA-V,一个多模态视频到音频生成模型,能够从无声视频内容中合成高度同步、高保真的长格式音频。我们的方法引入了一个掩码扩散目标,从而实现音频条件下的生成以及无约束长度音频序列的无缝合成。此外,通过在训练过程中集成一个快捷损失,我们能够在最少八个采样步内快速生成高质量音频样本,为无需专门微调或重新训练的近实时应用铺平了道路。在定量评估和人类听觉研究中,我们证明SALSA-V在视听对齐和与视频内容同步方面显著优于现有最先进的方法。此外,我们在训练过程中使用随机掩码,使我们的模型能够匹配参考音频样本的频谱特征,拓宽了其在拟音生成和声音设计等专业音频合成任务中的适用性。 |
| 2025-10-03 | Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention | link | 尽管多模态大型语言模型(MLLM)具有强大的能力,但由于它们依赖海量的视觉token,因此面临巨大的计算开销。最近的研究探索了token剪枝来缓解这一问题,这些方法通常利用文本-视觉交叉注意力或[\texttt{CLS}]注意力来评估并丢弃冗余的视觉token。在这项工作中,我们指出了这种注意力优先剪枝方法的关键局限性,即它们倾向于保留语义相似的token,从而在高剪枝率下导致性能显著下降。为此,我们提出了{HoloV},这是一种简单而有效、即插即用的视觉token剪枝框架,用于高效推理。与以往的注意力优先方案不同,HoloV从整体角度重新思考了token保留。通过将剪枝预算自适应地分配到不同的空间裁剪区域,HoloV确保所保留的token能够捕获全局视觉上下文,而非孤立的显著特征。这种策略最大限度地减少了表示崩溃,并即使在激进的剪枝下也能保持任务相关信息。实验结果表明,与SOTA方法相比,我们的HoloV在各种任务、MLLM架构和剪枝率上都取得了卓越的性能。例如,搭载HoloV的LLaVA1.5在剪枝88.9%的视觉token后仍保留了95.8%的原始性能,实现了优越的效率-准确性权衡。 |
| 2025-10-02 | Clink! Chop! Thud! – Learning Object Sounds from Real-World Interactions | null | 模型能否区分勺子撞击硬木地板和地毯所发出的声音?日常物体交互会产生与所涉物体相关的独特声音。我们引入发声物体检测任务,以评估模型将这些声音与直接相关的物体关联起来的能力。受人类感知启发,我们的多模态物体感知框架从野外第一视角视频中学习。为了鼓励以物体为中心的方法,我们首先开发了一个自动化流程来计算所涉物体的分割掩码,以在训练期间引导模型的注意力转向交互中最具信息量的区域。一个槽注意力视觉编码器被用于进一步施加物体先验。我们在我们的新任务以及现有的多模态动作理解任务上展示了最先进的性能。 |
| 2025-10-02 | Inferring Dynamic Physical Properties from Video Foundation Models | null | 我们研究从视频中预测动态物理属性的任务。更具体地说,我们考虑需要时间信息才能推断的物理属性:弹跳物体的弹性、流动液体的粘度以及物体在表面滑动时的动摩擦力。为此,我们做出了以下贡献:(i) 我们为每种物理属性收集了一个新的视频数据集,该数据集包含合成训练和测试划分,以及用于真实世界评估的真实划分。(ii) 我们探索了从视频中推断物理属性的三种方法:(a) 一种预言机方法,我们使用经典计算机视觉技术提供本质上反映该属性的视觉线索;(b) 一种简单的读取机制,该机制利用视觉提示和可训练提示向量,在预训练的视频生成和自监督模型上进行交叉注意力;(c) 以及多模态大语言模型(MLLMs)的提示策略。(iii) 我们表明,以生成式或自监督方式训练的视频基础模型取得了相似的性能,尽管落后于预言机方法,并且多模态大语言模型(MLLMs)目前不如其他模型,尽管通过适当的提示可以提高其性能。 |
| 2025-10-02 | VideoNSA: Native Sparse Attention Scales Video Understanding | link | 多模态语言模型中的视频理解仍受限于上下文长度:模型经常错过关键的过渡帧,并且难以在长时间尺度上保持连贯性。为解决此问题,我们将原生稀疏注意力(NSA)应用于视频-语言模型。我们的方法VideoNSA通过在一个包含21.6万视频指令的数据集上进行端到端训练,对Qwen2.5-VL进行了改进。我们采用了一种硬件感知的混合注意力方法,为文本保留密集注意力,同时为视频采用NSA。与令牌压缩和免训练稀疏基线相比,VideoNSA在长视频理解、时间推理和空间基准测试上取得了改进的性能。进一步的消融分析揭示了四个关键发现:(1) 可靠地扩展到128K个令牌;(2) 在固定预算下的最佳全局-局部注意力分配;(3) 任务相关的分支使用模式;以及 (4) 可学习的组合稀疏注意力有助于产生动态注意力汇聚点。 |
| 2025-10-02 | From Behavioral Performance to Internal Competence: Interpreting Vision-Language Models with VLM-Lens | null | 我们推出VLM-Lens,这是一个旨在通过支持从开源VLM前向传播过程中任意层提取中间输出,从而实现对视觉-语言模型(VLM)进行系统性基准测试、分析和解释的工具包。VLM-Lens提供了一个统一的、可YAML配置的接口,该接口屏蔽了模型特有的复杂性,并支持跨越不同VLM的用户友好操作。它目前支持16种最先进的基础VLM及其30多种变体,并且无需改变核心逻辑即可扩展以适应新模型。该工具包易于与各种可解释性与分析方法集成。我们通过两个简单的分析实验展示了其用法,揭示了VLM隐藏表示在跨层和目标概念上的系统性差异。VLM-Lens作为一个开源项目发布,旨在加速社区在理解和改进VLM方面的努力。 |
| 2025-10-02 | MultiModal Action Conditioned Video Generation | link | 当前视频模型由于缺乏细粒度控制,无法胜任世界模型。通用家用机器人需要实时精细运动控制来处理精细任务和紧急情况。在这项工作中,我们引入了细粒度多模态动作来捕捉这种精确控制。我们考虑了本体感觉、动觉、力触觉和肌肉激活等感官。这种多模态感官自然地实现了细粒度交互,而这些交互难以通过文本条件生成模型进行模拟。为了有效模拟细粒度多感官动作,我们开发了一种特征学习范式,旨在对齐这些模态,同时保留每种模态提供的独特信息。我们进一步提出了一种正则化方案,以增强动作轨迹特征在表示复杂交互动态时的因果关系。实验表明,整合多模态感官可以提高模拟精度并减少时间漂移。广泛的消融研究和下游应用证明了我们工作的有效性和实用性。 |
| 2025-10-02 | VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL | null | 随着AI生成视频的快速发展,迫切需要有效的检测工具来缓解虚假信息和声誉损害等社会风险。除了准确分类外,检测模型提供可解释的解释以确保监管机构和最终用户的透明度也至关重要。为了应对这些挑战,我们推出了VidGuard-R1,这是首个通过使用群体相对策略优化(GRPO)微调多模态大语言模型(MLLM)的视频真实性检测器。我们的模型既能提供高精度判断,又能提供富有洞察力的推理。我们构建了一个包含14万真实和AI生成视频的挑战性数据集,这些视频由最先进的生成模型生成,并精心设计了生成过程以最大化鉴别难度。然后,我们使用GRPO和两个专门的奖励模型对Qwen-VL进行微调,这两个奖励模型分别针对时间伪影和生成复杂性。大量实验表明,VidGuard-R1在现有基准上实现了最先进的零样本性能,并通过额外训练将准确率提高到95%以上。案例研究进一步表明,VidGuard-R1能为其预测提供精确且可解释的理由。代码已公开,网址是https://VidGuard-R1.github.io。 |
| 2025-10-02 | microCLIP: Unsupervised CLIP Adaptation via Coarse-Fine Token Fusion for Fine-Grained Image Classification | link | 基于CLIP的视觉-语言模型(VLM)在细粒度图像分类中的无监督适应需要对微观局部线索的敏感性。尽管CLIP表现出强大的零样本迁移能力,但其对粗粒度全局特征的依赖限制了其在细粒度分类任务上的性能。先前的工作通过将大型语言模型(LLM)描述与CLIP的 $\texttt{[CLS]}$标记对齐来注入细粒度知识;然而,这种方法忽略了空间精度。我们提出了microCLIP,这是一个自训练框架,它利用细粒度线索联合优化CLIP的视觉和文本表示。其核心是轻量级TokenFusion模块中的显著性导向注意力池化(SOAP),该模块从图像块嵌入中构建一个显著性引导的$\texttt{[FG]}$标记,并将其与全局$\texttt{[CLS]}$ 标记融合以实现粗粒度-细粒度对齐。为了稳定适应过程,我们引入了一个双头LLM派生分类器:一个冻结分类器,通过多视图对齐为伪标签生成提供稳定的基于文本的先验;以及一个可学习分类器,该分类器从LLM描述初始化并使用TokenFusion进行微调。我们进一步开发了动态知识聚合,它将固定的LLM/CLIP先验与TokenFusion不断演进的逻辑值进行凸组合,以迭代地细化伪标签。这些组件共同作用,揭示了CLIP中潜在的细粒度信号,在13个细粒度基准测试中实现了平均2.90%的持续准确率提升,同时仅需轻量级适应。我们的代码可在https://github.com/sathiiii/microCLIP获取。 |
| 2025-10-02 | From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding | null | 视频大语言模型(VLMs)在各种视觉语言任务上取得了显著成果,然而,其实际应用受限于“大海捞针”问题:原始视频帧产生的大量视觉token会耗尽模型的上下文窗口。现有解决方案通过选择稀疏帧集来缓解此问题,从而减少token数量,但这种逐帧选择丢弃了重要的时间动态信息,导致对运动和事件连续性的推理次优。在这项工作中,我们系统地探讨了时间信息的影响,并证明将选择从孤立的关键帧扩展到关键片段(即短而时间连贯的片段)能够提高视频理解能力。为了在保持固定计算预算的同时适应片段更大的token占用,我们提出了一种自适应分辨率策略,该策略动态平衡空间分辨率和片段长度,确保每个视频的token数量恒定。在三个长视频基准测试上的实验表明,我们免训练的方法F2C在Video-MME、LongVideoBench和MLVU基准测试上分别优于均匀采样高达8.1%、5.6%和10.3%。这些结果强调了在帧选择中保持时间连贯性的重要性,并为将视频大语言模型扩展到真实世界的视频理解应用提供了一条实用的途径。项目网页可在https://guangyusun.com/f2c获取。 |
| 2025-10-02 | DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing | null | 拖拽式图像编辑长期以来一直存在目标区域失真的问题,这主要是因为早期基础模型(如Stable Diffusion)的先验知识不足以将优化的潜在变量投射回自然图像流形上。随着从基于UNet的DDPMs转向具有流匹配的更具可扩展性的DiT(例如SD3.5、FLUX),生成式先验已显著增强,从而推动了各种编辑任务的进展。然而,拖拽式编辑尚未从这些更强的先验中受益。本工作提出了首个有效利用FLUX丰富先验进行拖拽式编辑的框架,命名为DragFlow,并取得了超越基线的显著提升。我们首先发现,直接将基于点的拖拽编辑应用于DiT效果不佳:与UNet高度压缩的特征不同,DiT特征的结构不足以提供可靠的点对点运动监督指导。为了克服这一局限性,DragFlow引入了一种基于区域的编辑范式,其中仿射变换能够实现更丰富、更一致的特征监督。此外,我们集成了预训练的开放域个性化适配器(例如IP-Adapter)以增强主体一致性,同时通过梯度掩码硬约束保留背景保真度。多模态大语言模型(MLLMs)被进一步用于解决任务歧义。为了进行评估,我们构建了一个新颖的基于区域的拖拽基准(ReD Bench),其特点是具有区域级拖拽指令。在DragBench-DR和ReD Bench上的大量实验表明,DragFlow超越了基于点和基于区域的基线,在拖拽式图像编辑领域树立了新的最先进水平。代码和数据集将在发表后公开。 |
| 2025-10-02 | RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning | link | 细粒度视觉推理仍然是多模态大语言模型(MLLM)的核心挑战。最近引入的ReasonMap数据集通过展示即使是先进的MLLM也难以在交通地图等结构化且信息丰富的场景中进行空间推理,凸显了这一差距,这是一项具有明确实践和科学重要性的任务。然而,在这种任务上,标准强化学习(RL)受到稀疏奖励和不稳定优化的阻碍。为了解决这个问题,我们首先构建了ReasonMap-Plus,这是一个通过视觉问答(VQA)任务引入密集奖励信号的扩展数据集,从而能够有效冷启动细粒度视觉理解技能的训练。接着,我们提出了RewardMap,一个旨在提高MLLM视觉理解和推理能力的多阶段RL框架。RewardMap包含两项关键设计。首先,我们引入了一种难度感知奖励设计,该设计整合了细节奖励,直接解决了稀疏奖励问题,同时提供了更丰富的监督。其次,我们提出了一种多阶段RL方案,该方案将训练从简单感知引导至复杂推理任务,提供了一种比传统监督微调(SFT)更有效的冷启动策略。在ReasonMap和ReasonMap-Plus上的实验表明,RewardMap的每个组件都有助于持续的性能提升,而它们的组合产生了最佳结果。此外,使用RewardMap训练的模型在涵盖空间推理、细粒度视觉推理以及超越交通地图的通用任务的6个基准测试中平均提高了3.47%,这强调了其增强的视觉理解和推理能力。 |
| 2025-09-30 | MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation | null | 视觉-语言-动作模型(VLA)通过继承视觉-语言模型(VLM)并学习动作生成,在机器人操作任务中展现了泛化能力。大多数VLA模型侧重于解释视觉和语言以生成动作,而机器人必须在空间-物理世界中感知和交互。这一差距凸显了对机器人特有多感官信息进行全面理解的需求,这对于实现复杂且富接触的控制至关重要。为此,我们引入了一种多感官语言-动作(MLA)模型,该模型协同感知异构感官模态并预测未来的多感官目标,以促进物理世界建模。具体而言,为了增强感知表示,我们提出了一种无编码器的多模态对齐方案,该方案创新性地将大型语言模型本身重新用作感知模块,通过位置对应将2D图像、3D点云和触觉标记对齐,从而直接解释多模态线索。为了进一步增强MLA对物理动力学的理解,我们设计了一种未来多感官生成后训练策略,该策略使MLA能够推理语义、几何和交互信息,为动作生成提供更稳健的条件。在评估中,MLA模型在复杂、富接触的真实世界任务中分别以12%和24%的幅度超越了先前最先进的2D和3D VLA方法,同时还展示了对未见配置的改进泛化能力。项目网站:https://sites.google.com/view/open-mla |
| 2025-09-30 | Query-Kontext: An Unified Multimodal Model for Image Generation and Editing | null | 统一多模态模型 (UMMs) 在文本到图像生成 (T2I) 和编辑 (TI2I) 方面表现出卓越的性能,无论是作为将强大的视觉-语言模型 (VLM) 与基于扩散的生成器耦合的组装式统一框架,还是作为理解和生成模态早期融合的朴素统一多模态模型。我们认为,在当前的统一框架中,多模态生成推理的关键能力(包括指令理解、接地以及用于身份保持和忠实重建的图像引用)与高保真合成本质上纠缠在一起。在这项工作中,我们引入了 Query-Kontext,这是一种新颖的方法,它通过由从多模态输入中编码的语义线索和粗粒度图像条件组成的多模态“kontext”来连接 VLM 和扩散模型。这种设计将多模态生成推理的复杂能力委托给强大的 VLM,同时保留扩散模型用于高质量视觉合成的作用。为此,我们提出了一种三阶段渐进式训练策略。首先,我们通过多模态 kontext token 将 VLM 连接到一个轻量级扩散头部,以释放 VLM 的生成推理能力。其次,我们将此头部扩展到一个大型预训练扩散模型,以增强视觉细节和真实感。最后,我们引入一个低级图像编码器以提高图像保真度,并在下游任务上执行指令微调。此外,我们构建了一个全面的数据管道,整合了真实、合成和开源数据集,涵盖了各种多模态参考到图像场景,包括图像生成、指令驱动编辑、定制生成和多主体组合。实验表明,我们的方法与强大的统一基线相当,甚至在某些情况下优于任务特定的最先进方法。 |
| 2025-09-30 | AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond | link | 多模态模型的快速发展需要能够严格评估其在安全关键、动态真实世界环境中理解和推理能力的基准。我们提出了AccidentBench,一个大规模基准,它结合了车辆事故场景与超越领域(空中和水中的安全关键设置),这些设置强调空间和时间推理(例如,导航、方向、多车辆运动)。该基准包含大约2000个视频和超过19000个人工标注的问答对,涵盖多种视频长度(短/中/长)和难度级别(易/中/难)。任务系统地探究核心能力:时间、空间和意图的理解与推理。通过统一以事故为中心的交通场景与更广泛的空中和水中的安全关键场景,AccidentBench提供了一个全面、物理基础的测试平台,用于评估模型在真实世界变异性下的表现。对最先进模型(例如Gemini-2.5 Pro和GPT-5)的评估表明,即使是最强的模型也仅在最难的任务和最长的视频上达到约18%的准确率,揭示了在真实世界的时间、空间和意图推理方面存在的巨大差距。AccidentBench旨在揭示这些关键差距,并推动多模态模型的发展,使其更安全、更鲁棒,并更好地应对真实世界的安全关键挑战。代码和数据集可在以下链接获取:https://github.com/SafeRL-Lab/AccidentBench |
| 2025-09-30 | Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training | null | 大语言模型(LLM)尽管仅通过文本进行训练,却出人意料地发展出丰富的视觉先验,这些先验使得潜在的视觉能力得以解锁,仅需相对少量多模态数据即可用于视觉任务,在某些情况下甚至无需见过图像就能执行视觉任务。通过系统分析,我们揭示了视觉先验——即在语言预训练期间获得的关于视觉世界的隐式、涌现知识——由可分离的感知先验和推理先验组成,它们具有独特的扩展趋势和来源。我们发现大语言模型潜在的视觉推理能力主要通过在以推理为中心的数据(如代码、数学、学术文本)上进行预训练而发展,并逐步扩展。这种从语言预训练中获得的推理先验是可迁移的,并且普遍适用于视觉推理。相比之下,感知先验更广泛地从通用语料库中涌现,且感知能力对视觉编码器和视觉指令微调数据更为敏感。同时,描述视觉世界的文本也至关重要,尽管其性能影响会迅速饱和。借鉴这些见解,我们提出了一种以数据为中心的方法来预训练具有视觉感知能力的大语言模型,并在1万亿(1T)token规模的预训练中进行了验证。我们的发现基于超过100项消耗50万GPU小时的对照实验,涵盖了多模态大语言模型(MLLM)构建的完整流程——从大语言模型预训练到视觉对齐和监督式多模态微调——跨越五种模型规模、多种数据类别和混合方式以及多种适应性设置。除了我们的主要发现,我们还提出并研究了若干假设,并引入了多级存在基准(MLE-Bench)。综上所述,这项工作提供了一种从语言预训练中有意培养视觉先验的新方法,为下一代多模态大语言模型铺平了道路。 |
| 2025-09-30 | Video Object Segmentation-Aware Audio Generation | link | 现有的多模态音频生成模型通常缺乏精确的用户控制,这限制了它们在专业拟音工作流程中的适用性。具体而言,这些模型侧重于整个视频,没有提供精确的方法来优先处理场景中的特定对象,从而生成不必要的背景声音或将焦点放在错误的对象上。为了解决这一空白,我们引入了新颖的视频对象分割感知音频生成任务,该任务明确地将声音合成条件设定在对象级别的分割图上。我们提出了SAGANet,这是一个新的多模态生成模型,它通过利用视觉分割掩码以及视频和文本线索,实现了可控的音频生成。我们的模型为用户提供了对音频生成的细粒度且视觉局部化的控制。为了支持这项任务并进一步研究分割感知的拟音,我们提出了Segmented Music Solos,这是一个包含分割信息的乐器演奏视频基准数据集。我们的方法相比当前最先进的方法显示出显著改进,并为可控、高保真的拟音合成设定了新标准。代码、示例和Segmented Music Solos可在https://saganet.notion.site获取。 |
| 2025-09-30 | Exploring Large Language Model as an Interactive Sports Coach: Lessons from a Single-Subject Half Marathon Preparation | null | 大型语言模型(LLMs)正在成为日常助手,但它们作为长期虚拟教练的角色尚未得到充分探索。这项为期两个月的单受试者案例研究记录了LLM指导的半程马拉松准备过程(2025年7月至9月)。通过基于文本的交互和消费者应用日志,LLM充当了规划者、解释者和偶尔的激励者。表现从以每公里7分54秒的速度维持2公里提高到以每公里6分30秒的速度完成21.1公里,并在步频、配速心率耦合和效率指数趋势方面有所提高。尽管缺乏对照组限制了因果归因,结果仍表明取得了安全且可衡量的进展。同时,也存在明显的不足,包括没有实时传感器集成、仅限文本反馈、用户主动发起的激励支持以及有限的个性化或安全防护措施。我们提出了下一代系统的设计要求,包括带有明确防护措施的持久运动员模型、设备上的多模态传感、音频、触觉、视觉反馈、主动激励支架以及保护隐私的个性化。这项研究提供了扎实的证据,并为LLM从回顾性建议者发展为闭环指导伙伴提供了一个设计议程。 |
| 2025-09-30 | OceanGym: A Benchmark Environment for Underwater Embodied Agents | link | 我们引入OceanGym,这是首个针对海洋水下具身智能体的综合性基准,旨在推动人工智能在最具挑战性的真实世界环境之一中发展。与陆地或空中领域不同,水下环境带来了极端的感知和决策挑战,包括低能见度、动态洋流,使得智能体的有效部署异常困难。OceanGym包含八个真实的任务领域和一个由多模态大语言模型(MLLMs)驱动的统一智能体框架,该框架集成了感知、记忆和序贯决策。智能体需要在这些严苛条件下理解光学和声纳数据,自主探索复杂环境,并完成长周期目标。大量实验揭示了最先进的MLLM驱动智能体与人类专家之间存在的显著差距,凸显了海洋水下环境中感知、规划和适应性的持续困难。通过提供一个高保真、严格设计的平台,OceanGym为开发鲁棒的具身人工智能并将其能力迁移到真实的自主海洋水下航行器建立了测试平台,标志着向能够在地球上最后未探索的边疆之一中运行的智能智能体迈出了决定性一步。代码和数据可在https://github.com/OceanGPT/OceanGym获取。 |
| 2025-09-30 | STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models | null | 统一多模态理解与生成模型(UMM)在理解和生成任务中均展现出卓越的能力。然而,我们发现UMM中生成与理解耦合产生了一个漏洞。攻击者可以利用生成功能制作一个信息丰富的对抗性图像,然后利用理解功能在单次传递中吸收该图像,我们称之为跨模态生成注入(CMGI)。当前针对恶意指令的攻击方法通常局限于单一模态,并且依赖于带有语义漂移的提示重写,导致UMM的独特漏洞尚未被探索。我们提出了STaR-Attack,这是首个利用UMM独特安全弱点且不产生语义漂移的多轮越狱攻击框架。具体来说,我们的方法在时空上下文中定义了一个与目标查询强相关的恶意事件。STaR-Attack利用三幕叙事理论,生成事件前和事件后场景,同时将恶意事件隐藏为高潮。执行攻击策略时,最初两轮利用UMM的生成能力为这些场景生成图像。随后,通过利用其理解能力引入了一个基于图像的问题猜测和回答游戏。STaR-Attack将原始恶意问题嵌入到良性候选项中,迫使模型根据叙事上下文选择并回答最相关的问题。大量实验表明,STaR-Attack持续超越现有方法,在Gemini-2.0-Flash上攻击成功率(ASR)高达93.06%,并超过了最强的现有基线FlipAttack。我们的工作揭示了一个关键但尚未充分开发的漏洞,并强调了UMM中安全对齐的必要性。 |
| 2025-09-30 | PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer | link | 视频异常检测(VAD)是一项关键但极具挑战性的任务,原因在于真实世界场景的复杂性和多样性。先前方法通常依赖于领域特定的训练数据和手动调整,在应用于新场景和未曾见过的异常类型时,导致高昂的人力成本和有限的泛化能力。因此,我们旨在实现通用型VAD,即无需训练数据或人工干预即可自动处理任何场景和任何异常类型。在这项工作中,我们提出了PANDA,一种基于多模态大语言模型(MLLMs)的智能体AI工程师。具体而言,我们通过全面设计四项关键能力来构建PANDA:(1) 自适应场景感知策略规划,(2) 目标驱动的启发式推理,(3) 工具增强的自我反思,以及(4) 自我改进的记忆链。具体来说,我们开发了一种自适应场景感知RAG(检索增强生成)机制,使PANDA能够检索异常特异性知识用于异常检测策略规划。接着,我们引入了一种潜在异常引导的启发式提示策略以提高推理精度。此外,PANDA采用了一种渐进式反思机制,结合一套上下文感知工具,以在复杂场景中迭代地优化决策。最后,一种记忆链机制使PANDA能够利用历史经验以持续改进性能。大量实验表明,PANDA在多场景、开放集和复杂场景设置下无需训练和人工干预即可达到最先进的性能,验证了其通用且鲁棒的异常检测能力。代码已发布于https://github.com/showlab/PANDA。 |
| 2025-09-30 | MR $^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval | null | 多模态检索正成为现代AI应用的关键组成部分,然而其评估却滞后于更真实和更具挑战性场景的需求。现有基准主要探究浅层语义对应(例如,物体-文本匹配),未能评估捕捉视觉和文本信息之间复杂关系所需的更深层次推理。为解决这一差距,我们引入了MR$^2$-Bench,一个用于多模态检索的推理密集型基准。MR$^2$-Bench具有以下关键价值:1) 所有任务均由推理驱动,超越了浅层匹配,有效评估模型进行逻辑、空间和因果推理的能力;2) 它包含多样化的多模态数据,例如自然图像、图表和视觉谜题,从而实现对不同内容类型的全面评估;3) 它支持包含多张图像的复杂查询和文档,并涵盖多样化的检索场景,更准确地反映现实世界应用。我们的基准包含1,309个精心策划的查询,来源于手动收集和标注,或对公开数据集的筛选整合。尽管在现有基准上取得了良好结果,但当前最先进的模型在MR$^2$-Bench上仍然表现不佳:例如,领先的Seed1.6-Embedding模型在MMEB上达到77.78的Recall@1,但在MR$^2$ -Bench上仅为9.91。这一巨大的性能差距凸显了我们的基准带来的更大挑战,以及推理密集型多模态检索领域进一步发展的迫切需求。数据集和评估代码将公开提供在https://github.com/VectorSpaceLab/MR2-Bench。 |
| 2025-09-26 | See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation | link | 我们提出了视、指、飞 (SPF) 框架,这是一个基于视觉-语言模型 (VLM) 的免训练航空视觉-语言导航 (AVLN) 框架。SPF 能够基于任何形式的自由指令在任何类型的环境中导航到任何目标。与将动作预测视为文本生成任务的现有基于 VLM 的方法不同,我们的关键见解是将用于 AVLN 的动作预测视为一个 2D 空间定位任务。SPF 利用 VLM 将模糊的语言指令分解为在输入图像上的 2D 路点的迭代标注。结合预测的行进距离,SPF 将预测的 2D 路点转换为 3D 位移向量,作为无人机 (UAV) 的动作指令。此外,SPF 还自适应地调整行进距离,以促进更高效的导航。值得注意的是,SPF 以闭环控制方式执行导航,使无人机能够在动态环境中跟踪动态目标。SPF 在 DRL 仿真基准中创造了新的技术水平,其性能比之前最好的方法高出 63% 的绝对优势。在广泛的真实世界评估中,SPF 大幅超越了强大的基线方法。我们还进行了全面的消融研究,以突出我们设计选择的有效性。最后,SPF 对不同的 VLM 展现出显著的泛化能力。项目页面:https://spf-web.pages.dev |
| 2025-09-26 | VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing | null | 大型语言模型和多模态系统日益增强的能力激发了人们对语音优先AI助手的兴趣,然而现有基准不足以评估这些系统的全部能力。我们引入了VoiceAssistant-Eval,这是一个综合基准,旨在评估AI助手在听觉、口语和视觉方面的能力。VoiceAssistant-Eval包含10,497个精选示例,涵盖13个任务类别。这些任务包括用于听觉的自然声音、音乐和口语对话;用于口语的多轮对话、角色扮演模仿和各种场景;以及用于视觉的高度异构图像。为了展示其效用,我们评估了21个开源模型和GPT-4o-Audio,测量了响应内容和语音的质量及其一致性。结果揭示了三个关键发现:(1) 专有模型并非普遍优于开源模型;(2) 大多数模型擅长口语任务但在音频理解方面滞后;(3) 精心设计的小型模型可以与大得多的模型相媲美。值得注意的是,中型Step-Audio-2-mini (7B) 的听觉准确率是LLaMA-Omni2-32B-Bilingual的两倍多。然而,挑战依然存在:多模态(音频加视觉)输入和角色扮演语音模仿任务对当前模型来说仍然困难,并且在鲁棒性和安全对齐方面仍然存在显著差距。VoiceAssistant-Eval识别了这些差距,并为评估和指导下一代AI助手的开发建立了严格的框架。代码和数据将发布在https://mathllm.github.io/VoiceAssistantEval/。 |
| 2025-09-26 | Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs | null | 人类能否识别AI生成(伪造)的视频并提供有根据的理由?尽管视频生成模型已快速发展,但一个关键维度——人类能否在生成的视频中检测到深度伪造痕迹,即揭示视频为机器生成的时空有据的视觉伪影——却在很大程度上被忽视了。我们引入了DeeptraceReward,首个细粒度、时空感知基准,用于标注人类感知的伪造痕迹以作为视频生成奖励。该数据集包含4.3K条详细标注,涵盖3.3K个高质量生成视频。每条标注都提供了自然语言解释,精确指出包含感知痕迹的边界框区域,并标记了精确的开始和结束时间戳。我们将这些标注整合为9个主要类别的深度伪造痕迹,这些痕迹使人类将视频识别为AI生成,并训练多模态语言模型(LMs)作为奖励模型以模仿人类的判断和定位。在DeeptraceReward上,我们的7B奖励模型在伪造线索识别、定位和解释方面平均优于GPT-5 34.7%。有趣的是,我们观察到一个一致的难度梯度:二元真伪分类比细粒度深度伪造痕迹检测容易得多;在后者中,性能从自然语言解释(最容易)到空间定位,再到时间标注(最难)逐渐下降。通过突出人类感知的深度伪造痕迹,DeeptraceReward提供了一个严谨的测试平台和训练信号,用于实现具有社会意识和值得信赖的视频生成。 |
| 2025-09-26 | WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning | null | 由大型语言模型(LLM)驱动的智能体系统在仓库级别代码生成任务上表现出了令人印象深刻的性能。然而,对于严重依赖视觉效果和用户交互反馈的网站代码库生成等任务,当前的代码智能体仅依赖简单的代码执行进行反馈和验证。这种方法未能捕捉生成代码的实际质量。在本文中,我们提出了WebGen-Agent,这是一种新颖的网站生成智能体,它利用全面多层次的视觉反馈来迭代生成和完善网站代码库。视觉语言模型(VLM)会生成关于网站截图和GUI智能体测试的详细且富有表现力的文本描述和建议,以及量化其质量的分数。截图和GUI智能体分数进一步与回溯和择优机制相结合,从而提升了智能体的性能。利用WebGen-Agent工作流中固有的准确视觉分数,我们进一步引入了带有截图和GUI智能体反馈的Step-GRPO,以提高LLM作为WebGen-Agent推理引擎的能力。通过将每一步的截图和GUI智能体分数用作Step-GRPO中的奖励,我们提供了一个密集且可靠的过程监督信号,有效地提高了模型的网站生成能力。在WebGen-Bench数据集上,WebGen-Agent将Claude-3.5-Sonnet的准确率从26.4%提高到51.9%,并将其外观得分从3.0提高到3.9,超越了之前最先进的智能体系统。此外,我们的Step-GRPO训练方法将Qwen2.5-Coder-7B-Instruct的准确率从38.9%提高到45.4%,并将其外观得分从3.4提高到3.7。 |
| 2025-09-26 | LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision | null | 高质量、领域专用数据集的构建是部署鲁棒视觉系统的主要瓶颈,在探索庞大、未标注的数据湖时,需要在数据质量、多样性和成本之间进行复杂的权衡。我们引入了Labeling Copilot,这是首个用于计算机视觉的数据策划深度研究智能体。一个由大型多模态语言模型驱动的中央编排智能体,利用多步推理执行涵盖三项核心能力的专用工具:(1) 校准发现从大型数据存储库中获取相关的、分布内的数据;(2) 可控合成通过鲁棒过滤为稀有场景生成新数据;(3) 共识标注通过结合非极大值抑制和投票的新颖共识机制编排多个基础模型,生成准确的标签。我们的大规模验证证明了Labeling Copilot各组件的有效性。共识标注模块在目标发现方面表现出色:在密集的COCO数据集上,它平均每图像生成14.2个候选提议——几乎是7.4个真实目标的两倍——最终标注mAP达到37.1%。在网络规模的Open Images数据集上,它解决了极端的类别不平衡问题,发现了903个新的边界框类别,将其能力扩展到总计超过1500个类别。同时,我们的校准发现工具在千万级样本规模上进行测试,采用一种主动学习策略,在样本效率相同的情况下,计算效率比替代方案高出40倍。这些实验验证了结合优化、可扩展工具的智能体工作流为策划工业规模数据集提供了坚实的基础。 |
| 2025-09-26 | Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting | null | 现代视觉语言流水线由在大规模图像文本语料库上训练的RGB视觉编码器驱动。尽管这些流水线实现了令人印象深刻的零样本能力和强大的跨任务迁移,但它们仍然继承了像素域的两种结构性低效:(i) 从边缘设备向云端传输密集RGB图像耗能且成本高昂,以及 (ii) 基于图像块的标记化导致序列长度爆炸式增长,给注意力预算和上下文限制带来压力。我们探索2D高斯溅射(2DGS)作为一种用于对齐的替代视觉基底:它是一种紧凑、空间自适应的表示,通过一组彩色各向异性高斯函数来参数化图像。我们开发了一个采用结构化初始化、亮度感知剪枝和批处理CUDA核函数的可扩展2DGS流水线,相比于之前的实现,实现了超过90倍的拟合速度提升和大约97%的GPU利用率。我们通过重用一个冻结的基于RGB的Transformer主干网络,配合一个轻量级溅射感知输入分支和一个Perceiver重采样器,将对比语言图像预训练(CLIP)进一步适应到2DGS,仅训练了总参数的大约7%。在大型DataComp子集上,GS编码器取得了有意义的ImageNet-1K零样本性能,同时相对于像素压缩输入3到20倍。尽管目前准确性落后于RGB编码器,但我们的结果将2DGS确立为一种可行的多模态基底,明确了架构瓶颈,并为未来在边缘云学习中实现既具有强大语义能力又传输高效的表示开辟了一条道路。 |
| 2025-09-26 | MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data | null | 高效检测人类与普适机器人交互的意图对于有效的人机交互(HRI)和协作至关重要。过去十年中,深度学习在该领域获得了广泛关注,大多数现有方法依赖多模态输入,例如RGB结合深度(RGB-D),将感知数据的时间序列窗口分类为交互或非交互。与此不同的是,我们提出了一种新颖的仅基于RGB的管道,用于以帧级精度预测人类交互意图,从而实现更快的机器人响应和更高的服务质量。意图预测的一个关键挑战是真实世界HRI数据集中固有的类别不平衡,这会阻碍模型的训练和泛化能力。为解决这个问题,我们引入了MINT-RVAE,一种合成序列生成方法,以及新的损失函数和训练策略,从而增强了模型在样本外数据上的泛化能力。我们的方法实现了最先进的性能(AUROC: 0.95),优于现有工作(AUROC: 0.90-0.912),同时仅需要RGB输入并支持精确的帧起始预测。最后,为了支持未来的研究,我们公开了我们的新数据集,其中包含人类交互意图的帧级标注。 |
| 2025-09-26 | UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration | null | 大型多模态模型(LMMs)和云端AI代理的快速进展正在将人机协作转变为双向、多模态的交互。然而,现有编解码器仍针对单模态、单向通信进行优化,导致在传统压缩-传输-重建流水线中反复降质。为解决这一局限性,我们提出了UniMIC,一个统一的基于token的多模态交互编码框架,它连接了边缘设备和云端AI代理。UniMIC不传输原始像素或纯文本,而是采用紧凑的token化表示作为通信介质,实现了高效的低比特率传输,同时保持与LMM的兼容性。为进一步增强压缩,轻量级基于Transformer的熵模型具有场景特定的设计——通用、掩码和文本条件——有效地最小化了token间的冗余。在文本到图像生成、文本引导的图像修复、图像扩展和视觉问答等任务上的大量实验表明,UniMIC实现了显著的比特率节省,并且在超低比特率(<0.05bpp)下仍保持鲁棒性,而不影响下游任务性能。这些结果确立了UniMIC作为下一代多模态交互通信的一种实用且前瞻性的范式。 |
| 2025-09-26 | JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation | link | 视觉语言导航(VLN)要求具身智能体在自然语言指令和连续视频流的引导下,在未见环境中进行导航。VLN的最新进展得益于多模态大语言模型(MLLM)强大的语义理解能力。然而,这些方法通常依赖显式语义记忆,例如构建文本认知地图或存储历史视觉帧。这类方法存在空间信息损失、计算冗余和内存膨胀等问题,阻碍了高效导航。受人类导航中隐式场景表示的启发,类似于左脑的语义理解和右脑的空间认知,我们提出了JanusVLN,一种新颖的VLN框架,其特点是采用双隐式神经记忆,将空间几何记忆和视觉语义记忆建模为独立、紧凑且固定大小的神经表示。该框架首先扩展了MLLM,以融入来自空间几何编码器的3D先验知识,从而增强了仅基于RGB输入的模型的空间推理能力。接着,将来自空间几何编码器和视觉语义编码器的历史键值缓存构建成双隐式记忆。通过仅保留初始窗口和滑动窗口中标记的键值对,避免了冗余计算,实现了高效的增量更新。大量实验表明,JanusVLN优于20多种最新方法,取得了最先进的性能。例如,与使用多种数据类型作为输入的方法相比,成功率提高了10.5-35.5;与使用更多RGB训练数据的方法相比,成功率提高了3.6-10.8。这表明所提出的双隐式神经记忆作为一种新颖范式,为未来的VLN研究探索了有前景的新方向。我们的项目页面:https://miv-xjtu.github.io/JanusVLN.github.io/。 |
| 2025-09-26 | Color Names in Vision-Language Models | null | 颜色是人类视觉感知的一个基本维度,也是交流物体和场景的主要方式。随着视觉语言模型(VLMs)日益普及,了解它们是否像人类一样命名颜色对于有效的人机交互至关重要。我们首次对VLMs的颜色命名能力进行了系统性评估,通过使用957个颜色样本在五个代表性模型上复现了经典的颜色命名方法。我们的结果表明,尽管VLMs在经典研究中的原型颜色上取得了高准确度,但在扩展的、非原型颜色集上的性能显著下降。我们识别出在所有模型中一致出现的21个常用颜色词,揭示了两种不同的方法:约束型模型主要使用基本术语,而扩展型模型则采用系统性明度修饰符。对九种语言的跨语言分析表明存在严重的训练不平衡,偏向英语和汉语,其中色相是颜色命名决策的主要驱动因素。最后,消融研究揭示,语言模型架构显著影响颜色命名,且独立于视觉处理能力。 |
| 2025-09-25 | Nova: Real-Time Agentic Vision-Language Model Serving with Adaptive Cross-Stage Parallelization | null | 本文提出 Nova,一个实时调度框架,用于在单张 GPU 上服务代理式视觉语言模型 (VLM),并在平衡单请求延迟和整体请求处理吞吐量方面表现出色。我们的设计首先通过利用 VLM 在执行过程中异构的资源需求,并引入弹性 GPU 空间分区到视觉编码、LLM 预填充和 LLM 解码阶段之间,实现有效的流水线化,从而最大化利用计算和内存资源。在此基础上,我们引入了一种实时调度算法,该算法根据对延迟-吞吐量权衡的帕累托最优分析,自适应校准各阶段的资源分配,使系统在动态请求负载下保持响应能力和资源效率。为了进一步缓解 GPU 内存压力,我们为视觉编码器设计了一种轻量级权重卸载策略,该策略在最小化内存开销的同时保持推理效率。在合成和真实世界代理工作负载上的广泛评估表明,Nova 始终优于最先进的基线,将最大延迟提高了高达 23.3%,同时保持了有竞争力的吞吐量。 |
| 2025-09-25 | DisCoCLIP: A Distributional Compositional Tensor Network Encoder for Vision-Language Understanding | null | 近期的视觉-语言模型擅长大规模图像-文本对齐,但往往忽视语言的组合结构,导致在依赖词序和谓词-论元结构的任务上表现不佳。我们引入了DisCoCLIP,一个多模态编码器,它结合了冻结的CLIP视觉Transformer和一个新颖的张量网络文本编码器,该编码器显式编码句法结构。句子通过组合范畴语法解析器进行解析,以生成分布词张量,这些张量的收缩反映了句子的语法推导。为了保持模型高效,高阶张量通过张量分解进行因式分解,将参数数量从数千万减少到不到一百万。DisCoCLIP经过自监督对比损失的端到端训练,显著提高了对动词语义和词序的敏感性:它将CLIP在SVO-Probes上的动词准确率从77.6%提高到82.4%,将ARO归因和关系分数分别提高了9%以上和4%以上,并在新引入的SVO-Swap基准测试中达到了93.7%。这些结果表明,通过张量网络嵌入显式语言结构能够产生可解释、参数高效的表示,从而大幅提高视觉-语言任务中的组合推理能力。 |
| 2025-09-25 | MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources | link | 大型多模态推理模型取得了快速进展,但其发展受到两个主要限制的制约:缺乏开放的、大规模的、高质量的长链式思考(CoT)数据,以及强化学习(RL)算法在后训练中的不稳定性。群体相对策略优化(GRPO)作为RL微调的标准框架,在奖励方差较低时容易出现梯度消失,这会削弱优化信号并损害收敛性。本工作做出三项贡献:(1) 我们提出了方差感知采样(VAS),这是一种由方差促进分数(VPS)指导的数据选择策略,它结合了结果方差和轨迹多样性,以促进奖励方差并稳定策略优化。(2) 我们发布了大规模的、精心策划的资源,包含约160万条长CoT冷启动数据和约1.5万对RL问答数据,旨在确保质量、难度和多样性,以及一个完全可复现的端到端训练代码库。(3) 我们开源了一系列多尺度多模态推理模型,为社区建立了标准化基线。在数学推理基准上的实验证明了精心策划的数据和所提出的VAS的有效性。全面的消融研究和分析提供了对每个组件贡献的进一步见解。此外,我们在理论上证实奖励方差是期望策略梯度幅度的下界,而VAS作为实现这一保证的实用机制。我们的代码、数据和检查点可在https://github.com/LengSicong/MMR1获取。 |
| 2025-09-25 | Un-Doubling Diffusion: LLM-guided Disambiguation of Homonym Duplication | link | 同形异义词是拼写相同但含义不同的词语,对许多生成模型构成了挑战。当提示中出现同形异义词时,扩散模型可能会同时生成该词的多个含义,这被称为同形异义词重复现象。这个问题因英语中心偏见而变得更加复杂,这种偏见在文本到图像模型流水线之前包含了一个额外的翻译步骤。结果是,即使在原始语言中不是同形异义词的词语,在翻译成英语后也可能变成同形异义词并失去其含义。在本文中,我们介绍了一种测量重复率的方法,并使用利用视觉-语言模型(VLM)的自动评估和人工评估两种方式,对不同的扩散模型进行了评估。此外,我们研究了通过提示扩展来缓解同形异义词重复问题的方法,证明了这种方法也能有效减少与英语中心偏见相关的重复现象。自动评估流水线的代码已公开提供。 |
| 2025-09-25 | Semantic Edge-Cloud Communication for Real-Time Urban Traffic Surveillance with ViT and LLMs over Mobile Networks | null | 实时城市交通监控对于智能交通系统(ITS)至关重要,旨在确保智慧城市中的道路安全、优化交通流量、跟踪车辆轨迹并预防碰撞。在城市环境中部署边缘摄像头是监控路况的标准做法。然而,将这些摄像头与智能模型集成需要对动态交通场景有深入理解,并需要一个响应式接口以供用户交互。尽管多模态大语言模型(LLMs)可以解释交通图像并生成信息丰富的响应,但由于其高计算需求,在边缘设备上部署它们是不可行的。因此,LLM推理必须在云端进行,这需要将视觉数据从边缘传输到云端,但这一过程受限于带宽不足,可能导致延迟,从而损害实时性能。为解决这一挑战,我们提出了一种语义通信框架,该框架显著降低了传输开销。我们的方法包括使用YOLOv11检测感兴趣区域(RoIs),裁剪相关图像片段,并使用视觉Transformer(ViT)将其转换为紧凑的嵌入向量。这些嵌入随后被传输到云端,在云端,图像解码器重建裁剪后的图像。重建后的图像由多模态LLM处理,以生成交通状况描述。与原始裁剪图像的93%准确率相比,该方法实现了99.9%的数据传输量减少,同时对重建的裁剪图像保持89%的LLM响应准确率。我们的结果表明了ViT和LLM辅助的边缘-云语义通信在实时交通监控中的效率和实用性。 |
| 2025-09-25 | Human-like Navigation in a World Built for Humans | link | 在未曾到访过的人造环境中导航时——例如办公楼——人类会采用阅读标志和向他人问路等行为。这些行为通过减少在大片区域中搜索的需要,帮助人类高效地到达目的地。现有的机器人导航系统缺乏执行此类行为的能力,因此在大型环境中导航效率低下。我们提出了ReasonNav,这是一个模块化导航系统,它通过利用视觉语言模型(VLM)的推理能力,集成了这些类人导航技能。我们设计了基于导航地标的紧凑输入和输出抽象,使VLM能够专注于语言理解和推理。我们在真实和模拟导航任务中评估了ReasonNav,并表明该智能体成功地运用了高阶推理,以在大型复杂建筑中高效导航。 |
| 2025-09-25 | Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization’s Impact on CLIP Beyond Accuracy | null | 强大的视觉-语言模型(VLM),如CLIP,的零样本泛化能力为安全相关任务(如分布外(OOD)检测)带来了新范式。然而,对CLIP的计算高效和可靠部署至关重要的其他方面仍被忽视。特别是,量化对CLIP性能超出准确性范围的影响仍未得到充分探索。本工作对CLIP模型上的量化进行了大规模评估,不仅评估了分布内准确性,还评估了一整套全面的可靠性指标,并揭示了由预训练来源驱动的反直觉结果。我们证明,量化持续改善了通常置信度不足的预训练模型的校准性,同时经常使其在置信度过高的变体上性能下降。有趣的是,校准性的下降并不排除在其他可靠性指标上取得进展;我们发现,对于这些校准性差的模型,OOD检测仍能得到改善。此外,我们确定了特定的量化感知训练(QAT)方法,这些方法在零样本准确性、校准性和OOD鲁棒性方面实现了同步提升,挑战了严格的效率-性能权衡的观点。这些发现通过超越其传统作用地利用量化,为解决部署高效、可靠和鲁棒VLM的多目标问题提供了重要见解。 |
| 2025-09-25 | Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction | null | 关系抽取 (RE) 旨在识别非结构化文本中实体间的语义关系。尽管最近的研究将传统的关系抽取扩展到多模态场景,但大多数方法仍采用基于分类的范式,通过融合多模态特征将关系表示为离散标签。这种范式存在两个显著局限性:(1) 它忽略了实体类型和位置线索等结构约束,以及 (2) 它缺乏语义表达能力以实现细粒度关系理解。我们提出了检索优先于分类 (ROC),这是一种新颖的框架,它将多模态关系抽取重新表述为由关系语义驱动的检索任务。ROC通过多模态编码器集成实体类型和位置信息,使用大型语言模型将关系标签扩展为自然语言描述,并通过基于语义相似度的对比学习对齐实体-关系对。实验表明,我们的方法在基准数据集 MNRE 和 MORE 上取得了最先进的性能,并展现出更强的鲁棒性和可解释性。 |
| 2025-09-25 | CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization | null | 计算机辅助设计 (CAD) 是工业原型设计的核心组成部分,其中模型并非由原始坐标定义,而是由草图和拉伸等构建序列定义。这种序列结构能够实现高效的原型初始化和后续编辑。文本引导的CAD原型设计统一了文本到CAD生成和CAD编辑,有望简化整个设计流程。然而,现有研究尚未探索这种设置,这主要是因为标准的大型语言模型 (LLM) 分词器将CAD序列分解为自然语言的词片段,未能捕获基元级别的CAD语义,从而阻碍了注意力模块对几何结构进行建模。我们推测,一种与CAD的基元和结构特性相吻合的多模态分词策略可以提供更有效的表示。为此,我们提出了CAD-Tokenizer,这是一个使用基于序列的VQ-VAE(结合基元级池化和受限解码)的框架,通过模态特定的标记来表示CAD数据。这种设计生成了紧凑的、基元感知的表示,与CAD的结构特性相符。将CAD-Tokenizer应用于统一的文本引导CAD原型设计,显著提高了指令遵循能力和生成质量,在定量和定性性能方面均优于通用LLM和任务特定基线。 |
| 2025-09-25 | Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning | null | 复杂任务中的在线强化学习是耗时的,因为需要大量的交互步骤来学习最优Q函数。视觉-语言动作(VLA)策略代表了解决多样化任务的一个有前景的方向;然而,它们在低层控制上的性能仍然有限,并且有效部署通常需要特定任务的专家演示进行微调。在本文中,我们提出了VARL(VLM作为在线强化学习的动作建议者),这是一个利用视觉-语言模型(VLM)领域知识为强化学习智能体提供动作建议的框架。与以往方法不同,VARL提供的是动作建议而非设计启发式奖励,从而保证了最优性和收敛性不变。所建议的动作增加了样本多样性,并最终提高了样本效率,特别是在稀疏奖励任务中。为了验证VARL的有效性,我们在多样化的环境和智能体设置中对其进行了评估。结果表明,VARL在不引入显著计算开销的情况下大幅提高了样本效率。这些优势使VARL成为一个通用的在线强化学习框架,并使得在现实世界环境中从零开始直接应用强化学习成为可能。 |
| 2025-09-23 | DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models’ Understanding on Indian Culture | null | 我们引入了DRISHTIKON,这是一个首个此类专门围绕印度文化的多模态多语言基准,旨在评估生成式人工智能系统的文化理解能力。与现有通用或全球范围的基准不同,DRISHTIKON提供了对印度多样化地区深入、细粒度的覆盖,涵盖15种语言,覆盖所有邦和联邦属地,并整合了超过64,000个对齐的文本-图像对。该数据集捕捉了丰富的文化主题,包括节日、服饰、美食、艺术形式和历史遗产等等。我们评估了广泛的视觉-语言模型(VLM),包括开源的小型和大型模型、专有系统、推理专用VLM以及面向印度的模型,涵盖零样本和思维链设置。我们的结果揭示了当前模型在对文化根植的多模态输入进行推理时的关键局限性,特别是对于低资源语言和记录较少的传统。DRISHTIKON填补了包容性人工智能研究中的一个重要空白,为推动具有文化意识、多模态能力的语言技术发展提供了一个强大的测试平台。 |
| 2025-09-23 | ConViS-Bench: Estimating Video Similarity Through Semantic Concepts | null | 两个视频相似意味着什么?视频如果根据其描绘的动作来判断,可能看起来相似,但如果根据拍摄地点来评估,则可能完全不同。虽然人类在比较视频时会自然地考虑不同方面,但这种能力尚未得到充分研究,并对那些通常依赖于广泛全局相似性分数的模型构成了挑战。具有视频理解能力的大型多模态模型(LMMs)为在视频比较任务中利用自然语言开辟了新机遇。我们引入了基于概念的视频相似性估计(ConViS),这是一项新颖的任务,通过计算一组预定义关键语义概念上的可解释相似性分数来比较视频对。ConViS 允许对视频相似性进行类人推理,并支持诸如概念条件视频检索等新应用。为了支持这项任务,我们还引入了ConViS-Bench,这是一个新的基准,包含跨多个领域的精心标注视频对。每对视频都附带概念级相似性分数以及差异和相似性的文本描述。此外,我们还在ConViS上对多个最先进模型进行了基准测试,深入了解它们与人类判断的一致性。我们的结果揭示了ConViS上显著的性能差异,表明某些概念在估计视频相似性方面提出了更大的挑战。我们相信ConViS-Bench将成为推动语言驱动视频理解研究的宝贵资源。 |
| 2025-09-23 | Lavida-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation | null | 我们提出了Lavida-O,一个统一的多模态掩码扩散模型(MDM),能够执行图像理解和生成任务。与现有仅支持简单图像级理解任务和低分辨率图像生成的多模态扩散语言模型(如MMaDa和Muddit)不同,Lavida-O展现了许多新能力,例如目标定位、图像编辑和高分辨率(1024像素)图像合成。它也是第一个利用其理解能力,通过规划和迭代自反思来改进图像生成和编辑结果的统一MDM。为了实现有效和高效的训练和采样,Lavida-O引入了许多新颖技术,例如弹性混合Transformer架构、通用文本条件化和分层采样。我们的模型在RefCOCO目标定位、GenEval文本到图像生成和ImgEdit图像编辑等广泛基准测试中取得了最先进的性能,优于现有的自回归和连续扩散模型(如Qwen2.5-VL和FluxKontext-dev),同时在推理时提供了显著的加速。 |
| 2025-09-23 | Steering Multimodal Large Language Models Decoding for Context-Aware Safety | null | 多模态大语言模型 (MLLMs) 越来越多地部署在实际应用中,但其做出上下文感知安全决策的能力仍然有限。现有方法往往难以平衡过度敏感性(不合理地拒绝良性查询)和欠敏感性(漏报视觉相关的风险),在安全对齐方面留下了一个持续存在的差距。为了解决这个问题,我们引入了安全感知对比解码 (SafeCoDe),这是一种轻量级且模型无关的解码框架,它根据多模态上下文动态调整 token 生成。SafeCoDe 分为两个阶段运行:(1) 一种对比解码机制,通过对比真实图像和高斯噪声图像来突出对视觉上下文敏感的 token;(2) 一种全局感知 token 调制策略,它将场景级推理与 token 级调整相结合,以根据预测的安全判断调整拒绝行为。跨越不同 MLLM 架构和安全基准(涵盖欠敏感性、过度敏感性和一般安全评估)的大量实验表明,SafeCoDe 在保持模型有用性的同时,持续改进了上下文敏感的拒绝行为。 |
| 2025-09-23 | Long Story Short: Disentangling Compositionality and Long-Caption Understanding in VLMs | null | 对比视觉-语言模型(VLM)在关联视觉和文本信息方面取得了显著进展,但理解长而密集的描述仍然是一个悬而未决的难题。我们假设组合性,即推理对象-属性绑定和对象间关系的能力,是理解更长描述的关键。在本文中,我们研究了组合性与长描述理解之间的相互作用,探讨为一种特性进行训练是否能增强另一种特性。我们训练并评估了一系列针对这些能力的模型。我们的结果揭示了一种双向关系:组合性训练提高了长描述检索的性能,而对长描述的训练促进了组合性。然而,这些收益对数据质量和模型设计很敏感。我们发现,在结构不良的描述上进行训练,或参数更新有限,无法实现泛化。同样地,旨在保持通用对齐的策略,例如冻结位置嵌入,不能提升组合理解能力。总的来说,我们发现组合理解能力和长描述理解能力是相互交织的能力,可以通过对密集、有根据的描述进行训练来共同学习。尽管存在这些挑战,我们表明在高质量长描述数据上训练的模型可以在两项任务中实现强大的性能,为改进VLM的泛化能力提供了实用的指导。 |
| 2025-09-23 | Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions | link | 对比训练的视觉-语言模型(VLMs),如CLIP,已成为学习判别性视觉-语言表征的标准方法。然而,这些模型常表现出浅层语言理解,呈现词袋行为。其双编码器设计加剧了这些局限,并引入了模态鸿沟。此外,训练过程对大量网络收集数据语料库的依赖使其计算成本高昂,并带来了重大的隐私问题。为解决这些局限性,本研究通过引入一种无视觉、单编码器检索管道,挑战了视觉编码器在检索任务中的必要性。我们摒弃了传统的文本到图像检索范式,在VLLM生成的结构化图像描述的辅助下,转向了文本到文本范式。我们证明了这种范式转变具有显著优势,包括大幅缩小模态鸿沟、提高组合性,以及在短句和长句查询上表现更优,所有这些只需在两块GPU上进行数小时校准即可实现。此外,用文本描述替代原始图像为检索引入了一种更隐私友好的替代方案。为进一步评估泛化能力并解决先前组合性基准的一些不足,我们发布了两个源自Flickr30k和COCO的基准,它们包含由短句组成的各种组合性查询,我们将其命名为subFlickr和subCOCO。我们的无视觉检索器与传统多模态模型表现相当,并常常超越它们。重要的是,我们的方法在多个检索和组合性基准上实现了最先进的零样本性能,所用模型参数量仅为0.3B。代码可在https://github.com/IoannaNti/LexiCLIP获取。 |
| 2025-09-23 | Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models | null | 视觉-语言模型(VLM)在各种实际任务中展现出卓越的性能。然而,现有的VLM通常通过序列化图像来处理视觉信息,这种方法与人类视觉的并行特性显著不同。此外,其不透明的内部机制阻碍了更深入的理解和架构创新。受人类视觉双流假说的启发,该假说区分了“识别什么”和“位于何处”的通路,我们将VLM中的视觉处理解构为物体识别和空间感知进行单独研究。对于物体识别,我们将图像转换为文本标记图,并发现模型对图像内容的感知呈现为从浅层到深层的两阶段过程,始于属性识别,最终实现语义消歧。对于空间感知,我们理论推导并经验验证了VLM中位置表示的底层几何结构。基于这些发现,我们引入了一种基于即插即用视觉解码器的与指令无关的标记压缩算法以提高解码效率,以及一种RoPE缩放技术以增强空间推理能力。通过严格的实验,我们的工作验证了这些分析,提供了对VLM内部机制更深入的理解,并为设计更强大的未来架构提供了清晰的原则。 |
| 2025-09-23 | A Multimodal Stochastic Planning Approach for Navigation and Multi-Robot Coordination | null | 本文提出了一种滚动时域、基于采样的规划器,能够对多模态策略分布进行推理。通过使用交叉熵方法在共同成本函数下优化多模态策略,我们的方法增强了对局部最优的鲁棒性,并促进了对解空间的有效探索。我们表明,我们的方法自然地扩展到多机器人无碰撞规划,使智能体能够共享多样化的候选策略以避免死锁,并允许团队在不产生集中式优化的计算复杂性的情况下最小化全局目标。数值模拟表明,采用多模态显著提高了在陷阱环境和多机器人避碰中的成功率。硬件实验进一步验证了该方法的实时可行性和实际性能。 |
| 2025-09-23 | Investigating Traffic Accident Detection Using Multimodal Large Language Models | null | 交通安全仍然是一个重要的全球性问题,及时准确的事故检测对于减少危害和快速应急响应至关重要。基于基础设施的视觉传感器为持续实时监测提供了可扩展且高效的解决方案,促进了直接从捕获图像中自动化检测事故。本研究调查了多模态大语言模型(MLLMs)的零样本能力,利用来自基础设施摄像头的图像检测和描述交通事故,从而最大限度地减少了对大量标注数据集的依赖。主要贡献包括:(1) 使用CARLA模拟的DeepAccident数据集对MLLM进行评估,通过受控模拟明确解决了多样化、真实、基于基础设施的事故数据稀缺问题;(2) 在未经事先微调的情况下,对Gemini 1.5和2.0、Gemma 3以及Pixtral模型在事故识别和描述能力方面进行了比较性能分析;(3) 将先进的视觉分析技术,具体来说,用于目标检测的YOLO、用于多目标跟踪的Deep SORT和用于实例分割的Segment Anything (SAM),集成到增强的提示中,以提高模型的准确性和可解释性。关键数值结果显示,Pixtral表现最佳,F1分数为0.71,召回率为83%;而Gemini模型通过增强提示提高了精度(例如,Gemini 1.5升至90%),但F1分数和召回率显著下降。Gemma 3提供了最均衡的性能,指标波动最小。这些发现表明,将MLLM与先进视觉分析技术相结合具有巨大的潜力,增强了它们在实际自动化交通监测系统中的适用性。 |
| 2025-09-23 | Data-Free Knowledge Distillation for LiDAR-Aided Beam Tracking in MmWave Systems | null | 多模态感知可减少波束训练开销,但受限于机器学习复杂度和数据集需求。为解决此问题,我们提出一个无数据(DF)知识蒸馏(KD)框架,用于高效的LiDAR辅助毫米波波束跟踪,即预测当前和未来的最佳波束。具体来说,我们提出一个知识反演框架,其中一个生成器在定义于预训练教师模型特征和输出的损失函数引导下,从随机噪声合成LiDAR输入数据。学生模型随后利用合成数据和从教师模型中蒸馏的知识进行训练。生成器损失结合了称为元数据损失、激活损失和熵损失的三项。对于学生训练,除了标准的Kullback-Leibler散度损失外,我们还考虑了教师和学生logit之间的均方误差(MSE)损失。仿真结果表明,所提出的DF-KD在Top-1和Top-5准确率方面(略微)优于教师模型。此外,我们观察到元数据损失对生成器性能有显著贡献,并且学生的MSE损失可以有效替代标准的KD损失,同时需要更少的微调超参数。 |
| 2025-09-19 | MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer | null | 统一多模态大语言模型(LLMs)能够同时理解和生成视觉内容,具有巨大潜力。然而,现有开源模型常常在这些能力之间面临性能权衡。我们提出Manzano,一个简单且可扩展的统一框架,通过结合混合图像分词器和精心设计的训练方案,大幅缓解了这种紧张关系。一个单一的共享视觉编码器驱动两个轻量级适配器,在一个共同的语义空间内,生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散令牌。一个统一的自回归大语言模型预测以文本和图像令牌形式存在的高级语义,辅以一个辅助扩散解码器随后将图像令牌转化为像素。该架构,结合跨理解和生成数据的统一训练方案,实现了这两种能力的可扩展联合学习。Manzano在统一模型中取得了最先进的结果,并与专业模型具有竞争力,尤其是在文本丰富的评估中。我们的研究表明任务冲突最小,并且随着模型规模的扩大,性能持续提升,验证了我们混合分词器的设计选择。 |
| 2025-09-19 | Are Multimodal Foundation Models All That Is Needed for Emofake Detection? | null | 在这项工作中,我们研究了用于情感伪造检测(EFD)的多模态基础模型(MFM),并假设它们将优于音频基础模型(AFM)。MFM由于其跨模态预训练,从多种模态中学习情感模式,而AFM仅依赖于音频。因此,MFM能更好地识别被操纵音频中不自然的情感转变和不一致性,使其在区分真实与虚假情感表达方面更有效。为了验证我们的假设,我们对最先进(SOTA)的MFM(例如LanguageBind)以及AFM(例如WavLM)进行了全面的比较分析。我们的实验证实MFM在EFD方面优于AFM。除了单个基础模型(FM)的性能之外,我们还探索了FM融合,这受到了合成语音检测和语音情感识别等相关研究领域发现的启发。为此,我们提出了SCAR,一个用于有效融合的新颖框架。SCAR引入了一种嵌套的交叉注意力机制,其中来自FM的表示在两个阶段顺序交互,以精炼信息交换。此外,一个自注意力精炼模块通过强化重要的跨FM线索同时抑制噪声,进一步增强了特征表示。通过SCAR与MFM的协同融合,我们实现了SOTA性能,超越了独立FM、传统融合方法以及之前在EFD方面的研究。 |
| 2025-09-19 | Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks | null | 视觉语言模型 (VLM) 在多模态理解方面表现出色,但容易受到对抗性攻击。现有防御方法通常需要昂贵的再训练或显著的架构修改。我们引入了一种利用张量分解的轻量级防御方法,适用于任何预训练的VLM,无需再训练。通过分解和重构视觉编码器表示,它能过滤对抗性噪声,同时保留语义信息。在COCO和Flickr30K数据集上对CLIP进行的实验表明鲁棒性得到改善。在Flickr30K上,它恢复了因攻击损失的12.3%的性能,将Recall@1准确率从7.5%提高到19.8%。在COCO上,它恢复了8.1%的性能,将准确率从3.8%提高到11.9%。分析表明,低秩 (8-32) 和低残差强度 ( $\alpha=0.1-0.2$ ) 的张量链分解是最优的。该方法是一种实用的即插即用解决方案,对现有VLM具有最小开销。 |
| 2025-09-19 | Pointing to a Llama and Call it a Camel: On the Sycophancy of Multimodal Large Language Models | link | 多模态大语言模型(MLLM)在基于图像输入进行对话方面展现出非凡的能力。然而,我们观察到MLLM表现出一种显著的视觉逢迎行为。尽管在基于文本的大语言模型(LLM)中也注意到类似行为,但当MLLM处理图像输入时,这种行为变得更为突出。我们将这种现象称为“逢迎模态鸿沟”。为了更好地理解这个问题,我们进一步分析了导致这种鸿沟加剧的因素。为了缓解视觉逢迎行为,我们首先尝试使用朴素的监督微调,以帮助MLLM抵制用户误导性指令。然而,我们发现这种方法也使MLLM对纠正性指令过度抵制(即,即使错了也固执己见)。为了缓解这种权衡,我们提出了逢迎反思调优(SRT),它使MLLM能够进行反思性推理,使其能够在得出结论之前判断用户的指令是误导性的还是纠正性的。应用SRT后,我们观察到对误导性指令的逢迎行为显著减少,同时在接收纠正性指令时也不会导致过度固执。 |
| 2025-09-19 | Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning | null | 设计有效的奖励函数在强化学习(RL)中仍然是一个主要挑战,通常需要大量人类专业知识和迭代改进。最近的进展利用大型语言模型(LLMs)进行自动化奖励设计,但这些方法受到幻觉、对人类反馈的依赖以及处理复杂多步任务的挑战的限制。在这项工作中,我们引入了基于思维图的奖励演化(RE-GoT),这是一种新颖的双层框架,它通过结构化图基推理增强了LLMs,并整合了视觉语言模型(VLMs)用于自动化 rollout 评估。RE-GoT首先将任务分解为文本属性图,从而实现全面分析和奖励函数生成,然后利用来自VLMs的视觉反馈迭代地改进奖励,无需人类干预。在10个RoboGen和4个ManiSkill2任务上的大量实验表明,RE-GoT始终优于现有的基于LLM的基线。在RoboGen上,我们的方法将平均任务成功率提高了32.25%,在复杂多步任务上取得了显著的提升。在ManiSkill2上,RE-GoT在四个多样化的操作任务中实现了93.73%的平均成功率,显著超越了先前的基于LLM的方法,甚至超过了专家设计的奖励。我们的结果表明,结合LLMs和VLMs并配合思维图推理,为强化学习中的自主奖励演化提供了一种可扩展且有效的解决方案。 |
| 2025-09-19 | BaseReward: A Strong Baseline for Multimodal Reward Model | null | 多模态大语言模型(MLLMs)的快速发展使得使其与人类偏好对齐成为一个关键挑战。奖励模型(RMs)是实现这一目标的核心技术,但在学术界和工业界,目前均缺乏构建最先进多模态奖励模型(MRMs)的系统性指南。通过详尽的实验分析,本文旨在为构建高性能MRM提供一份明确的“秘籍”。我们系统地研究了MRM开发流程中的每一个关键组成部分,包括奖励建模范式(例如,朴素奖励模型、基于评论员的奖励模型和生成式奖励模型)、奖励头架构、训练策略、数据精选(涵盖十余种多模态和纯文本偏好数据集)、主干模型和模型规模,以及集成方法。基于这些实验洞察,我们引入了BaseReward,一个强大而高效的多模态奖励建模基线。BaseReward采用了一种简单而有效的架构,基于Qwen2.5-VL主干模型构建,具有优化的两层奖励头,并在精心整理的高质量多模态和纯文本偏好数据混合集上进行训练。我们的结果表明,BaseReward在MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench等主要基准测试上建立了新的SOTA,优于之前的模型。此外,为了验证其超越静态基准测试的实用性,我们将BaseReward集成到真实的强化学习流程中,成功提升了多模态大语言模型在各种感知、推理和对话任务中的性能。这项工作不仅提供了一个顶级的MRM,更重要的是,为社区提供了一份清晰的、有实证支持的指南,用于开发下一代多模态大语言模型的稳健奖励模型。 |
| 2025-09-19 | Randomized Smoothing Meets Vision-Language Models | null | 随机平滑(RS)是确保机器学习模型正确性的突出技术之一,通过它可以解析推导出逐点鲁棒性证书。尽管RS在分类任务中已得到充分理解,但其在生成模型中的应用尚不明确,因为生成模型的输出是序列而非标签。我们通过将生成模型的输出与一个预言机分类任务联系起来解决了这个问题,并表明RS仍然可以启用:最终响应可以被分类为离散动作(例如,VLA中的服务机器人指令)、有害与无害(VLM中的内容审核或毒性检测),甚至可以应用预言机将答案聚类为语义等价的类别。假设预言机分类器比较的错误率有界,我们建立了将样本数量与相应鲁棒性半径关联起来的理论。我们进一步解析推导出了改进的缩放定律,将认证半径和准确性与样本数量关联起来,表明即使在较弱的假设下,早期结果(即减少2到3个数量级的样本量即可满足需求且损失最小)仍然有效。总而言之,这些进展使得鲁棒性认证对于最先进的VLM而言既明确又在计算上可行,并已针对近期越狱式对抗攻击进行了验证。 |
| 2025-09-19 | See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model | null | 我们引入了SEE&TREK,这是首个免训练提示框架,旨在增强多模态大语言模型(MLLM)在仅视觉约束下的空间理解能力。尽管先前的工作已通过引入深度或点云等模态来提升空间推理,但纯视觉空间理解仍未得到充分探索。SEE&TREK通过关注两个核心原则来解决这一空白:增加视觉多样性和运动重建。对于视觉多样性,我们采用最大语义丰富度采样,利用现成的感知模型提取能够捕捉场景结构的语义丰富的关键帧。对于运动重建,我们模拟视觉轨迹并将相对空间位置编码到关键帧中,以同时保持空间关系和时间连贯性。我们的方法免训练且无需GPU,仅需一次前向传播,并且可以无缝集成到现有MLLM中。在VSI-B ENCH和STI-B ENCH上进行的大量实验表明,SEE&TREK持续提升了各类MLLM在各种空间推理任务上的性能,最高提升达3.5%,为实现更强的空间智能提供了一条有前景的道路。 |
| 2025-09-19 | I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models | null | 开放世界环境中语言条件下的机器人操作不仅需要准确的任务执行,还需要检测故障的能力,以便在真实世界环境中进行鲁棒部署。尽管视觉-语言模型(VLM)的最新进展显著提升了机器人的空间推理和任务规划能力,但它们在识别自身故障方面的能力仍然有限。特别是一个关键但尚未充分探索的挑战在于检测语义错位错误,即机器人执行的任务在语义上有意义但与给定指令不一致。为此,我们提出了一种从现有语言条件下的操作数据集中构建针对语义错位故障检测的数据集的方法。我们还提出了I-FailSense,一个具备接地仲裁能力的开源VLM框架,专门为故障检测而设计。我们的方法依赖于对一个基础VLM进行后训练,然后训练连接到VLM不同内部层的轻量级分类头(称为FS块),并通过集成机制聚合它们的预测。实验表明,I-FailSense在检测语义错位错误方面优于最先进的VLM,无论是在规模相当还是更大的模型上。值得注意的是,尽管I-FailSense仅在语义错位检测上进行训练,但它能泛化到更广泛的机器人故障类别,并通过零样本或少量后训练有效地迁移到其他模拟环境和真实世界。相关数据集和模型已在HuggingFace上公开(网页:https://clemgris.github.io/I-FailSense/)。 |
| 2025-09-19 | Language-Instructed Reasoning for Group Activity Detection via Multimodal Large Language Model | null | 群体活动检测(GAD)旨在同时识别视频序列中的群体成员并对其集体活动进行分类。现有的基于深度学习的方法开发了专门的架构(例如,Transformer网络)来建模个体角色的动态以及个体与群体之间的语义依赖关系。然而,它们仅依赖于从视觉特征中进行的隐式模式识别,并在上下文推理和可解释性方面面临困难。在这项工作中,我们提出了LIR-GAD,这是一个通过多模态大语言模型(MLLM)实现GAD的语言指导推理的新颖框架。我们的方法通过引入一个活动级别的 |
| 2025-09-18 | Calibration-Aware Prompt Learning for Medical Vision-Language Models | null | 医用视觉-语言模型 (Med-VLM) 通过利用大规模图像-文本预训练,在各种医学影像任务中表现出卓越的性能。然而,它们的置信度校准在很大程度上尚未被探索,因此仍然是一个重大挑战。因此,未校准的预测可能导致过度自信的错误,从而损害临床信任和决策可靠性。为解决这个问题,我们引入了CalibPrompt,这是首个在提示微调期间校准Med-VLM的框架。CalibPrompt在标记数据稀缺的情况下,通过精心设计的校准目标,优化了一组少量的可学习提示。首先,我们研究了一种旨在将平滑准确度与预测模型置信度对齐的正则化器。其次,我们引入了一种角分离损失,以最大化文本特征接近度,从而提高多模态Med-VLM置信度估计的可靠性。在四个公开可用的Med-VLM和五个不同的医学影像数据集上进行的大量实验表明,CalibPrompt在不显著影响原始准确率的情况下持续改进了校准。我们的代码可在 https://github.com/iabh1shekbasu/CalibPrompt 获取。 |
| 2025-09-18 | Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation | null | 我们引入VocAlign,这是一种专为开放词汇语义分割中的视觉语言模型(VLM)设计的新型无源域适应框架。我们的方法采用师生范式,并辅以词汇对齐策略,通过引入额外的类别概念来改进伪标签生成。为确保效率,我们使用低秩适应(LoRA)来微调模型,在保留其原有能力的同时最小化计算开销。此外,我们为学生模型提出了一种Top-K类别选择机制,该机制显著降低了内存需求,同时进一步提升了适应性能。我们的方法在CityScapes数据集上实现了显著的6.11 mIoU提升,并在零样本分割基准上展现出卓越性能,为开放词汇设置下的无源域适应树立了新标杆。 |
| 2025-09-18 | ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data | link | 视觉-语言模型(VLMs)使得能够自主操作图形用户界面(GUIs)的计算机使用智能体(CUAs)成为可能,展现出巨大潜力,然而,进展受限于缺乏大规模、开源的计算机使用数据和基础模型。在这项工作中,我们介绍了ScaleCUA,这是迈向扩展开源CUA的一步。它提供了一个大规模数据集,涵盖6个操作系统和3个任务领域,该数据集通过结合自动化智能体和人类专家的闭环管道构建而成。经过这些扩展数据的训练,ScaleCUA能够跨平台无缝操作。具体而言,它在基线上取得了显著提升(WebArena-Lite-v2上提升26.6,ScreenSpot-Pro上提升10.7),并创造了新的SOTA(最先进)结果(MMBench-GUI L1-Hard上达到94.4%,OSWorld-G上达到60.6%,WebArena-Lite-v2上达到47.4%)。这些发现强调了数据驱动扩展对于通用计算机使用智能体而言的强大能力。我们将发布数据、模型和代码以促进未来的研究:https://github.com/OpenGVLab/ScaleCUA。 |
| 2025-09-18 | Generalizable Geometric Image Caption Synthesis | null | 多模态大语言模型具有多种实际应用,这些应用要求强大的推理能力。尽管取得了最新进展,这些模型在解决复杂几何问题方面仍然面临困难。一个关键挑战源于缺乏用于理解几何图像的高质量图像-文本对数据集。此外,大多数基于模板的数据合成流程通常无法泛化到超出其预定义模板的问题。在本文中,我们通过将可验证奖励强化学习(RLVR)这一互补过程引入数据生成流程,弥合了这一差距。通过采用RLVR来细化从50种基本几何关系合成的几何图像的描述,并利用源自数学问题解决任务的奖励信号,我们的流程成功捕获了几何问题解决的关键特征。这使得任务泛化能力更强,并带来了显著的改进。此外,即使在分布外场景中,所生成的数据集也增强了多模态大语言模型的通用推理能力,在MathVista和MathVerse数据集中使用非几何输入图像的统计、算术、代数和数值任务中,准确率提高了2.8%-4.8%,同时在MMMU数据集的艺术、设计、技术和工程任务中,准确率提高了2.4%-3.9%。 |
| 2025-09-18 | What’s the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques | null | 幻灯片演示文稿作为弥合演示幻灯片和书面文档之间鸿沟的数字报告,是学术和企业环境中普遍的信息传达媒介。它们结合了文本、图像和图表的多模态特性,给检索增强生成系统带来了挑战,其中检索质量直接影响下游性能。传统的幻灯片检索方法通常涉及对不同模态进行单独索引,这会增加复杂性并可能丢失上下文信息。本文研究了各种有效的幻灯片检索方法,包括ColPali等视觉后期交互嵌入模型、视觉重排序器的使用,以及将密集检索与BM25结合并通过文本重排序器和倒数排名融合等融合方法进一步增强的混合检索技术。本文还评估了一种新颖的基于视觉-语言模型(VLM)的字幕生成流水线,该流水线与视觉后期交互技术相比,显著降低了嵌入存储需求,同时保持了可比的检索性能。我们的分析扩展到这些方法的实际方面,评估它们的运行时性能、存储需求以及检索效率,从而为选择和开发用于实际应用的高效鲁棒幻灯片检索系统提供了实用指导。 |
| 2025-09-18 | Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding | null | 时空视频定位(STVG)旨在根据输入的文本查询来定位视频中的时空管。在本文中,我们利用多模态大语言模型(MLLMs)来探索STVG中的零样本解决方案。我们揭示了关于MLLMs的两个关键见解:(1) MLLMs倾向于动态分配被称为“定位token”的特殊token,用于定位文本查询;(2) MLLMs经常由于无法充分整合文本查询中的线索(例如,属性、动作)进行推理而遭受次优的定位性能。基于这些见解,我们提出了一种基于MLLM的STVG零样本框架,其中包含新颖的分解时空高亮(DSTH)和时序增强组装(TAS)策略,以释放MLLMs的推理能力。DSTH策略首先将原始查询解耦为属性和动作子查询,用于在空间和时间上查询目标的存在。它随后使用一个新颖的logit引导重注意力(LRA)模块,通过正则化每个子查询的token预测,学习潜在变量作为空间和时间提示。这些提示分别突出属性和动作线索,引导模型的注意力到可靠的空间和时间相关的视觉区域。此外,由于属性子查询的空间定位应具有时间一致性,我们引入了TAS策略,利用原始视频帧和时序增强帧作为输入来组装预测,以帮助提高时间一致性。我们在各种MLLMs上评估了我们的方法,并表明它在三个常见的STVG基准测试中超越了SOTA方法。代码将可在https://github.com/zaiquanyang/LLaVA_Next_STVG获取。 |
| 2025-09-18 | An Evaluation-Centric Paradigm for Scientific Visualization Agents | null | 多模态大语言模型(MLLMs)的最新进展使得日益复杂的自主可视化智能体能够将用户意图转化为数据可视化。然而,衡量进展和比较不同智能体仍然具有挑战性,尤其是在科学可视化(SciVis)领域,因为缺乏用于评估实际能力的全面、大规模基准。本立场论文探讨了SciVis智能体所需的各种评估类型,概述了相关挑战,提供了一个简单的概念验证评估示例,并讨论了评估基准如何促进智能体的自我改进。我们倡导更广泛的合作,以开发一个SciVis智能体评估基准,该基准不仅能评估现有能力,而且能推动创新并激发该领域的未来发展。 |
| 2025-09-18 | Exploring How Audio Effects Alter Emotion with Foundation Models | null | 音频效果(FX),如混响、失真、调制和动态范围处理,在音乐聆听过程中塑造情感反应方面发挥着关键作用。虽然先前的研究已检验了低级音频特征与情感感知之间的联系,但音频FX对情感的系统性影响仍未得到充分探索。这项工作研究了如何利用基础模型——即在多模态数据上预训练的大规模神经网络架构——来分析这些效果。这些模型编码了音乐结构、音色和情感意义之间丰富的关联,为探究声音设计技术的情感影响提供了一个强大的框架。通过对深度学习模型中的嵌入应用各种探测方法,我们检验了音频FX与估计情感之间复杂、非线性的关系,揭示了与特定效果相关的模式,并评估了基础音频模型的鲁棒性。我们的发现旨在增进对音频制作实践感知影响的理解,对音乐认知、表演和情感计算具有启示意义。 |
| 2025-09-18 | From Pixels to Urban Policy-Intelligence: Recovering Legacy Effects of Redlining with a Multimodal LLM | null | 本文展示了多模态大语言模型 (MLLM) 如何拓展城市测量能力并支持基于地点的政策干预措施的跟踪。GPT-4o 利用结构化的“先推理后估计”流程在街景图像上推断出社区贫困和树冠覆盖,我们将其嵌入准实验设计中以评估20世纪30年代“红线政策”的遗留影响。GPT-4o 再现了“红线政策”预期的不利社会环境遗留影响,其估计结果与权威来源统计上无显著差异,并且它优于传统的基于像素的分割基线,这与整体场景推理能够提取超越单纯对象计数的更高阶信息的观点相符。这些结果将 MLLM 定位为政策级别的社区测量工具,并促使在更广泛的政策评估场景中进行验证。 |
| 2025-09-18 | Forecasting and Visualizing Air Quality from Sky Images with Vision-Language Models | null | 空气污染仍然是对公众健康和环境可持续性的严峻威胁,然而传统监测系统常受限于有限的空间覆盖范围和可及性。本文提出了一种人工智能驱动的智能体,该智能体基于天空图像预测环境空气污染水平,并利用生成建模合成逼真的污染情景可视化效果。我们的方法结合了统计纹理分析与监督学习进行污染分类,并利用视觉-语言模型(VLM)引导的图像生成来生成空气质量状况的可解释表示。生成的视觉效果模拟了不同程度的污染,为用户界面提供了基础,以提高透明度并支持明智的环境决策。这些输出可以无缝集成到智能应用中,旨在增强态势感知并鼓励基于实时预测的行为响应。我们使用城市天空图像数据集验证了我们的方法,并证明了其在污染水平估计和语义一致的视觉合成方面的有效性。系统设计进一步融入了以人为中心的用户体验原则,以确保空气质量预测的可访问性、清晰度和公众参与。为支持可扩展和节能的部署,未来的迭代将整合一种通过基于FPGA的增量学习进行增强的绿色CNN架构,从而实现边缘平台上的实时推理。 |
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-28 | Zero-Shot Cross-Lingual Transfer using Prefix-Based Adaptation | null | 随着Llama和Mistral等新型大语言模型(LLMs)的发布,零样本跨语言迁移因其多语言预训练和强大的泛化能力而变得越来越可行。然而,将这些仅解码器LLMs适应到跨语言的新任务中仍然具有挑战性。尽管低秩适应(LoRA)等参数高效微调(PeFT)技术已被广泛使用,但基于前缀的技术,如软提示微调、前缀微调和Llama Adapter,探索较少,尤其是在仅解码器模型中的零样本迁移方面。我们对三种基于前缀的方法进行了全面研究,用于将英语零样本跨语言迁移到35种以上高资源和低资源语言。我们的分析进一步探讨了跨语言族系和文字系统的迁移,以及模型规模从10亿(1B)到240亿(24B)扩展的影响。使用Llama 3.1 8B模型时,基于前缀的方法在Belebele基准测试中比LoRA基线表现高出多达6%。使用Mistral v0.3 7B模型时也观察到类似的改进。尽管前缀微调仅使用了1.23M(百万)个学习参数,我们在各种基准测试中取得了持续的改进。这些发现突出了基于前缀的技术的潜力,作为LoRA的一种有效且可扩展的替代方案,特别是在低资源多语言环境中。 |
| 2025-10-28 | LoRA-DA: Data-Aware Initialization for Low-Rank Adaptation via Asymptotic Analysis | null | 随着大语言模型的广泛采用,LoRA已成为参数高效微调的一种主导方法,其初始化方法也引起了越来越多的关注。然而,现有方法存在显著局限性:许多方法未融入目标域数据,而基于梯度的方法通过依赖一步梯度分解仅在浅层利用数据,这仍然不尽如人意,因为其基础的一步微调模型经验性能较弱,并且这些方法要么缺乏严谨的理论基础,要么严重依赖于限制性的各向同性假设。在本文中,我们基于渐近分析,为数据感知型LoRA初始化建立了一个理论框架。从最小化微调模型与目标模型之间参数差异期望的通用优化目标出发,我们推导出一个包含两个组成部分的优化问题:一个偏差项,它与微调模型和目标模型之间的参数距离相关,并使用Fisher梯度公式进行近似以保留各向异性;以及一个方差项,它通过Fisher信息解释了采样随机性引入的不确定性。通过解决这个问题,我们获得了LoRA的最优初始化策略。基于这一理论框架,我们开发了一种高效算法LoRA-DA,它从一小部分目标域样本中估计优化问题中的各项,并获得最优的LoRA初始化。在多个基准测试中的经验结果表明,LoRA-DA持续提升了最终准确性,优于现有初始化方法。进一步研究表明,LoRA-DA具有更快、更稳定的收敛速度,在不同秩下表现出鲁棒性,并且初始化开销较小。源代码将在发表后发布。 |
| 2025-10-28 | FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic | link | 低位浮点(FP)格式(例如FP8)由于现代GPU和NPU上的原生硬件支持,在模型训练中提供了显著的加速和内存节省。然而,我们分析发现,FP8量化主要为高维矩阵乘法提供加速,而当应用于使用小维矩阵对大语言模型(LLMs)进行高效微调的低秩适配(LoRA)时,固有的量化开销会削弱加速效果。为解决这一局限性,我们提出了FALQON,一个新颖的框架,它通过在微调期间将LoRA适配器直接合并到FP8量化的主干网络中,从而消除了独立LoRA计算路径中的量化开销。此外,我们重新设计了合并适配器的前向和后向计算以显著减少量化开销,并引入了一种行级代理更新机制,能够有效地将大量更新集成到量化的主干网络中。实验评估表明,FALQON相较于现有量化的LoRA方法,在相似的精度水平下实现了大约3倍的训练加速,为高效的大规模模型微调提供了一个实用的解决方案。此外,FALQON的端到端FP8工作流消除了对训练后量化的需求,有助于实现高效部署。代码可在https://github.com/iamkanghyunchoi/falqon获取。 |
| 2025-10-27 | ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning | null | 随着大语言模型(LLMs)规模的不断扩大,其计算开销已成为任务特定微调的主要瓶颈。尽管低秩适应(LoRA)通过将权重更新限制在低维子空间中,有效减少了这一开销,但这种限制可能会阻碍其有效性并减缓收敛。本文通过从连续的低秩增量中逐步累积高秩权重更新来解决这些局限性。具体而言,我们确定了每次更新的最优低秩矩阵,以最小化损失函数并紧密逼近全量微调。为了实现无需重新启动的高效无缝优化,这种最优选择是通过适当地缩放原始低秩矩阵的列来形成的。严格的性能保证表明,最优缩放可以通过解析方式找到。大量的数值测试,涵盖多达120亿参数的流行大语言模型,证明了相较于最先进的LoRA变体,在包括自然语言理解、常识推理和数学问题求解等多种任务上,本文方法实现了持续的性能提升和快速收敛。 |
| 2025-10-27 | Block-Diagonal LoRA for Eliminating Communication Overhead in Tensor Parallel LoRA Serving | null | 当同时为单个基础LLM提供多个不同的LoRA适配器服务时,适配器不能简单地与基础模型的权重合并,因为适配器切换会产生开销,并且使用不同适配器的请求无法进行批处理。相反,LoRA计算必须与基础LLM计算分离,并且在多设备设置中,LoRA适配器可以按照与基础模型的张量并行执行良好对齐的方式进行分片,正如S-LoRA中提出的。然而,S-LoRA分片策略会遇到一些通信开销,这在理论上可能很小,但在实践中可能很大。在本文中,我们提出将某些LoRA因子约束为块对角矩阵,这允许一种替代的LoRA适配器分片方式,不需要为LoRA计算进行任何额外的通信。我们在广泛的实验中证明,我们的块对角LoRA方法与标准LoRA具有相似的参数效率(即,在相似的参数数量下,它实现了相似的下游性能),并且相较于S-LoRA,它带来了显著的端到端加速。例如,当在八个A100 GPU上提供服务时,我们观察到Llama-3.1-70B的端到端加速高达1.79倍(1.23倍),对应适配器参数数量为0.87倍(1.74倍);Llama-3.1-8B的端到端加速高达1.63倍(1.3倍),对应适配器参数数量为0.86倍(1.73倍)。 |
| 2025-10-27 | DecoDINO: 3D Human-Scene Contact Prediction with Semantic Classification | null | 精确的顶点级人与周围物体接触预测是用于机器人技术、AR/VR和行为模拟的高保真人物交互模型的先决条件。DECO是第一个用于此任务的野外估计器,但它仅限于二元接触图,并且在处理软表面、遮挡、儿童和足部假阳性接触时表现不佳。我们解决了这些问题并引入了DecoDINO,这是一个基于DECO框架的三分支网络。它使用了两个DINOv2 ViT-g/14编码器、类别平衡损失加权以减少偏差,以及补丁级交叉注意力以改进局部推理。顶点特征最终通过一个带有softmax的轻量级MLP,以分配语义接触标签。我们还测试了一个视觉语言模型(VLM)来集成文本特征,但更简单的架构表现更好并被采用。在DAMON基准测试中,DecoDINO (i) 将二元接触F1分数提高了7%,(ii) 将测地误差减半,并且 (iii) 用物体级语义标签增强了预测。消融研究表明,LoRA微调和双编码器是这些改进的关键。DecoDINO在DAMON挑战赛的两项任务中均超越了挑战基线。我们的代码可在https://github.com/DavidePasero/deco/tree/main获取。 |
| 2025-10-27 | Beyond Higher Rank: Token-wise Input-Output Projections for Efficient Low-Rank Adaptation | link | 低秩适应 (LoRA) 是一种在大语言模型 (LLMs) 中广泛使用的参数高效微调 (PEFT) 方法。LoRA本质上描述了将输入空间投影到低维输出空间的过程,其维度由LoRA秩决定。在标准LoRA中,所有输入词元共享相同的权重并经历相同的输入-输出投影。由于词元之间固有的语义差异,这限制了LoRA捕获词元特异性信息的能力。为了解决这一局限性,我们提出了词元级投影低秩适应 (TopLoRA),它根据输入词元动态调整LoRA权重,从而以端到端的方式学习词元级的输入-输出投影。形式上,TopLoRA的权重可以表示为 $B\Sigma_X A$,其中 $A$ 和 $B$ 是低秩矩阵(如标准LoRA中所示),而 $\Sigma_X$ 是由每个输入词元 $X$ 生成的对角矩阵。值得注意的是,TopLoRA并未增加LoRA权重的秩,而是通过学习词元级的LoRA权重(即词元级的输入-输出投影)实现了更细粒度的适应。在多个模型和数据集上的大量实验表明,TopLoRA持续优于LoRA及其变体。代码可在 https://github.com/Leopold1423/toplora-neurips25 获取。 |
| 2025-10-27 | Adapting Speech Foundation Models with Large Language Models for Unified Speech Recognition | null | 统一语音识别旨在在单个模型框架内执行听觉、视觉和视听语音识别。尽管语音基础模型 (SFM) 在听觉任务中已展示出卓越性能,但它们在多模态场景中的适应性仍未得到充分探索。本文提出了UASR-LLM,这是一个新颖的框架,通过利用大语言模型 (LLM) 作为文本解码器,将冻结的SFM适应于统一的VSR、ASR和AVSR任务。我们的方法通过视觉注入模块将视觉表示引入到多个SFM层中,从而实现多模态输入处理和统一的隐藏表示。增强的SFM通过前馈适配器与仅解码器LLM连接,其中拼接的表示和指令提示指导语音转录。我们实施了两阶段训练策略:视觉注入预训练,随后是语音识别微调。SFM参数在整个训练过程中保持冻结,仅视觉注入模块在初始阶段进行优化,随后使用LoRA参数对LLM进行微调。实验结果表明,在干净和嘈杂条件下,该方法在VSR、ASR和AVSR任务中均优于最先进的基线。消融研究证实了该方法在各种SFM和LLM上的泛化能力,验证了所提出的训练策略。 |
| 2025-10-26 | LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction | null | 本文探讨了在MediaEval 2025研讨会竞赛的“记忆性:预测电影和商业记忆性”任务中,作为“子任务2:商业/广告记忆性”的一部分,商业(品牌)记忆性的预测问题。我们提出了一个以Gemma-3 LLM为骨干的多模态融合系统,该系统通过多模态投影整合了预计算的视觉(ViT)和文本(E5)特征。该模型采用低秩适应(LoRA)进行适配。一个经过精心调优的梯度提升树集成模型作为基线。一个关键贡献在于,我们使用了基于专家推导的记忆性方面的LLM生成的推理提示来指导融合模型。结果表明,与基线相比,基于LLM的系统在最终测试集上表现出更高的鲁棒性和泛化性能。本文的代码库可在https://github.com/dsgt-arc/mediaeval-2025-memorability找到。 |
| 2025-10-26 | Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study | null | 尽管大语言模型(LLM)已被广泛采用,但其最强能力仍主要局限于少数拥有丰富训练数据的高资源语言。最近,持续预训练(CPT)已成为将这些模型微调至低资源区域方言的一种手段。本文研究了在严格的数据和计算预算下,CPT在方言学习中的应用。我们利用低秩适应(LoRA)和计算高效的持续预训练,使用一个非常小的数据集将三个LLM适应到魁北克法语方言,并在COLE套件上对其进行了基准测试。我们的实验表明,在更新不到1%的模型参数的情况下,少数方言基准上取得了改进,而标准语言基准上的性能下降最小。结果分析表明,收益高度依赖于语料库构成。这些发现表明,结合参数高效微调(PEFT)的CPT可以通过提供成本效益高且可持续的语言资源创建,缩小方言差距,从而将高质量LLM的访问扩展到少数语言社区。我们在HuggingFace上发布了首批魁北克法语LLM。 |
| 2025-10-22 | SecureInfer: Heterogeneous TEE-GPU Architecture for Privacy-Critical Tensors for Large Language Model Deployment | null | 随着大语言模型(LLMs)在移动和边缘平台上的部署日益增多,保护它们免受模型提取攻击已成为一个紧迫的问题。然而,在不牺牲GPU等不受信任的AI加速器所带来的性能优势的前提下保护模型隐私,提出了一个具有挑战性的权衡。在本文中,我们首次研究了LLMs上的高性能执行,并提出了SecureInfer,这是一个混合框架,它利用异构可信执行环境(TEEs)-GPU架构来隔离隐私关键组件,同时将计算密集型操作卸载到不受信任的加速器。基于一种外包方案,SecureInfer采用了一种信息论和威胁感知的划分策略:安全敏感组件,包括非线性层、注意力头投影、前馈网络(FNN)变换和LoRA适配器,在SGX安全飞地内执行,而其他线性操作(矩阵乘法)在加密后在GPU上执行,并在安全飞地内安全恢复。我们使用LLaMA-2模型实现了SecureInfer的原型,并从性能和安全指标两方面对其进行了评估。我们的结果表明,SecureInfer提供了强大的安全保障且具有合理的性能,为安全的设备端模型推理提供了一个实用的解决方案。 |
| 2025-10-22 | GaLLoP: Gradient-based Sparse Learning on Low-Magnitude Parameters | null | 稀疏微调技术通过仅调整模型参数的稀疏子集,使大型语言模型(LLMs)适应下游任务。然而,稀疏适应的有效性取决于优化选择待微调的模型参数。在这项工作中,我们引入了一种名为GaLLoP的新型稀疏微调技术:基于梯度的低幅度参数稀疏学习,该技术仅微调那些在下游任务上具有最大梯度幅值且预训练幅值最小的模型参数,直观上优先考虑那些高度任务相关但对预训练知识的破坏最小的参数。我们以LLaMA3 8B和Gemma 2B作为基础模型的实验表明,GaLLoP始终能够提高或匹配通过使用其他领先的参数高效微调技术(包括LoRA、DoRA和SAFT)获得的分布内以及分布外性能。我们的分析表明,GaLLoP缓解了灾难性遗忘和任务数据的记忆,因为重要的预训练参数保持不变,并相对于其他微调技术稳定了性能,在大多数随机种子下均能稳健泛化。 |
| 2025-10-23 | Zhyper: Factorized Hypernetworks for Conditioned LLM Fine-Tuning | link | 大语言模型(LLM)条件化指的是指示LLM生成符合特定文化规范和价值观、特定政治立场信念或任何期望的文本指定语义条件的内容。不幸的是,由于预训练和对齐数据集的归纳偏置,提示工程无法确保LLM按照期望的条件化行为。先前的工作专注于通过直接条件化LoRA权重来微调LLM;然而,此类方法引入了大量参数。作为补救措施,我们提出了Zhyper,这是一种参数高效的分解超网络框架,它能从文本描述中生成上下文感知的LoRA适配器。在多个基准测试上的实验表明,Zhyper实现了具有竞争力的性能,且参数量比最先进的基线减少高达26倍。此外,我们将Zhyper扩展到文化对齐,展示了对域外设置的泛化能力有所提高,并能更好地捕获细粒度的上下文价值。 |
| 2025-10-22 | CoSense-LLM: Semantics at the Edge with Cost- and Uncertainty-Aware Cloud-Edge Cooperation | null | 我们提出了CoSense-LLM,一个边缘优先框架,它将连续的多模态传感器流(例如Wi-Fi CSI、IMU、音频、RFID和轻量级视觉)转化为紧凑、可验证的语义令牌,并在明确的延迟、能耗、带宽和隐私约束下与大语言模型协同工作。CoSense-LLM包含四个部分:(i) SenseFusion,一个轻量级编码器,将传感器嵌入与语言对齐,并将其压缩成短的离散代码序列;(ii) Edge-RAG,一个本地混合检索层,根据特定站点的策略和笔记生成内容;(iii) PromptRouter,一个成本和不确定性感知的策略,用于选择仅边缘生成、边缘加检索或紧凑的云升级;(iv) Secure Execution,一个可审计的编辑路径,强制执行数据最小化,确保原始波形永不离开设备。该系统与现代服务优化协同工作,包括分页或流式KV缓存、FlashAttention风格的内核、推测解码和量化LoRA适配器,并支持设备端个性化和在非IID漂移下的联邦更新。在家庭、办公室和诊所的部署中,CoSense-LLM提供了有依据的解释,同时满足了严格的服务水平目标:它在边缘主导路径上保持亚秒级 (p95) 端到端延迟,通过优先选择基于本地检索的响应来降低层间令牌和带宽成本,并通过仅传输离散代码和编辑过的元数据来保护隐私。消融实验表明,Edge-RAG提高了事实一致性并减少了矛盾,校准的不确定性实现了选择性回避和受控升级,KV加解码加速器降低了每次决策的能耗。这些结果支持一种边缘优先设计,即在易受干扰环境中部署大型模型时,将语义、隐私和可预测延迟视为同等重要的目标。 |
| 2025-10-21 | SemiAdapt and SemiLoRA: Efficient Domain Adaptation for Transformer-based Low-Resource Language Translation with a Case Study on Irish | link | 微调被广泛用于为神经机器翻译(NMT)等特定任务定制大语言模型。然而,在微调拥有数十亿参数的大型多语言模型时,利用迁移学习在计算上成本高昂,这为从事爱尔兰语翻译等低资源领域的研究人员设置了准入门槛。参数高效微调(PEFT)通过仅训练原始模型一小部分参数来弥合这一差距,其中低秩适应(LoRA)方法引入了小型可训练的适配器层。我们引入SemiAdapt和SemiLoRA作为半监督推理高效方法,它们能增强领域适应性并提高NMT的整体性能。我们证明SemiAdapt可以优于全领域微调,最值得注意的是,SemiLoRA可以将PEFT方法的性能提升到与全模型微调相当甚至超越的水平。我们进一步评估了按领域-数据集进行的微调,并证明我们基于嵌入的推理方法在更大和更嘈杂的语料库上表现尤为出色。本工作中开发的所有爱尔兰语翻译模型均作为开放资源发布。这些方法旨在使高质量的领域适应和微调对从事低资源语言研究的研究人员更易于获取。 |
| 2025-10-21 | Bayesian Low-Rank Factorization for Robust Model Adaptation | null | 大型语音基础模型在许多领域取得了强大的性能,但它们通常需要进行适应以应对本地需求,例如语码转换(即说话者在同一话语中混合语言)。直接微调这些模型有过度拟合目标域并覆盖基础模型广泛能力的风险。为了解决这一挑战,我们探索了用于语音基础模型的贝叶斯因子化适配器,该适配器将先验置于接近零的位置,以实现更稀疏的适应矩阵,从而在适应特定领域的同时保留通用性能。我们将我们的方法应用于 Whisper 模型,并在不同的多语言语码转换场景中进行评估。我们的结果表明,仅有最小的适应损失,同时显著减少了基础模型的灾难性遗忘。与LoRA相比,我们的方法实现了54%的向后增益,而在新领域上仅下降4%。这些发现突出了贝叶斯适应在微调语音基础模型方面不牺牲泛化能力的有效性。 |
| 2025-10-20 | ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection | null | 智能合约在自动化区块链服务中发挥着重要作用。然而,智能合约中的漏洞对区块链安全构成严重威胁。目前,传统的检测方法主要依赖静态分析和形式化验证,这可能导致高误报率和较差的可扩展性。大型语言模型(LLMs)最近在智能合约漏洞检测方面取得了显著进展。然而,它们仍面临推理成本高和计算开销大等挑战。在本文中,我们提出了ParaVul,一个并行的LLM和检索增强框架,旨在提高智能合约漏洞检测的可靠性和准确性。具体而言,我们首先开发了用于LLM微调的稀疏低秩适应(SLoRA)。SLoRA通过将稀疏矩阵引入量化后的基于LoRA的LLM中来引入稀疏化,从而减少计算开销和资源需求,同时增强其理解漏洞相关问题的能力。然后,我们构建了一个漏洞合约数据集,并开发了一个混合检索增强生成(RAG)系统,该系统将密集检索与最佳匹配25(BM25)相结合,以辅助验证LLM生成的结果。此外,我们提出了一种元学习模型,用于融合RAG系统和LLM的输出,从而生成最终的检测结果。完成漏洞检测后,我们设计了思维链提示,以指导LLM生成全面的漏洞检测报告。仿真结果表明ParaVul的优越性,特别是在F1分数方面,单标签检测达到0.9398,多标签检测达到0.9330。 |
| 2025-10-19 | Activation Manifold Projection: Liberating Task-Specific Behaviors from LLM Architectures | null | 大语言模型(LLM)架构的激增带来了一个根本性挑战:通过低秩适应(LoRA)等微调方法学习到的有价值的、任务特定的行为,实际上被困在其源模型的架构中,本文称之为架构锁定。现有的迁移方法试图通过对齐模型的静态权重空间来弥合这一差距,这是一种脆弱且间接的方法,依赖于参数几何形状之间微弱的相关性。本文介绍了一种根本不同且更直接的范式:筒式激活空间迁移(CAST),这是一个新颖的框架,通过学习在两种不同LLM架构的激活流形(即模型内部神经元激活所形成的几何结构)之间建立直接的非线性映射,从而解放LoRA编码的行为。CAST将预训练的LoRA视为一个冻结的“行为核”。它学习一组轻量级的双向投影头,将目标模型的激活流转换到源模型的潜在空间中,应用冻结的核,并将结果投射回来。这个过程在通用文本语料库上进行训练,无需任何任务特定数据,有效地将所学技能与源架构解耦。我们证明了CAST能够实现任何标准LoRA适配器的真正“零样本”转换。我们的实验,包括Llama-2和Mistral等异构模型家族之间的迁移,表明CAST转换的适配器达到了在目标模型上完全重新训练的LoRA性能的85-95%,在量化上优于当前的权重空间迁移技术,并在模型互操作性方面建立了新的最先进水平。 |
| 2025-10-19 | L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts | null | 专家混合(MoE)架构通过为每个输入激活权重的稀疏子集,在推理过程中保持恒定的计算成本,从而实现大语言模型(LLMs)扩展到数万亿参数。同时,低秩适应(LoRA)已成为一种主流技术,用于在专门任务上对LLMs进行参数高效微调。在这项工作中,我们将这两种范式统一为一个新颖的、端到端可训练的框架,命名为L-MoE:一个轻量级LoRA专家混合。L-MoE将MoE专家重新定义为一组任务专用、低秩适配器,而非密集的前馈网络。一个与专家共同训练的轻量级门控网络,通过计算每个输入词元参数的加权平均值,学习动态组合这些LoRA适配器。这种组合是完全可微分的,允许来自标准自回归语言建模目标的梯度流回整个架构,同时优化专家适配器和路由策略。这种方法创建了一个高度参数高效的MoE模型,它在设计上是模块化的,允许动态技能组合,并且可以端到端训练。我们提出了L-MoE的形式化数学框架,详细阐述了可微分路由机制和联合优化目标,从而为构建更高效、可扩展和专业化的语言模型提供了一条新途径。 |
| 2025-10-20 | Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs | null | 我们研究了用于暴力检测的节俭联邦学习方法,通过比较两种互补策略:(i) 视觉-语言模型 (VLM) 的零样本和联邦微调,以及 (ii) 紧凑型3D卷积神经网络 (CNN3D) 的个性化训练。我们以LLaVA-7B和65.8M参数的CNN3D为代表性案例,在实际的非独立同分布 (non-IID) 设置下评估了准确性、校准性和能耗。两种方法都超过90%的准确性。CNN3D在ROC AUC和对数损失方面略优于采用低秩适应 (LoRA) 微调的VLM,同时能耗更低。VLM在上下文推理和多模态推理方面仍然具有优势。我们量化了训练和推理过程中的能耗和二氧化碳排放,并分析了部署的可持续性权衡。据我们所知,这是首次对经LoRA微调的视觉-语言模型和个性化CNN进行联邦暴力检测的比较研究,重点关注能效和环境指标。这些发现支持了一种混合模型:轻量级CNN用于常规分类,VLM则根据复杂或描述性场景选择性激活。所得框架为视频监控中负责任、资源感知的人工智能提供了一个可复现的基线,并可扩展到实时、多模态和生命周期感知的系统。 |
| 2025-10-19 | Parameter-Efficient Fine-Tuning for Low-Resource Languages: A Comparative Study of LLMs for Bengali Hate Speech Detection | null | 孟加拉语社交媒体平台上的仇恨言论急剧增加,对女性和青少年造成了不成比例的影响。尽管BD-SHS等数据集为结构化评估提供了基础,但大多数现有方法要么依赖于计算成本高昂的全模型微调,要么依赖于专有API。本文首次展示了参数高效微调(PEFT)在孟加拉语仇恨言论检测中的应用,使用了LoRA和QLoRA技术。三个经过指令微调的大型语言模型——Gemma-3-4B、Llama-3.2-3B和Mistral-7B——在包含50,281条标注评论的BD-SHS数据集上进行了微调。每个模型通过训练不到其1%的参数进行了适应,从而可以在单个消费级GPU上进行实验。结果表明,Llama-3.2-3B取得了最高的F1分数,达到92.23%,其次是Mistral-7B(88.94%)和Gemma-3-4B(80.25%)。这些发现确立了PEFT作为一种实用且可复现的策略,适用于孟加拉语及相关低资源语言。 |
| 2025-10-19 | EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation | null | 基于X射线图像的医学报告生成(MRG)是人工智能领域的一个关键方向,可以显著减轻临床医生的诊断负担并缩短患者等待时间。现有MRG模型主要依赖大型语言模型(LLM)来改进报告生成,对预训练视觉基础模型或先进微调技术的探索有限。主流框架要么避免微调,要么采用LoRA等简单方法,经常忽视增强交叉注意力机制的潜力。此外,尽管基于Transformer的模型在视觉-语言任务中占据主导地位,非Transformer架构,例如Mamba网络,在医学报告生成方面仍未得到充分探索,为未来的研究提供了一个有前景的方向。在本文中,我们提出了EMRRG,一个新颖的X射线报告生成框架,它利用参数高效方法对预训练Mamba网络进行微调。具体而言,X射线图像被分割成图像块,并进行标记化,随后由基于SSM的视觉骨干网络进行处理以提取特征,其中Partial LoRA产生了最佳性能。一个带有混合解码器的LLM生成医学报告,实现了端到端训练,并在基准数据集上取得了优异结果。在三个广泛使用的基准数据集上进行的广泛实验充分验证了我们提出的X射线MRG策略的有效性。本文的源代码将发布在https://github.com/Event-AHU/Medical_Image_Analysis。 |
| 2025-10-19 | All You Need is One: Capsule Prompt Tuning with a Single Vector | null | 基于提示的学习已成为一种参数高效微调(PEFT)方法,通过任务感知指导来调节生成,从而促进大语言模型(LLM)适应下游任务。尽管取得了成功,但当前的基于提示的学习方法严重依赖费力的网格搜索来寻找最佳提示长度,并且通常需要大量的提示,引入了额外的计算负担。更糟糕的是,我们的初步发现表明,任务感知提示设计本质上受限于其缺乏实例感知信息,导致与输入序列的微妙注意力交互。相比之下,简单地将实例感知信息作为指导的一部分,可以在无需额外微调的情况下提升提示微调模型的性能。此外,我们发现了一个有趣的现象,即“注意力锚点”,将实例感知标记整合到序列的最早位置,能够成功地保持对关键结构信息的强注意力,并与所有输入标记表现出更活跃的注意力交互。鉴于我们的观察,我们引入了胶囊提示微调(CaPT),这是一种高效且有效的解决方案,将现成的、信息丰富的实例语义利用到基于提示的学习中。我们的方法以几乎无参数的方式(即一个单一的胶囊提示)创新性地整合了实例感知和任务感知信息。实验结果表明,我们的方法在各种语言任务中(例如,在T5-Large上平均准确率为84.03%)表现出卓越的性能,作为“注意力锚点”,同时享有高参数效率(例如,在Llama3.2-1B上仅占模型参数的0.003%)。 |
| 2025-10-18 | ReviewSense: Transforming Customer Review Dynamics into Actionable Business Insights | null | 随着客户反馈在战略增长中日益占据核心地位,从非结构化评论中提取可操作见解的能力变得至关重要。尽管传统的人工智能驱动系统擅长预测用户偏好,但将客户评论转化为规范性、面向业务的建议的研究却少之又少。本文介绍了ReviewSense,一个新颖的规范性决策支持框架,它利用先进的大型语言模型(LLMs)将客户评论转化为有针对性的、可操作的业务建议。通过识别客户情绪中的关键趋势、反复出现的问题和具体担忧,ReviewSense超越了基于偏好的系统,为企业提供了更深入的洞察,以维持增长和增强客户忠诚度。本工作的创新之处在于将聚类、LLM适应和专家驱动的评估整合到一个统一的、面向业务的流程中。初步的手动评估表明,模型的建议与业务目标高度一致,突显了其推动数据驱动决策的潜力。该框架为人工智能驱动的情感分析提供了新的视角,展示了其在优化业务策略和最大化客户反馈影响方面的价值。 |
| 2025-10-16 | Attention Is All You Need for KV Cache in Diffusion LLMs | null | 本工作研究如何自适应地重新计算扩散大语言模型(DLM)的键值(KV)缓存,以最大化预测准确性同时最小化解码延迟。先前方法的解码器在每个去噪步骤和层对所有token重新计算QKV,尽管KV状态在大多数步骤中变化不大,尤其是在浅层,这导致了大量的冗余。我们有三个发现:(1) 远距离的MASK token主要充当长度偏差,并且可以在活跃预测窗口之外按块进行缓存;(2) KV动态随深度增加,表明从更深层开始的选择性刷新是足够的;(3) 最受关注的token表现出最小的KV漂移,为其他token的缓存变化提供了保守的下界。基于这些发现,我们提出了Elastic-Cache,这是一种无需训练、与架构无关的策略,它协同决定何时刷新(通过对最受关注token的注意力感知漂移测试)以及何处刷新(通过一个深度感知调度,从选定层开始重新计算,同时重用浅层缓存和窗口外MASK缓存)。与固定周期方案不同,Elastic-Cache为扩散大语言模型执行自适应的、层感知的缓存更新,减少了冗余计算,并在生成质量损失可忽略不计的情况下加速了解码。在LLaDA-Instruct、LLaDA-1.5和LLaDA-V上进行的数学推理和代码生成任务实验展示了一致的加速效果:在GSM8K(256个token)上达到8.7倍,在更长序列上达到45.1倍,在HumanEval上达到4.8倍,同时始终保持比基线更高的准确性。我们的方法实现了显著更高的吞吐量(在GSM8K上达到6.8倍),优于现有的基于置信度的方法,同时保持生成质量,从而实现扩散大语言模型的实际部署。 |
| 2025-10-16 | AI-Powered Early Diagnosis of Mental Health Disorders from Real-World Clinical Conversations | null | 精神健康障碍仍然是全球导致残疾的主要原因之一,然而,由于主观评估、临床资源有限以及污名化和低认知度,抑郁症、焦虑症和创伤后应激障碍(PTSD)等疾病经常被漏诊或误诊。在初级保健环境中,研究表明,提供者在超过60%的病例中误诊抑郁症或焦虑症,这凸显了对可扩展、可及且上下文感知的诊断工具的迫切需求,以支持早期发现和干预。在本研究中,我们使用一个包含553个真实世界半结构化访谈的独特数据集,评估了机器学习模型用于心理健康筛查的有效性,每个访谈都与重度抑郁发作(MDE)、焦虑症和PTSD的真实诊断配对。我们对多种模型类别进行了基准测试,包括使用GPT-4.1 Mini和MetaLLaMA进行零样本提示,以及使用低秩适应(LoRA)微调的RoBERTa模型。我们的模型在所有诊断类别中均达到了超过80%的准确率,尤其在PTSD上表现出色(准确率高达89%,召回率高达98%)。我们还发现,使用更短、聚焦的上下文片段可以提高召回率,这表明聚焦的叙事线索能增强检测灵敏度。LoRA微调被证明既高效又有效,较低秩配置(例如秩8和秩16)在各项评估指标上均保持了有竞争力的性能。我们的结果表明,基于大型语言模型(LLM)的模型可以比传统的自我报告筛查工具提供显著改进,为低门槛、人工智能驱动的早期诊断提供了一条途径。这项工作为将机器学习整合到真实世界的临床工作流程中奠定了基础,尤其是在资源匮乏或污名化严重、及时获得心理健康护理最为受限的环境中。 |
| 2025-10-15 | Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs | null | 大型语言模型(LLMs)的兴起为在游戏环境中创建动态非玩家角色(NPCs)开辟了新机遇,使其既能执行功能性任务,又能生成与角色设定一致的对话。在本文中,我们(Tu_Character_lab)报告了我们参与2025年常识性角色导向对话挑战赛(CPDC)第二轮的情况,该挑战赛在任务导向对话、上下文感知对话及其集成这三个赛道上评估智能体。我们的方法结合了两种互补策略:(i) 在API赛道中采用轻量级提示技术,包括一种“去过度角色扮演”提示方法,以抑制过度的角色扮演并提高任务保真度;(ii) 在GPU赛道中采用微调大型模型,利用Qwen3-14B并结合有监督微调(SFT)和低秩适应(LoRA)。我们最好的提交结果在任务1中排名第二,在任务3(API赛道)中排名第二,在任务3(GPU赛道)中排名第四。 |
| 2025-10-15 | Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models | null | 大语言模型在跨语言方面表现出不均衡的性能,高资源语言和低资源语言之间存在显著差距。我们提出一个框架,通过对语言特异性子网络进行有针对性的微调,在保持大语言模型通用性能的同时,增强其在代表性不足语言中的单语言能力。我们的方法使用语言激活概率熵识别语言特异性神经元,并仅在目标语言数据上微调与这些神经元(一个专用子网络)相关的权重。在Llama-3.1-8B和Mistral-Nemo-12B上涵盖12种中低资源语言的实验表明,我们的方法始终优于全量微调、仅FFN微调、LoRA适应和随机子集微调基线,同时高效地仅更新模型参数的1%。除了性能提升,我们还观察到更优的训练动态、跨语言表征对齐以及系统性的权重更新变化。为了促进未来的研究,我们发布了超过100种语言的语言特异性神经元识别结果以及我们的适应管道,为将最先进的模型适应到代表性不足的语言中提供了一条经济高效的途径。 |
| 2025-10-15 | K-Merge: Online Continual Merging of Adapters for On-device Large Language Models | null | 大语言模型(LLMs)的设备端部署常利用低秩适配器(LoRAs)在紧张的资源约束下支持多样化的下游任务。为解决移动设备存储容量有限的问题,近期研究探索了模型合并技术,以将多个LoRA融合为一个。然而在实践中,LoRA通常是增量式交付的,即随着用户请求对新任务(例如,新型问题类型或语言)的支持而提供。这种情况引入了一个新挑战:设备端在线持续合并,其目标是在整合新的LoRA的同时,保持对先前已支持任务的性能。在本文中,我们提出了一种免数据且计算高效的策略,用于在新的LoRA可用时选择和合并LoRA,假设设备只能存储有限数量的适配器。在真实世界任务上的大量实验证明,与替代策略相比,我们的方法在遵守设备端设置的存储预算和计算限制的同时,展现出优越性。 |
| 2025-10-15 | Protect: Towards Robust Guardrailing Stack for Trustworthy Enterprise LLM Systems | null | 大语言模型 (LLM) 在企业和任务关键型领域日益增多的部署,强调了对确保安全性、可靠性和合规性的强大护栏系统的迫切需求。现有解决方案常常难以应对实时监督、多模态数据处理和可解释性——这些局限性阻碍了它们在受监管环境中的采用。现有护栏大多独立运行,仅关注文本,这使得它们不足以应对多模态、生产规模的环境。我们推出了 Protect,这是一种原生多模态护栏模型,旨在无缝运行于文本、图像和音频输入,并专为企业级部署设计。Protect 集成了经过微调的、类别特定的适配器,这些适配器通过低秩适应 (LoRA) 在一个广泛的多模态数据集上进行训练,涵盖了四个安全维度:有害性、性别歧视、数据隐私和提示注入。我们的教师辅助标注管道利用推理和解释追踪,跨模态生成高保真、上下文感知的标签。实验结果表明,Protect 在所有安全维度上均展现出最先进的性能,超越了现有的开源和专有模型,例如 WildGuard、LlamaGuard-4 和 GPT-4.1。Protect 为可信赖、可审计且可用于生产环境的安全系统奠定了坚实基础,这些系统能够在文本、图像和音频模态中运行。 |
| 2025-10-15 | What “Not” to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging | null | 最先进的视觉-语言模型(VLM)在理解否定方面存在一个关键性缺陷,通常被称为肯定偏见。这种局限性在描述性目标检测(DOD)任务中尤为严重。为解决此问题,我们提出了两项主要贡献:(1)一种新的数据集构建流程和(2)一种新颖、轻量级的适应方法。首先,我们引入了CoVAND,一个通过系统化的思维链(CoT)和基于VQA的流程构建的数据集,以生成高质量、实例级接地的否定数据。其次,我们提出了NegToMe,一个新颖的文本词元合并模块,它直接解决了肯定偏见的架构性原因。NegToMe从根本上解决了词元化过程中否定线索的结构性丢失问题,将它们与属性分组,形成连贯的语义短语。它在输入层面保持了正确的极性,从而实现了鲁棒的否定理解,即使在数据有限的情况下也是如此。例如,为了防止模型将零散的词元“not”和“girl”简单地视为“girl”,NegToMe将它们绑定成一个单一的词元,其含义与单独的“girl”正确区分开来。该模块与一种参数高效且具有策略性的LoRA微调方法相结合。我们的方法显著提升了在具有挑战性的否定基准上的性能,降低了假阳性率,在OVDEval上将NMS-AP提高了高达+10.8个百分点,并展示了对最先进VLM的泛化能力。这项工作标志着在解决现实世界检测应用的否定理解方面迈出了关键一步。 |
| 2025-10-14 | OPLoRA: Orthogonal Projection LoRA Prevents Catastrophic Forgetting during Parameter-Efficient Fine-Tuning | null | 低秩适配(LoRA)能够高效微调大语言模型,但当学习到的更新干扰编码重要预训练知识的主导奇异方向时,它会遭受灾难性遗忘。我们提出正交投影LoRA(OPLoRA),这是一种有理论基础的方法,通过双边正交投影来阻止这种干扰。通过SVD分解冻结权重,OPLoRA利用投影 $P_L = I - U_k U_k^\top$和$P_R = I - V_k V_k^\top$将LoRA更新约束在完全位于前$k$个奇异子空间的正交补空间内。我们证明了这种构造精确地保留了前$k$个奇异三元组,为知识保留提供了数学保证。为了量化子空间干扰,我们引入了$\rho_k$ 作为衡量更新与主导方向对齐程度的度量。在常识推理、数学和代码生成方面进行的大量实验表明,OPLoRA显著减少了遗忘,同时在LLaMA-2 7B和Qwen2.5 7B上保持了有竞争力的特定任务性能,确立了正交投影作为参数高效微调中知识保留的有效机制。 |
| 2025-10-14 | The Curious Case of Curiosity across Human Cultures and LLMs | link | 大型语言模型(LLMs)的最新进展拓展了它们在人机交互中的作用,然而,好奇心——探究的核心驱动力——在这些系统中仍未得到充分探索,尤其是在跨文化背景下。在这项工作中,我们利用雅虎问答(Yahoo! Answers)——一个涵盖广泛主题的真实世界多国数据集——调查好奇心的文化差异。我们引入了CUEST(跨社会好奇心评估),这是一个通过语言(风格)、主题偏好(内容)分析并将洞察力建立在社会科学构建之上,以衡量好奇心方面人机对齐的评估框架。跨越开源和闭源模型,我们发现LLMs趋于弱化跨文化多样性,更紧密地与西方国家好奇心的表达方式对齐。随后,我们探索了微调策略以在LLMs中诱导好奇心,将人机对齐差距缩小了高达50%。最后,我们展示了好奇心对于LLM在跨文化中的适应性的实际价值,表明其对未来自然语言处理(NLP)研究的重要性。 |
| 2025-10-14 | Personalized Federated Fine-Tuning of Vision Foundation Models for Healthcare | null | 基础模型为人工智能在医疗保健领域的应用开辟了新的可能性。然而,即使在健康数据上进行了预训练,它们仍然需要进行微调以适应特定的下游任务。此外,尽管基础模型减少了达到良好性能所需的训练数据量,但获取足够的数据仍然是一个挑战。这部分是由于为了保护患者隐私而限制了来自不同来源的数据共享和聚合。一个可能的解决方案是通过联邦学习跨多个参与客户端(即医院、诊所等)微调基础模型。在这项工作中,我们提出了一种新的个性化联邦微调方法,该方法学习正交的LoRA适配器以解耦通用知识和客户端特定知识,使每个客户端都能充分利用自身数据和他人数据。我们的初步结果在真实世界的联邦医学影像任务上表明,我们的方法与当前的联邦微调方法相比具有竞争力。 |
| 2025-10-14 | The Role of Parametric Injection-A Systematic Study of Parametric Retrieval-Augmented Generation | null | 检索增强生成(RAG)通过检索外部文档来增强大型语言模型(LLM)。作为一种新兴的RAG形式,参数化检索增强生成(PRAG)将文档编码为模型参数(即LoRA模块),并在推理过程中将这些表示注入模型,从而使LLM与文档能够在参数层面进行交互。与直接将文档放入输入上下文相比,PRAG更高效,并有可能提供更深层次的模型与文档交互。尽管PRAG受到越来越多的关注,但参数注入的底层机制仍知之甚少。在这项工作中,我们对PRAG进行了系统性研究,以阐明参数注入的作用,结果表明参数化文档仅捕获文档的部分语义信息,并且单独依赖它们与文本层面的交互相比,性能较差。然而,这些参数化表示编码了高级文档信息,可以增强模型对输入上下文中文档的理解。当参数化文档与文本文档结合使用时,模型可以更有效地利用相关信息,并对噪声输入更具鲁棒性,从而实现优于单独使用任一来源的性能。我们建议联合使用参数化文档和文本文档,并提倡增加参数化表示的信息含量以推进PRAG。 |
| 2025-10-14 | DeePAQ: A Perceptual Audio Quality Metric Based On Foundational Models and Weakly Supervised Learning | null | 本文提出了一种基于深度学习的感知音频质量度量(DeePAQ),用于评估通用音频质量。我们的方法利用度量学习与音乐基础模型MERT相结合,并在代理标签的指导下,构建了一个能够捕获通用音频中失真强度的嵌入空间。据我们所知,DeePAQ是通用音频质量领域中首次利用弱监督标签和度量学习,通过低秩适应(LoRA)微调音乐基础模型的方法,这是其他最先进方法尚未探索的方向。我们通过涵盖音频编码和源分离的听力测试,将所提出的模型与最先进的客观音频质量度量进行了基准测试。结果表明,我们的方法在检测编码伪影方面超越了现有度量标准,并且对源分离等未见过的失真泛化良好,突出了其鲁棒性和多功能性。 |
| 2025-10-14 | HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Generalization | null | 低秩适应(LoRA)因其模块化设计和在HuggingFace等平台上的广泛可用性,已成为将大型语言模型(LLM)适应新领域的广泛使用技术。这种可用性促使人们努力重用现有LoRA以实现域泛化。然而,现有方法通常依赖于显式任务标签或额外训练,这对于部署来说是不切实际的。此外,它们通常激活固定数量的整个LoRA模块,导致参数冗余或不足,从而降低性能。在本文中,我们提出了\texttt{HiLoRA},一个免训练框架,它在LoRA池上执行自适应分层路由。借鉴LoRA的结构特性,我们定义了秩一分量(ROCs),其中每个秩参数被视为一个独立单元。对于给定的输入序列,\texttt{HiLoRA}首先自适应地选择一个LoRA子集,并根据序列级别的高斯似然确定其ROCs分配。在词元级别,它通过仅激活最具信息量的ROCs来进一步细化路由。我们进一步提供了理论保证,表明\texttt{HiLoRA}以高概率选择最相关的LoRA。广泛的实验表明,\texttt{HiLoRA}在域泛化方面取得了显著改进,相较于最先进的基线,准确率提高了高达55%,同时保持了可比的推理吞吐量。 |
| 2025-10-14 | Evolution of meta’s llama models and parameter-efficient fine-tuning of large language models: a survey | null | 本综述调查了Meta AI的LLaMA(大型语言模型Meta AI)系列的快速演进——从LLaMA 1到LLaMA 4,以及为这些模型开发的专门的参数高效微调(PEFT)方法。我们首先描述了LLaMA系列基础模型(从7B-65B到288B参数),它们的架构(包括原生多模态和专家混合变体),以及关键的性能特征。随后,我们描述并讨论了PEFT的概念,该方法通过仅更新一小部分参数来适应大型预训练模型,并回顾了五种已应用于LLaMA的PEFT方法:LoRA(低秩适应)、LLaMA-Adapter V1和V2、LLaMA-Excitor以及QLoRA(量化LoRA)。我们讨论了每种方法的机制、参数节省以及在LLaMA上的应用示例(例如,指令微调、多模态任务)。我们对模型和适配器架构、参数数量以及基准测试结果进行了结构化讨论和分析(包括微调的LLaMA模型超越更大基线模型的例子)。最后,我们考察了LLaMA模型和PEFT成功应用的实际案例(例如,法律和医疗领域),并讨论了持续挑战和未来研究方向(例如,扩展到更大的上下文和提高鲁棒性)。本综述论文为对LLaMA模型和高效微调策略感兴趣的机器学习研究人员和从业者提供了一站式资源。 |
| 2025-10-14 | Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback | null | 扩散模型近期进展显著改进了音频驱动的人体视频生成,在质量和可控性上均超越了传统方法。然而,现有方法在唇形同步精度、长视频生成的时间连贯性以及多角色动画方面仍面临挑战。在这项工作中,我们提出了一种基于扩散Transformer (DiT) 的框架,用于生成任意长度的逼真说话视频,并引入了一种免训练的多角色音频驱动动画方法。首先,我们采用了一种基于LoRA的训练策略,并结合了位置偏移推理方法,这使得在保留基础模型能力的同时,能够高效地生成长视频。此外,我们结合了部分参数更新与奖励反馈,以同时增强唇形同步和自然身体动作。最后,我们提出了一种免训练方法,即掩码分类器自由引导 (Mask-CFG),用于多角色动画,该方法不需要专门的数据集或模型修改,并支持三个或更多角色的音频驱动动画。实验结果表明,我们的方法优于现有最先进的方法,以一种简单、高效且经济的方式实现了高质量、时间连贯的多角色音频驱动视频生成。 |
| 2025-10-14 | FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning | null | 大语言模型(LLMs)的微调(FT)对于使通用模型适应特定任务、以最少资源提高准确性和相关性至关重要。为进一步增强泛化能力同时降低训练成本,本文提出了一种新颖的框架——联邦LoRA与Dropout (FedLoDrop),它将dropout应用于联邦LoRA中可训练矩阵的行和列。本文推导了在稀疏性正则化下的泛化误差界和收敛性分析,阐明了欠拟合和过拟合之间的基本权衡。误差界揭示,更高的dropout率增加了模型稀疏性,从而降低了点式假设稳定性(PHS)的上限。尽管这减少了经验误差和泛化误差之间的差距,但它也导致了更高的经验误差,而经验误差与差距共同决定了整体泛化误差。另一方面,尽管dropout降低了通信成本,但由于有限的网络资源,在网络边缘部署FedLoDrop仍然面临挑战。为解决这个问题,本文提出了一个优化问题,通过联合优化dropout率和资源分配,以最小化泛化误差的上限,同时受限于延迟和每设备能耗约束。为了解决这个问题,本文提出了一种基于分支定界(B&B)的方法以获得其全局最优解。此外,为了降低基于B&B方法的高计算复杂度,本文提出了一种基于惩罚连续凸逼近(P-SCA)的算法,以有效获得其高质量次优解。最后,数值结果证明了所提出方法在缓解过拟合和提高泛化能力方面的有效性。 |
| 2025-10-14 | Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models | null | 现有的大型语言模型 (LLMs) 对齐技术,例如直接偏好优化 (DPO),通常将模型视为一个单一整体,对所有层施加统一的优化压力。这种方法忽略了 Transformer 架构内部的功能专业化,在该架构中,不同层已知处理从语法到抽象推理的不同任务。在本文中,我们通过引入分层对齐来挑战这种一刀切的范式,这是一种将有针对性的 DPO 应用于模型层中不同功能块的新颖方法:局部(语法)、中间(逻辑)和全局(事实性)。通过对 Llama-3.1-8B 和 Qwen1.5-7B 等最先进模型进行一系列使用 LoRA 进行外科式微调的对照实验,我们由一个强大的“LLM作为评判者”评估的结果,证明了显著且可预测的改进。具体来说,对齐局部层(局部对齐)增强了语法流畅性。更重要的是,对齐全局层(全局对齐)不仅如假设般提高了事实一致性,而且被证明是增强逻辑连贯性最有效的策略,优于所有基线。关键的是,所有分层策略都成功避免了在标准 DPO 中观察到的“对齐税”,即流畅性上的提升是以逻辑推理能力下降为代价的。这些发现为模型对齐建立了一条更资源高效、可控且可解释的路径,强调了从单一整体优化转向结构感知的外科式微调在构建更先进、更可靠的 LLMs 方面的巨大潜力。 |
| 2025-10-13 | QeRL: Beyond Efficiency – Quantization-enhanced Reinforcement Learning for LLMs | null | 我们提出了QeRL,一个针对大型语言模型(LLMs)的量化增强强化学习框架。尽管强化学习对于LLMs的推理能力至关重要,但它资源密集,需要大量的GPU内存和漫长的rollout(轨迹生成)持续时间。QeRL通过结合NVFP4量化与低秩适应(LoRA)来解决这些问题,加速了强化学习的rollout阶段,同时降低了内存开销。除了效率之外,我们的发现表明,量化噪声增加了策略熵,增强了探索能力,并使得在强化学习过程中能够发现更好的策略。为了进一步优化探索,QeRL引入了一种自适应量化噪声(AQN)机制,该机制在训练期间动态调整噪声。实验表明QeRL在rollout阶段提供了超过1.5倍的加速。此外,这是第一个能够在单个H100 80GB GPU上实现32B LLM的强化学习训练的框架,同时为强化学习训练带来了整体加速。它还比16位LoRA和QLoRA实现了更快的奖励增长和更高的最终准确率,同时在7B模型上,在GSM8K(90.8%)和MATH 500(77.4%)等数学基准测试中,其性能与全参数微调相当。这些结果确立了QeRL作为一个高效且有效的LLMs强化学习训练框架。 |
| 2025-10-13 | MeTA-LoRA: Data-Efficient Multi-Task Fine-Tuning for Large Language Models | null | 低秩适应 (LoRA) 已成为将大语言模型 (LLMs) 适应到下游任务中最广泛使用的参数高效微调 (PEFT) 方法之一。尽管在单任务设置中非常高效,但在复杂的多任务学习场景中,LoRA 难以有效利用任务间知识,通常需要大量特定任务数据才能达到最佳性能。为解决这一局限性,我们引入了 MeTA-LoRA,这是一个两阶段优化框架,可显著提高多任务适应中的数据效率。在第一阶段,仅使用每个相关数据集的少量样本来学习特定任务的 LoRA 适配器,从而在无需大规模监督的情况下实现快速适应。在第二阶段,通过聚合来自多个任务的梯度来更新共享 LoRA 适配器,以促进跨任务的知识迁移,并通过利用共同模式进一步减少数据使用。在多任务学习和多语言学习场景中,我们的方法达到或超越了传统全数据 LoRA 微调方法的性能,同时显著减少了特定任务数据的使用量。 |
| 2025-10-10 | Vision Language Models: A Survey of 26K Papers | null | 我们对2023-2025年CVPR、ICLR和NeurIPS的26,104篇录用论文的研究趋势进行了透明、可复现的测量。论文标题和摘要经过规范化、短语保护处理,并与手工构建的词典进行匹配,以分配多达35个主题标签,并挖掘关于任务、架构、训练方案、目标、数据集以及共同提及模态的细粒度线索。分析量化了三个宏观转变:(1) 多模态视觉-语言-大型语言模型(LLM)工作急剧增长,这越来越将经典感知重构为指令遵循和多步推理;(2) 生成方法稳步扩展,其中扩散模型研究围绕可控性、蒸馏和速度进行整合;(3) 3D和视频研究活动保持活跃,合成技术从NeRFs转向高斯泼溅,并且越来越强调以人-和智能体为中心的理解。在视觉-语言模型(VLM)内部,提示/适配器/LoRA等参数高效适应技术和轻量级视觉-语言桥梁占据主导地位;训练实践从头构建编码器转向指令微调和微调强大的骨干网络;对比目标相对于交叉熵/排序和蒸馏有所退却。跨会议比较显示,CVPR在3D领域有更强的影响力,ICLR拥有最高的VLM份额,而效率或鲁棒性等可靠性主题则扩散到各个领域。我们发布了该词典和方法,以方便审计和扩展。局限性包括词典召回率和仅限于摘要的范围,但纵向信号在不同会议和年份之间保持一致。 |
| 2025-10-10 | Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives | null | 自由文本事故叙述记录在真实世界事故数据库中,已被证明在改善交通安全方面发挥着重要作用。然而,大规模分析仍难以实施,因为没有已记录的工具可以批量处理由经验各异、细致程度不同的作者撰写的非结构化、非标准化文本内容。近年来,基于Transformer的预训练语言模型(PLM),如基于Transformer的双向编码器表示(BERT)和大语言模型(LLM),在各种自然语言处理任务中展现出强大的能力。这些模型可以从事故叙述中提取显性事实,但其在推理密集型任务(例如,可能涉及近100个类别的事故类型识别)上的性能会下降。此外,通过外部API依赖闭源LLM会引发敏感事故数据的隐私问题。另外,这些黑盒工具由于领域知识有限,往往表现不佳。受这些挑战的启发,我们研究了紧凑型开源PLM是否能支持从事故叙述中进行推理密集型提取。我们针对两个具有挑战性的目标:1)识别事故的碰撞方式,以及2)从真实世界事故叙述中识别事故事件中每辆涉事车辆的事故类型。为弥合领域差距,我们应用微调技术,通过低秩适应(LoRA)和BERT向LLM注入任务特定知识。在权威的真实世界数据集事故调查抽样系统(CISS)上进行的实验表明,我们微调后的紧凑模型优于强大的闭源LLM,例如GPT-4o,同时仅需极少的训练资源。进一步分析表明,微调后的PLM可以捕获更丰富的叙述细节,甚至纠正数据集中一些错误标注。 |
| 2025-10-10 | Understanding the Effects of Domain Finetuning on LLMs | null | 针对特定领域微调的大语言模型(LLMs)表现出强大的性能;然而,这种微调如何重塑其参数空间的潜在机制尚未被充分理解。先前的工作主要关注自回归或通用指令模型,使得领域专用LLMs的研究不足。我们首次对大型医学语言模型中的领域特定微调进行了系统性研究。我们的分析表明,微调仅修改了表征子空间的一小部分,基本上保留了预训练模型的表征。为了解释子空间中的这些变化,我们提出了调优向量,这是一种受任务向量启发的全新框架,它明确捕获了由微调引起的参数方向性偏移。我们证明这些向量对于增强指令遵循能力和生成质量至关重要。此外,结合来自不同领域的调优向量能够提高泛化能力。对方向性对齐进行更仔细的检查后,我们发现这些向量主要将新的方向性信息写入模型的MLP层,同时放大注意力头中已有的方向。我们的发现为LLM适应性提供了新见解,并提供了一个通用、可解释的框架,用于分析大语言模型中的专业化。 |
| 2025-10-10 | Auto-scaling Continuous Memory for GUI Agent | link | 我们研究如何赋予GUI智能体可扩展记忆,以帮助其在不熟悉的界面和长周期任务中进行泛化。此前的GUI智能体将过去的轨迹压缩成文本标记,这会显著增加上下文长度并遗漏决定性的视觉线索(例如,精确的控件大小和位置)。我们提出一种连续记忆,它使用VLM本身作为编码器,将每个GUI轨迹编码成固定长度的连续嵌入序列;这些嵌入直接插入到主干网络的输入层,大幅降低了上下文成本,同时保留了细粒度的视觉信息。随着记忆大小和检索深度的增加,性能单调提升,这与文本记忆在长提示下性能下降的情况不同。为了以低成本扩展记忆,我们引入了一个自动扩展数据飞轮,它(i)通过搜索发现新环境,(ii)使用开源VLM合成任务,(iii)使用智能体推出轨迹,以及(iv)使用同一VLM验证成功。利用这个管道,我们以大约4000美元的成本收集了超过10万条轨迹,并仅使用1500个样本对记忆编码器(Q-Former上的LoRA,1.2%参数)进行微调。在真实世界的GUI基准测试中,我们的记忆增强智能体在长周期和分布偏移下持续提高成功率。值得注意的是,Qwen-2.5-VL-7B加上连续记忆达到了与最先进的闭源模型(例如GPT-4o、Claude-4)相当的性能。 |
| 2025-10-09 | TinyGraphEstimator: Adapting Lightweight Language Models for Graph Structure Inference | null | 图为表示复杂的关联系统提供了通用框架,推断其结构属性是图分析和推理中的核心挑战。尽管大语言模型最近在执行符号和数值推理方面展示出了新兴能力,但在此背景下,小型、资源高效模型的潜力仍未得到充分探索。本文研究紧凑型Transformer语言模型是否能直接从文本图表示中推断图论参数。为了实现系统评估,我们引入了TinyGraphEstimator数据集——一个从多种随机图模型生成并用详细的结构元数据进行标注的平衡连通图集合。我们评估了几个小型开源模型在预测关键图参数(例如密度、聚类系数和色数)方面的能力。此外,我们使用低秩适应(LoRA)技术应用了轻量级微调,在所有评估指标上取得了持续改进。结果表明,小型语言模型对图结构数据具有非平凡的推理能力,并且可以通过高效的参数调整有效地适应结构推断任务。 |
| 2025-10-09 | FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts | link | 低秩适应(LoRA)是一种广泛用于基础模型的参数高效微调方法,但它存在参数干扰问题,导致次优性能。尽管基于专家混合(MoE)的LoRA变体在缓解单任务指令微调中的任务内相关性方面显示出前景,但它们引入了额外的路由参数,并且在出现任务间干扰的多任务模型合并中仍然无效。受苍蝇嗅觉回路的启发,我们提出了FlyLoRA,这是一种隐式基于MoE的LoRA变体,它引入了:(1)上投影矩阵中的秩级专家激活,以及(2)一个统一了专家路由和下投影的隐式路由器,其中一个冻结的稀疏随机投影矩阵取代了传统的密集可训练版本。这种设计通过消除对显式路由器的需求,解决了任务内去相关和计算效率之间的权衡,同时由于随机矩阵的正交性,固有地缓解了任务间干扰。跨通用知识理解、科学问答、数学推理和代码生成这四个领域的大量实验证明,FlyLoRA相对于现有方法具有一致的性能提升。除了经验性收益之外,FlyLoRA还强调了生物结构如何启发人工智能技术的创新。代码可在https://github.com/gfyddha/FlyLoRA获取。 |
| 2025-10-09 | Mitigating Subject Dependency in EEG Decoding with Subject-Specific Low-Rank Adapters | link | 受试者特异性分布偏移是脑电图解码基础模型开发的一个重要障碍。为解决此问题,我们提出了受试者条件层(Subject-Conditioned Layer),这是一种自适应层,旨在作为任何神经网络架构中标准线性层或卷积层的即插即用替代品。我们的层通过将其权重分解为一个共享的、受试者不变的组件以及一个轻量级、低秩的、每个受试者独有的校正项,从而捕获受试者特异性变异性。这种将通用知识与个性化适应明确分离的方法,使现有模型能够对受试者偏移具有鲁棒性。经验上,配备我们层的模型优于仅使用共享权重的模型(受试者无关模型)以及单独训练的受试者特异性模型的平均性能。因此,受试者条件层为构建有效的跨受试者脑电图基础模型提供了一条实用且可扩展的路径。 |
| 2025-10-09 | HySim-LLM: Embedding-Weighted Fine-Tuning Bounds and Manifold Denoising for Domain-Adapted LLMs | null | 从科学文献中提取和标准化药代动力学(PK)信息仍然是计算药理学中的重大挑战,这限制了数据驱动模型在药物开发中的可靠性。大语言模型(LLMs)在文本理解和推理方面取得了显著进展,但其对结构化生物医学数据(如PK表格)的适应性仍受到异质性、噪声和领域漂移的限制。为解决这些局限性,我们提出了HySim-LLM,一个统一的数学和计算框架,它整合了嵌入加权微调和流形感知去噪,以增强LLMs的鲁棒性和可解释性。我们建立了两个理论结果:(1)一个相似度加权泛化界,量化了嵌入散度下的适应性能,以及(2)一个基于流形的去噪保证,限制了来自噪声或偏离流形的样本的损失贡献。这些定理为在结构化生物医学环境中微调LLMs提供了原则性基础。该框架为生物医学和数据密集型科学领域中可靠且可解释的LLM适应提供了一条具有数学基础的途径。 |
| 2025-10-09 | Banking Done Right: Redefining Retail Banking with Language-Centric AI | null | 本文介绍了Ryt AI,一个LLM原生智能体框架,它为Ryt银行提供支持,使客户能够通过自然语言对话执行核心金融交易。这代表了全球首个获得监管机构批准的部署,其中对话式AI作为主要的银行界面,与之前仅限于咨询或支持角色的助手形成对比。Ryt AI完全自主开发,由内部开发的闭源LLM ILMU驱动,并用一个由四个LLM驱动的智能体(Guardrails、Intent、Payment和FAQ)编排的单一对话取代了僵硬的多屏幕工作流程。每个智能体都为ILMU附加一个任务特定的LoRA适配器,ILMU部署在银行基础设施内,以确保行为一致且开销最小。确定性护栏、人工干预确认以及无状态审计架构为安全和合规性提供了深度防御。最终实现了“银行事务,妥善办理”这一目标:证明了经监管机构批准的自然语言界面能够在严格治理下可靠地支持核心金融操作。 |
| 2025-10-09 | Role-Conditioned Refusals: Evaluating Access Control Reasoning in Large Language Models | null | 访问控制是安全计算的基石,然而大型语言模型通过生成不受限制的响应,常常模糊了角色边界。我们研究了角色条件式拒绝,重点关注LLM在被授权时回答、未被授权时拒绝,从而遵守访问控制策略的能力。为了评估这种行为,我们创建了一个新颖的数据集,该数据集扩展了Spider和BIRD文本到SQL数据集,这两个数据集都已通过表级和列级的真实PostgreSQL基于角色的策略进行了修改。我们比较了三种设计:(i) 零样本或少样本提示,(ii) 一个根据策略检查SQL的两步生成器-验证器流水线,以及 (iii) 直接学习权限感知的LoRA微调模型。在多个模型家族中,显式验证(两步框架)提高了拒绝的精确度并降低了错误允许。同时,微调在安全性和实用性(即,在考虑执行准确性时)之间实现了更强的平衡。更长、更复杂的策略持续降低了所有系统的可靠性。我们发布了RBAC增强型数据集和代码。 |
| 2025-10-08 | Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts | null | 自动化红队测试已成为部署前审计大型语言模型(LLMs)的一种可扩展方法,然而现有方法缺乏在推理时有效适应模型特有漏洞的机制。我们引入了Red-Bandit,这是一个红队测试框架,它能在线适应,以识别并利用在不同攻击风格(例如,操纵、俚语)下的模型故障模式。Red-Bandit后训练了一组参数高效的LoRA专家模型,每个专家模型专门针对一种特定攻击风格,并利用强化学习,通过基于规则的安全模型奖励不安全提示的生成。在推理时,一个多臂老虎机策略根据目标模型的响应安全性,动态地从这些攻击风格专家模型中进行选择,从而平衡探索与利用。Red-Bandit在AdvBench上,在充分探索(ASR@10)的条件下取得了最先进的结果,同时生成了更具可读性(更低困惑度)的提示。此外,Red-Bandit的多臂老虎机策略通过指示哪些攻击风格最有效地引发不安全行为,可作为揭示模型特有漏洞的诊断工具。 |
| 2025-10-08 | Making Machines Sound Sarcastic: LLM-Enhanced and Retrieval-Guided Sarcastic Speech Synthesis | null | 讽刺是一种微妙的非字面语言形式,由于其依赖细致入微的语义、上下文和韵律线索,对语音合成构成了重大挑战。现有语音合成研究主要关注广泛的情感类别,而讽刺在很大程度上仍未被充分探索。在本文中,我们提出了一种大语言模型(LLM)增强的检索增强框架,用于讽刺感知语音合成。我们的方法结合了 (1) 来自经过LoRA微调的LLaMA 3的语义嵌入,它们捕捉了讽刺的语用不一致性和语篇级线索,以及 (2) 通过检索增强生成(RAG)模块检索到的韵律范例,它们提供了讽刺表达的富有表现力的参考模式。整合到VITS骨干网络中,这种双重条件化使得生成更自然、上下文更适宜的讽刺性语音成为可能。实验表明,我们的方法在客观指标和主观评估两方面均优于基线,在语音自然度、讽刺表现力以及下游讽刺检测方面都取得了改进。 |
| 2025-10-08 | Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report | null | 世界模型是人工智能和机器人学中一个强大的范式,它使智能体能够通过预测视觉观测或紧凑的潜在状态来推理未来。1X世界模型挑战赛引入了一个针对真实世界人形机器人交互的开源基准,包含两个互补的赛道:采样赛道专注于预测未来图像帧,压缩赛道专注于预测未来离散潜在编码。对于采样赛道,我们调整了视频生成基础模型Wan-2.2 TI2V-5B以进行视频状态条件下的未来帧预测。我们采用AdaLN-Zero使用机器人状态对视频生成进行条件化,并使用LoRA对模型进行进一步后训练。对于压缩赛道,我们从头开始训练了一个时空Transformer模型。我们的模型在采样任务中达到23.0 dB的PSNR,在压缩任务中达到6.6386的Top-500 CE,在两项挑战中均获得第一名。 |
| 2025-10-07 | MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation | link | 低秩适应 (LoRA) 已成为大语言模型参数高效微调 (PEFT) 中的一种主导方法,它通过一个下投影 $A$ 和一个上投影 $B$ 来增强Transformer层。然而,LoRA 对单个下投影矩阵 ($A$) 的依赖造成了表示瓶颈,因为这个单一的特征提取器本质上不足以捕获复杂任务所需的多种信号。这促使我们进行架构转变,专注于丰富特征适应以提高下游任务适应能力。我们提出了 MASA (多-$A$ 共享适应),这是一种实现多-$A$ 单-$B$ 结构的架构,其中多-$A$ 专家集成在层间非对称共享以确保参数效率。在 MASA 中,这些专门化专家捕获多样化特征,然后由一个单一的、层特定的 $B$ 矩阵进行整合。我们方法的有效性和多功能性通过涵盖多领域泛化、单领域专业化和多任务推理的一系列综合实验得到了验证。例如,在 MMLU 基准测试中,MASA 实现了 59.62% 的平均准确率,以可比的 0.52% 可学习参数,优于标准 LoRA 1.08 个百分点(相对提升 1.84%)。 |
| 2025-10-06 | Resource-Efficient Fine-Tuning of LLaMA-3.2-3B for Medical Chain-of-Thought Reasoning | null | 大语言模型(LLMs),如GPT-4和LLaMA,已展现出卓越的推理能力,但微调需要大量的计算资源。本文提出一种资源高效的微调方法,针对LLaMA-3.2-3B,以增强医疗链式推理能力,同时在受限的GPU和内存环境下运行。采用参数高效微调技术,如LoRA和QLoRA,我们在基础模型上进行适配,基于公开可用的医疗推理数据集。该模型实现了改进的推理连贯性和事实准确性,同时内存使用量相较于标准的全量微调减少高达60%。实验评估表明,轻量级适配在医疗问答任务中能够保持强大的推理能力。这项工作突出了在低资源研究环境中部署LLM的实用策略,并为医疗AI系统平衡效率和领域专业化提供了见解。 |
| 2025-10-06 | TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA | null | 大语言模型(LLMs)广泛应用于实际场景,但对其进行微调会带来显著的计算和存储成本。参数高效微调(PEFT)方法如LoRA缓解了这些成本,但其适应性参数依赖于基础模型,无法跨不同骨干网络迁移。解决此问题的一种方法是通过知识蒸馏,但其有效性本质上取决于训练数据。最近的研究工作,例如TransLoRA,通过生成合成数据来避免此问题,但这增加了复杂性,因为它需要训练一个额外的判别器模型。在本文中,我们提出了TiTok,一个通过令牌级知识迁移实现有效LoRA移植的新框架。具体而言,TiTok通过有LoRA和无LoRA的源模型之间的对比余量来捕获与任务相关的信息。这种余量突出了信息丰富的令牌,并实现了合成数据的选择性过滤,所有这些都无需额外的模型或开销。通过在多个迁移设置下的三个基准数据集上的实验,我们的实验表明,所提出的方法始终有效,与整体基线相比,平均性能提升了4~8%。 |
| 2025-10-06 | Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs | null | 未判文档问题是指,在信息检索中,汇集测试集在评估新的检索系统时存在不完整的相关性判断,这是测试集复用性的一个关键障碍。尽管处理该问题的实际标准是将未判文档视为不相关,但许多替代方案已被提出,包括使用大型语言模型(LLM)作为相关性判官(LLM-as-a-judge)。然而,这被批评为循环论证,因为同一个LLM可以同时用作判官和排序器。我们提出转而训练主题特定的相关性分类器:通过对针对单个主题文档池的单个评估员的判断进行独立的LoRA权重适应来微调monoT5,我们使其与该评估员对该主题的相关性概念保持一致。通过我们分类器的相关性判断获得的系统排名与真实系统排名实现了斯皮尔曼 $\rho$ 相关性大于0.95。每个主题只需128个初始人工判断就足以提高模型的比较性,相比于将未判文档视为不相关,同时比现有LLM-as-a-judge方法更可靠。因此,主题特定的相关性分类器是一种轻量级且直接的方法来解决未判文档问题,同时保持人工判断作为检索评估的黄金标准。代码、模型和数据已公开提供。 |
| 2025-10-06 | FedSRD: Sparsify-Reconstruct-Decompose for Communication-Efficient Federated Large Language Models Fine-Tuning | null | 当前在公开可用的网络数据上训练大型语言模型(LLM)的范式正变得不可持续,专业领域内的高质量数据源已接近枯竭。联邦学习(FL)作为去中心化网络上下一代人工智能的实用解决方案应运而生,通过利用分布在全球客户端的私有数据,实现隐私保护的协作式微调。尽管低秩适应(LoRA)是高效微调的标准方法,但其在联邦设置中的应用面临一个关键挑战:在网络异构条件下,通信开销仍然是一个显著的瓶颈。LoRA参数中的结构冗余不仅带来了沉重的通信负担,而且在聚合客户端更新时引入了冲突。为了解决这个问题,我们提出了FedSRD,一个稀疏化-重构-分解框架,旨在实现通信高效的联邦学习。我们首先引入了一种基于重要性的稀疏化方法,它保持LoRA更新的结构完整性,以减少上传的参数数量。服务器随后在全秩空间中重构并聚合这些更新,以减轻冲突。最后,它将全局更新分解为稀疏低秩格式用于广播,确保一个对称高效的循环。我们还提出了一种高效变体FedSRD-e,以减少计算开销。在10个基准上的实验结果表明,我们的框架显著降低了高达90%的通信成本,同时甚至提高了异构客户端数据上的模型性能。 |
| 2025-10-05 | DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks | null | 参数高效微调(PEFT)方法已成为适应大规模模型的标准范式。在这些技术中,权重分解低秩适应(DoRA)通过显式地将预训练权重分解为幅度分量和方向分量,已被证明可以提高原始低秩适应(LoRA)方法的学习能力和训练稳定性。在这项工作中,我们提出了 DoRAN,它是 DoRA 的一个新变体,旨在进一步稳定训练并提升 DoRA 的样本效率。我们的方法包括两个关键阶段:(i) 在 DoRA 权重分解的分母中注入噪声,这作为自适应正则化器来缓解不稳定性;以及 (ii) 用动态生成低秩矩阵的辅助网络取代静态低秩矩阵,从而实现跨层参数耦合,并在理论和实践中都产生更好的样本效率。在视觉和语言基准上的全面实验表明,DoRAN 持续优于 LoRA、DoRA 和其他 PEFT 基线。这些结果强调了将基于噪声正则化的稳定性与基于网络的参数生成相结合的有效性,为基础模型的鲁棒和高效微调提供了有前景的方向。 |
| 2025-10-05 | GROK: From Quantitative Biomarkers to Qualitative Diagnosis via a Grounded MLLM with Knowledge-Guided Instruction | link | 多模态大语言模型 (MLLMs) 在整合多种数据模态方面具有潜力,但目前诸如LLaVA-Med等医学适配模型往往未能充分利用彩色眼底摄影 (CFP) 和光学相干断层扫描 (OCT) 之间的协同作用,且对定量生物标志物的可解释性有限。我们引入了GROK,一种接地多模态大语言模型,它能够联合处理CFP、OCT和文本数据,以提供临床医生级别的眼部和全身性疾病诊断。GROK包含三个核心模块:知识引导指令生成、CLIP风格的OCT生物标志物对齐和监督指令微调,它们共同建立了一个从定量到定性的诊断思维链,在生成详细病灶注释时,这与真实的临床推理过程相吻合。为了评估我们的方法,我们引入了接地眼科理解基准,该基准涵盖六种疾病类别和三项任务:宏观诊断分类、报告生成质量以及对所生成思维链的细粒度临床评估。实验结果表明,仅通过对7B参数的Qwen2主干模型进行LoRA(低秩适应)微调,GROK在报告质量和细粒度临床指标上均优于可比较的7B和32B基线模型,甚至超越了OpenAI o3。代码和数据已在GROK代码库中公开。 |
| 2025-10-04 | Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade offs | null | 小型语言模型(SLM;10亿至120亿参数,有时高达200亿)对于以模式和API约束下的准确性而非开放式生成为目标的智能体工作负载来说是足够且通常更优的。我们综合了开源和专有SLM(Phi-4-Mini、Qwen-2.5-7B、Gemma-2-9B、Llama-3.2-1B/3B、Ministral-3B/8B、Apple on-device 3B、DeepSeek-R1-Distill)的近期证据,并将其与现代评估方法(BFCL v3/v4、StableToolBench)以及搭配引导式解码库(XGrammar、Outlines)的服务栈(vLLM、SGLang、TensorRT-LLM)联系起来。我们形式化了采用不确定性感知路由和验证器级联的SLM优先、LLM回退系统,并提出了反映实际生产目标的工程指标:每成功任务成本(CPS)、模式有效性率、可执行调用率、p50/p95延迟以及每请求能耗。引导式解码、严格的JSON Schema输出和验证器优先的工具执行大大缩小了与大型模型的能力差距,并经常使SLM在工具使用、函数调用和RAG方面匹敌或超越LLM,同时以10到100倍更低的token成本实现显著更好的延迟和能耗。我们为优先使用SLM的智能体栈提供了设计模式:模式优先提示、类型安全的函数注册表、结合验证器汇总的置信度评分以及通过LoRA/QLoRA进行的轻量级适应。我们也划定了回退仍然有价值的局限性(开放域推理和某些长期规划)。其结果是一个实用的蓝图,用于构建默认使用SLM并同时通过有针对性的LLM辅助保留余量的快速、廉价且可靠的智能体。关键词:小型语言模型,智能体,函数调用,结构化输出,JSON Schema,引导式解码,LoRA/QLoRA,路由,能效,边缘推理 |
| 2025-10-04 | Optimizing Fine-Tuning through Advanced Initialization Strategies for Low-Rank Adaptation | null | 参数高效微调方法的快速发展显著提高了适应大型语言模型的效率。其中,LoRA因其在有效性和参数效率之间取得了良好的平衡而广受欢迎。然而,LoRA依赖于初始化两个乘积为零的低秩矩阵,这限制了其有效激活和利用原始模型权重的能力,为实现最佳性能造成了潜在瓶颈。为解决这一限制,我们提出了IniLoRA,一种新颖的初始化策略,它将低秩矩阵初始化为与原始模型权重紧密近似。实验结果表明,IniLoRA在一系列模型和任务上均优于LoRA。此外,我们还引入了两种变体IniLoRA- $\alpha$和IniLoRA-$\beta$ ,它们都利用了不同的初始化方法来进一步提升性能。 |
| 2025-10-04 | Rainbow Padding: Mitigating Early Termination in Instruction-Tuned Diffusion LLMs | null | 扩散大语言模型(dLLMs)已成为自回归模型的一个有前景的替代方案,提供灵活的生成顺序并在复杂推理任务上表现出强大的性能。然而,指令微调的dLLMs表现出我们称之为\texttt{ |
| 2025-10-03 | HyperAdaLoRA: Accelerating LoRA Rank Allocation During Training via Hypernetworks without Sacrificing Performance | null | 参数高效微调(PEFT),特别是低秩适应(LoRA),已成为一种有前景的方法,可在减少计算和内存开销的同时微调大型语言模型(LLMs)。然而,LoRA为每个增量矩阵假设一个统一的秩r,并未考虑权重矩阵在不同模块和层之间的不同重要性。AdaLoRA利用奇异值分解(SVD)来参数化更新,并采用奇异值剪枝来引入动态秩分配,从而增强了适应性。然而,在训练过程中,它经常遇到收敛速度慢和计算开销高的问题。为解决此问题,我们提出了HyperAdaLoRA,这是一种新颖的框架,通过利用超网络来加速AdaLoRA的收敛。HyperAdaLoRA没有直接优化奇异值分解的组成部分(P, Λ, Q),而是采用基于注意力机制的超网络来动态生成这些参数。通过剪枝生成奇异值的超网络的输出,实现了动态秩分配。在各种数据集和模型上进行的综合实验表明,我们的方法在不牺牲性能的情况下实现了更快的收敛。此外,对其他基于LoRA的方法进行的进一步扩展实验验证了我们方法的广泛适用性。 |
| 2025-10-01 | AP2O: Correcting LLM-Generated Code Errors Type by Type Like Humans via Adaptive Progressive Preference Optimization | link | 大型语言模型的代码生成能力显著提升了编程任务的效率。然而,大型语言模型生成的代码仍然存在编译错误和运行时错误。现有的离线偏好优化方法主要侧重于利用偏好数据中的通过/失败信号来提升大型语言模型的编码能力,却忽略了失败代码中深层次的错误类型。为此,我们提出了编码的自适应渐进式偏好优化(AP2O-Coder)方法,该方法能够自适应、系统性地指导大型语言模型减少代码生成中的代码错误。具体来说,我们从失败代码中构建了一个错误记录本,并逐步优化大型语言模型以逐个类型地纠正错误。此外,我们在整个训练过程中自适应地重放错误类型,以适应大型语言模型不断变化的弱点。通过对参数规模从0.5B到34B不等的代码专用和通用大型语言模型(Llama、Qwen和DeepSeek系列)进行广泛实验,我们的AP2O-Coder在pass@k指标上将代码生成性能提升高达3%,同时使用了更少的偏好数据。代码:https://github.com/TsingZ0/AP2O |
| 2025-10-02 | LLM-Based Multi-Task Bangla Hate Speech Detection: Type, Severity, and Target | null | 在线社交媒体平台是日常交流和信息获取的核心。尽管这些平台具有积极作用,但它们也为仇恨言论、冒犯性语言和针对个人、组织及社区的欺凌内容的传播提供了温床。此类内容损害了在线安全性、参与度和公平性。因此,需要可靠的检测系统,尤其对于审核工具有限的资源匮乏语言。在孟加拉语中,先前工作贡献了资源和模型,但大多数是单任务的(例如,二元仇恨/冒犯分类),对多方面信号(类型、严重程度、目标)的覆盖有限。我们通过引入首个多任务孟加拉语仇恨言论数据集BanglaMultiHate来解决这些空白,这是迄今为止最大的手动标注语料库之一。基于此资源,我们进行了一项全面、受控的比较,涵盖了经典基线模型、单语预训练模型以及在零样本提示和LoRA微调条件下的LLM。我们的实验评估了LLM在低资源环境中的适应性,并揭示了一个一致的趋势:尽管经过LoRA微调的LLM与BanglaBERT具有竞争力,但具有文化和语言基础的预训练对于稳健的性能仍然至关重要。我们的数据集和研究结果共同为在低资源环境中开发文化上一致的审核工具建立了一个更强的基准。为了可复现性,我们将发布数据集和所有相关脚本。 |
| 2025-10-02 | AMAS: Adaptively Determining Communication Topology for LLM-based Multi-Agent System | null | 尽管大语言模型(LLMs)彻底改变了自然语言处理能力,但它们作为自主多智能体系统(MAS)在工业问题解决中的实际应用仍面临持续障碍。传统的MAS架构根本上受限于僵化、人工设计的图拓扑结构,这些结构缺乏上下文响应能力,导致在各种学术和商业工作负载中的效率降低。为了克服这些限制,我们引入了AMAS,这是一个范式转变的框架,通过一种新颖的动态图设计器重新定义了基于LLM的MAS。该组件通过轻量级LLM自适应自主识别任务特定的最优图配置,消除了对单一、普遍适用的结构模板的依赖。相反,AMAS利用单个输入的内在特性,通过任务优化的智能体路径智能地引导查询轨迹。在问答、数学推导和代码生成基准测试中的严格验证证实,AMAS系统地超越了在不同LLM架构上的最先进的单智能体和多智能体方法。我们的研究表明,上下文敏感的结构适应性构成了高性能LLM MAS部署的基本要求。 |
| 2025-10-03 | Fine-tuning LLMs with variational Bayesian last layer for high-dimensional Bayesian optimization | null | 众多应用涉及求解具有高昂评估成本的黑盒优化问题,包括药物发现、材料设计以及超参数调优。为了以样本高效的方式找到此类黑盒优化问题的全局最优解,贝叶斯优化(BO)是一个理论上优雅的框架,它依赖于一个概率代理模型,以便迭代地选择具有良好平衡的探索-利用权衡的查询点。高斯过程(GP)作为代理建模的事实标准选择,在处理低维连续变量的传统BO方面取得了令人信服的性能。然而,GP在处理具有不规则变量(例如,分类、序数等)的高维对应物时表现不足。为了缓解这个问题,研究人员探索了基于神经网络的代理模型。受LLM强大能力的启发,我们采用LLM作为代理模型来建模从高维输入变量到目标函数的映射。为了适应当前问题,我们利用低秩适应(LoRA)通过变分贝叶斯最后一层(VBLL)框架来微调LLM参数以及线性回归头部的后验。所得到的LoRA-VBLL与现有替代方案相比不仅计算开销小,而且支持递归更新。为了自动化LoRA秩以及其他超参数的关键选择,我们设计了一个LoRA-VBLL代理模型的加权集成(ENS),该集成通过递归贝叶斯进一步支持每个模型的权重和单个LoRA-VBLL参数的持续更新。广泛的实验结果证明了所提出的(ENS-)LoRA-VBLL方法在各种高维基准测试和真实世界的分子优化任务上都取得了令人信服的性能。 |
| 2025-10-01 | Fine-tuning LLMs with variational Bayesian last layer for high-dimensional Bayesian optimzation | null | 大量应用涉及解决具有高评估成本的黑盒优化问题,包括药物发现、材料设计以及超参数调优。为了以样本效率寻找这类黑盒优化问题的全局最优解,贝叶斯优化 (BO) 是一种理论上优雅的框架,它依赖于概率代理模型,以迭代方式选择具有良好平衡探索-利用权衡的查询点。高斯过程 (GP) 作为代理建模的事实选择,在处理低维连续变量的传统BO方面取得了令人瞩目的性能。然而,GP在应对具有不规则变量(例如分类变量、序数变量等)的高维对应问题时表现不佳。为了缓解这一问题,基于神经网络的代理模型已被探索。受大型语言模型 (LLMs) 强大能力的启发,我们采用LLM作为代理模型来建模从高维输入变量到目标函数的映射。为了适应当前问题,我们利用低秩适应 (LoRA) 通过变分贝叶斯最后一层 (VBLL) 框架,微调LLM参数并结合线性回归头部的后验。所得的LoRA-VBLL与现有替代方案相比,不仅计算开销小,而且支持递归更新。为了自动化LoRA秩以及其他超参数的关键选择,我们设计了一种LoRA-VBLL代理模型的加权集成 (ENS),它通过递归贝叶斯进一步适应了每个模型的权重以及单独LoRA-VBLL参数的持续更新。大量实验结果表明,所提出的 (ENS-)LoRA-VBLL方法在各种高维基准测试和真实世界的分子优化任务中展现出令人瞩目的性能。 |
| 2025-10-01 | Strategic Fusion of Vision Language Models: Shapley-Credited Context-Aware Dawid-Skene for Multi-Label Tasks in Autonomous Driving | null | 大型视觉-语言模型(VLM)越来越多地用于自动驾驶汽车(AV)堆栈中,但幻觉限制了它们在安全关键型管道中的可靠性。我们提出了一种采用Shapley信用分配、上下文感知且考虑一致性的Dawid-Skene方法,这是一种用于主视角行车记录仪视频多标签理解的博弈论融合方法。它从标注历史数据中学习每个模型、每个标签、上下文条件下的可靠性,并在推理时,将每个模型的报告转换为一种由一致性保障的对数似然比,该比值结合了上下文先验和通过基于Shapley的团队信用更新的公共声誉状态。结果是经过校准、可设阈值的后验概率,它们(i)放大可靠模型之间的一致性,(ii)保留单个模型独有的正确信号,以及(iii)适应漂移。为了使通用VLM专业化,我们通过一个自动管道整理了1000个真实世界的行车记录仪视频片段,并带有结构化标注(场景描述、驾驶操作建议、理由),该管道融合了HDD真值、车辆运动学和YOLOv11 + BoT-SORT跟踪,并在三步思维链提示的指导下进行;然后使用LoRA对三个异构VLM进行微调。我们使用汉明距离、微观-宏观F1和每个视频的平均延迟进行评估。经验上,与最佳单一模型相比,所提出的方法在汉明距离上实现了23%的减少,在宏观F1上提高了55%,在微观F1上提高了47%,这支持了VLM融合作为AV管道中一个经过校准、可解释且鲁棒的决策支持组件。 |
| 2025-10-01 | Family Matters: Language Transfer and Merging for Adapting Small LLMs to Faroese | null | 我们研究了如何将小型高效的大语言模型适应到法罗语这种低资源北日耳曼语。我们从英语模型开始,在相关斯堪的纳维亚语种上继续进行预训练,无论是单独进行还是通过合并结合进行,然后在法罗语上进行微调。我们比较了全量微调与使用LoRA的参数高效微调,评估了它们对语言准确性和文本理解能力的影响。由于缺乏现有的法罗语评估数据,我们从改编和新收集的数据集中构建了两个新的最小对基准,并辅以法罗语语言学家的专家人工评估。我们的结果表明,从相关语言进行迁移至关重要,尽管最佳源语言取决于任务:冰岛语能提高语言准确性,而丹麦语则能增强理解能力。类似地,全量微调和LoRA之间的选择也取决于任务:LoRA提升了语言可接受性并略微提高了基础模型的人工评估分数,而全量微调则产生了更强的理解性能,并在下游微调过程中更好地保留了模型能力。 |
| 2025-10-01 | Facilitating Cognitive Accessibility with LLMs: A Multi-Task Approach to Easy-to-Read Text Generation | null | 简化复杂文本对于确保公平获取信息至关重要,特别是对于认知障碍人士。易读文本(ETR)倡议提供了一个框架,使内容对神经多样性人群可访问,但此类文本的手动创建仍然耗时且资源密集。在这项工作中,我们研究了大型语言模型(LLMs)自动化生成易读文本(ETR)内容的潜力。为了解决对齐语料库稀缺以及易读文本(ETR)约束的特殊性问题,我们提出了一种多任务学习(MTL)方法,该方法在文本摘要、文本简化和易读文本(ETR)生成上联合训练模型。我们探索了两种不同的策略:用于上下文学习的多任务检索增强生成(RAG),以及用于参数高效微调的MTL-LoRA。我们基于新的高质量数据集ETR-fr,使用Mistral-7B和LLaMA-3-8B进行的实验表明,在所有配置下,多任务设置相对于单任务基线具有优势。此外,结果显示,基于RAG的策略能够在域外设置中实现泛化,而MTL-LoRA在域内配置中优于所有学习策略。 |
| 2025-10-01 | Flow of Knowledge: Federated Fine-Tuning of LLMs in Healthcare under Non-IID Conditions | null | 大型语言模型(LLM)在医疗健康领域展现出巨大潜力,但其应用受到数据隐私限制和跨机构协作挑战的阻碍。敏感医疗数据无法集中化,而跨机构的非独立同分布(non-IID)特性进一步加剧了收敛性和公平性的复杂性。为解决这些问题,我们提出了一种基于低秩适应(LoRA)的联邦微调方法,实现了跨机构的隐私保护知识流。该方法迭代地结合局部LoRA适应与全局参数聚合,实现了高效的知识共享而不暴露原始数据。在这种分布式网络中,区块链身份方案用于识别独立的LLM。我们在异构且高度非独立同分布的医疗文本数据集上评估了这种方法,实验表明,联邦LoRA不仅增强了跨客户端泛化能力,而且提高了最弱客户端的性能,实现了稳定的收敛和更公平的结果。这些发现强调了联邦LoRA微调作为一种实用有效的范式,用于在医疗健康领域适应LLM,为多中心医疗AI协作提供了新途径。 |
| 2025-09-30 | Efficient Layer-wise LLM Fine-tuning for Revision Intention Prediction | null | 大语言模型(LLMs)在各种文本生成任务中取得了非凡的成功;然而,它们在简单但重要的文本分类方面的潜力仍未得到充分探索,因为LLM预训练倾向于强调生成而非分类。尽管通过指令微调的LLMs可以将分类任务转化为生成任务,但它们常常难以对细微文本进行分类。一个这样的例子是文本修订,它涉及文本对之间细微的编辑。虽然仅仅对LLM进行修订分类的微调似乎可行,但这需要大量的修订标注,而这些标注在社区中极其昂贵且稀缺。为了解决这个问题,我们引入了一个即插即用的层级参数高效微调(PEFT)框架,即IR-Tuning,它微调LLM中一部分重要的层,这些层是根据它们的梯度范数分布动态选择的,同时冻结冗余层的参数。大量实验表明,IR-Tuning在各种文本修订任务上超越了几个层级PEFT基线,同时实现了快速收敛、低GPU内存消耗以及在小型修订语料库上的有效性。 |
| 2025-09-30 | DualTune: Decoupled Fine-Tuning for On-Device Agentic Systems | null | 将大语言模型(LLM)部署为智能体编排器彻底改变了任务自动化,但对隐私保护、经济高效解决方案的需求要求具备设备端推理能力。然而,在工具调用场景中,本地LLM相比前沿模型表现持续不佳,在从大型工具集中选择工具以及为复杂参数结构准确生成参数方面都面临困难。我们提出了一种方法,将工具调用任务分解为两个不同的子任务:工具选择和参数生成。我们提出了“解耦微调”,这是一种新颖的后训练方法,它采用LoRA微调,通过为每个子任务使用单独的损失掩码,为工具选择和针对特定工具的参数生成创建专用的LoRA适配器。此外,我们提出了DualTune,这是一个推理框架,它利用通过解耦微调创建的LoRA适配器,借助终端用户设备上的本地模型执行高效的智能体编排。DualTune将工具调用生成步骤分解为工具选择和参数生成,并动态加载相应的LoRA适配器来生成工具调用。此外,DualTune还实现了分层编排,以限制工具选择所需的工具数量。我们在MCP-Bench基准上的实验表明,使用解耦微调训练的Qwen-2.5-7B模型将基础模型的工具调用准确率提高了46%,并且在所有情况下都优于其他规模相似的本地推理、非推理和微调模型,在大多数情况下也优于大2倍的模型。 |
| 2025-09-30 | LoRAFusion: Efficient LoRA Fine-Tuning for LLMs | link | 低秩适配(LoRA)已成为大语言模型(LLMs)领先的参数高效微调(PEFT)方法,因为它在显著减少GPU内存使用的同时,仍能在下游任务中保持有竞争力的微调模型质量。尽管有这些优势,我们发现了现有LoRA微调系统中的两个主要低效之处。首先,由于对大型激活张量的冗余内存访问,它们引入了大量的运行时开销。其次,它们错失了在同一组GPU上并行微调多个共享相同基模型的独立LoRA适配器的机会,这导致性能提升的丧失,例如减少流水线气泡、更好的通信重叠和改进的GPU负载均衡。为了解决这些问题,我们引入了LoRAFusion,一个针对LLMs的高效LoRA微调系统。在内核层面,我们提出了一种图分割方法,该方法融合了内存密集型操作。这种设计消除了不必要的内存访问,并保持了计算密集型GEMM的性能,而无需承担重新计算或同步的开销。在调度层面,LoRAFusion引入了一种自适应批处理算法用于多任务微调。它首先将LoRA适配器分成组,以有意错开跨任务的批处理执行,然后解决每组内的装箱问题,以生成平衡的、依赖感知的微批次。相比Megatron-LM,LoRAFusion实现了高达1.96倍(平均1.47倍)的端到端加速,相比最先进的多LoRA微调系统mLoRA,性能提升高达1.46倍(平均1.29倍)。我们融合的内核实现了高达1.39倍(平均1.27倍)的内核性能提升,并且可以直接作为现有LoRA系统中的即插即用替代方案。我们已在https://github.com/CentML/lorafusion开源了LoRAFusion。 |
| 2025-09-30 | Commmunication-Efficient and Accurate Approach for Aggregation in Federated Low-Rank Adaptation | null | 随着基础模型的迅速兴起以及在分布式环境中进行微调的需求日益增长,联邦低秩适应(FedLoRA)最近获得了广泛关注。尽管潜力巨大,但当前的FedLoRA方法由于不精确更新而面临显著挑战。现有方法试图缓解这个问题,但它们往往引入了局部-全局泛化鸿沟并产生巨大的通信开销,限制了它们的可扩展性和有效性。为了解决这些局限性,我们提出了联邦低秩聚合与近似精确估计(FLoRA-NA)。FLoRA-NA利用服务器上的局部LoRA矩阵来估计聚合矩阵 $\hat{A}$和$\hat{B}$,然后将其分发给客户端进行局部更新。这种替代的聚合矩阵在不增加超出传统FedLoRA通信成本的情况下,最小化了理想更新$\nabla \Bar{W} = \sum^{U}_{u=1}B_u A_u$与实际更新$\nabla \hat{W} = \hat{B}\hat{A}$ 之间的差异。通过这样做,FLoRA-NA实现了通信效率,并弥合了局部个性化与全局泛化之间的鸿沟,解决了先前个性化FedLoRA方法的一个关键局限性。我们使用各种基础模型,在自然语言理解、数学推理和代码求解能力等多样化任务上进行了广泛评估。实验结果一致表明,FLoRA-NA在保持低通信开销的同时,实现了最先进的全局性能。 |
| 2025-09-30 | Adapting SAM with Dynamic Similarity Graphs for Few-Shot Parameter-Efficient Small Dense Object Detection: A Case Study of Chickpea Pods in Field Conditions | null | 基础模型在农业计算机视觉任务中的参数高效微调(PEFT)由于训练数据有限和复杂的田间条件而仍然具有挑战性。本研究引入了一种基于动态相似性的图适应(DSGA)模块,以在极端数据限制下适应Segment Anything Model(SAM),从而在复杂农业环境中对小型密集物体进行精确的前景和实例分割。通过构建动态相似图,结合可学习的多项式衰减初始化权重排序机制和自适应局部特征聚合,DSGA仅用4.00M可训练参数(占原始SAM的4.26%)建立了鲁棒的空间和动态相似性表示。将这种基于图的特征适应与低秩适应(LoRA)相结合,创建了一个互补的优化框架,该框架有效地捕获了图像嵌入中的局部和全局依赖关系,同时保持了模型的稳定性和参数效率。在具有挑战性的鹰嘴豆荚数据集上的实验结果表明,DSGA与LoRA在2、4、8和10次样本设置下评估的多个指标上均取得了卓越性能,并且随着样本数量的增加,性能增益逐步提高。定量指标显示,与基线SAM微调相比,结构度量(Structure-measure)提高了17.31%,自适应F度量(adaptive F-measure)提高了62.36%。通过Grad-CAM和t-SNE进行的全面消融研究和可视化分析验证了该框架在特征判别方面的有效性。所提出的适应方法展示了自动化农业监测应用的实际价值,在具有挑战性的田间条件下,对于包含10到120个豆荚的图像,实现了准确的豆荚计数,调整后的R平方为0.8987。 |
| 2025-09-30 | HNote: Extending YNote with Hexadecimal Encoding for Fine-Tuning LLMs in Music Modeling | null | 大语言模型(LLMs)的最新进展为符号音乐生成创造了新的机遇。然而,MIDI、ABC和MusicXML等现有格式要么过于复杂,要么结构不一致,限制了它们在基于token的学习架构中的适用性。为解决这些挑战,我们提出了HNote,一种从YNote扩展而来的新型基于十六进制的记谱系统,它在一个固定的32单位小节框架内编码音高和时长。这种设计确保了对齐,减少了歧义,并与LLM架构直接兼容。我们将12,300首源自传统民乐曲目的江南风格歌曲从YNote转换为HNote,并利用参数高效的LoRA对LLaMA-3.1(8B)进行了微调。实验结果表明,HNote实现了82.5%的句法正确率,且BLEU和ROUGE评估显示出强大的符号和结构相似性,从而生成了风格连贯的乐曲。本研究将HNote确立为一种将LLMs与文化音乐建模相结合的有效框架。 |
| 2025-09-30 | LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts | null | 近期研究表明,将参数高效微调 (PEFT) 与专家混合 (MoE) 结合,是使大型语言模型 (LLMs) 适应下游任务的一种有效策略。然而,大多数现有方法依赖于传统的 TopK 路由,这需要仔细的超参数调优,并为每个 token 分配固定数量的专家。在这项工作中,我们提出了 LD-MoLE,这是一种用于 LoRA 专家混合的可学习动态路由机制,它能够实现自适应、与 token 相关和层级的专家分配。我们的方法用可微分的路由函数和闭式解取代了不可微分的 TopK 选择。此外,我们的设计允许模型自适应地确定不同层中每个 token 需要激活的专家数量。此外,我们引入了一个分析性稀疏性控制目标,用于规范激活专家的数量。在 Qwen3-1.7B 和 Llama-3.2-3B 模型上进行的广泛实验表明,与最先进的基线相比,LD-MoLE 在各种基准测试中取得了最高的平均分数。我们的方法不仅实现了卓越的性能,而且还展示了学习与 token 相关和层级专家分配的能力。 |
| 2025-09-29 | Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs | link | 大语言模型常使用低秩适应(LoRA)等参数高效技术进行适配,其公式表示为 $y = W_0x + BAx$,其中 $W_0$ 是预训练参数,$x$ 是适配层的输入。尽管多适配器扩展通常采用多个LoRA,但先前研究表明,在训练过程中,内部 $A$ 矩阵高度相似,因此适合共享。我们重新审视这一现象,发现这种相似性主要归因于相同的初始化而非共享知识,而 $B$ 在知识编码和迁移中扮演更关键的角色。受这些洞察的启发,我们提出ALoRA,这是一种在多任务微调中具有多个 $A$ 矩阵和单个共享 $B$ 的非对称多LoRA设计,以及Fed-ALoRA,它通过一种新颖的矩阵分解策略在同构和异构设置下的联邦微调中跨客户端共享 $B$ ,以适应客户端间异构的秩。在常识推理、数学推理、多任务自然语言处理数据集和联邦自然语言处理数据集上的实验表明,我们的方法相对于现有LoRA方法实现了任务间更平衡的性能,并取得了相当或更优的平均准确率。代码可在 https://github.com/OptMN-Lab/ALoRA 获取。 |
| 2025-09-29 | MMRQA: Signal-Enhanced Multimodal Large Language Models for MRI Quality Assessment | null | 磁共振成像(MRI)质量评估对临床决策至关重要,但由于数据稀缺性和协议变异性,其仍面临挑战。传统方法存在根本性权衡:MRIQC等基于信号的方法提供定量指标但缺乏语义理解,而深度学习方法虽实现高准确性但牺牲了可解释性。为解决这些局限性,我们引入了多模态MRI质量评估(MMRQA)框架,开创性地将多模态大语言模型(MLLMs)与采集感知信号处理相结合。MMRQA结合了三项关键创新:通过MRQy增强模拟伪影实现鲁棒指标提取;使用Qwen将指标结构化转换为问答对;以及通过LLaVA-OneVision的低秩适应(LoRA)实现参数高效融合。在MR-ART、FastMRI和MyConnectome基准上进行评估,MMRQA通过全面的消融研究验证,实现了最先进的性能和强大的零样本泛化能力。通过连接定量分析与语义推理,我们的框架生成了临床可解释的输出,从而增强了动态医疗环境中的质量控制。 |
| 2025-09-29 | Vision Function Layer in Multimodal LLMs | null | 本研究发现,视觉相关功能解码在多模态大语言模型(MLLMs)的不同解码器层中分布。通常,每个功能,例如计数、定位或OCR识别,会集中在两到三个层中,我们将其定义为视觉功能层(VFL)。此外,不同VFL的深度及其顺序在不同的MLLMs中呈现出一致的模式,这与人类行为高度一致(例如,识别先发生,然后是计数,最后是定位)。这些发现来源于视觉令牌交换(Visual Token Swapping),我们新颖的分析框架修改目标KV缓存条目,以精确阐明解码过程中层特有的功能。此外,这些见解在为实际下游应用定制MLLMs方面提供了巨大的实用价值。例如,当LoRA训练被选择性地应用于功能与训练数据对齐的VFL时,VFL-LoRA不仅优于全LoRA,而且还能防止域外功能遗忘。此外,通过分析当特定VFL被消融时训练数据上的性能差异,VFL-select能根据功能自动对数据进行分类,从而实现高效的数据选择,以直接增强相应能力。因此,VFL-select在数据选择方面超越了人类专家,并以仅20%的原始数据集实现了全数据性能的98%。本研究深化了对MLLM视觉处理的理解,促进了创建更高效、可解释和鲁棒的模型。 |
| 2025-09-29 | Stable Forgetting: Bounded Parameter-Efficient Unlearning in LLMs | null | 大语言模型(LLM)中的机器遗忘对隐私和安全至关重要;然而,现有方法仍不稳定且不可靠。一种广泛使用的策略,即梯度差分法,对保留数据执行梯度下降,同时对遗忘数据(即应移除其影响的数据)执行梯度上升。然而,当与交叉熵损失结合时,这种过程会导致权重和梯度的无界增长,从而导致训练不稳定并损害遗忘和保留性能。我们提出了一个理论框架来解释这种失效,明确展示了遗忘集上的梯度上升如何破坏LLM前馈多层感知机(MLP)层的优化稳定性。受此启发,我们提出了有界参数高效遗忘,这是一种参数高效的方法,通过对MLP适配器应用有界函数来稳定基于LoRA的微调。这一简单的修改控制了梯度上升过程中的权重动态,使梯度差分法能够可靠收敛。在TOFU、TDEC和MUSE基准测试中,以及跨越从1.25亿到80亿参数的不同架构和规模,我们的方法在遗忘方面取得了显著改进,同时保持了保留性能,为LLM中的机器遗忘建立了一个新颖的、有理论基础且实际可扩展的框架。 |
| 2025-09-28 | PEARL: Peer-Enhanced Adaptive Radio via On-Device LLM | null | 我们提出了PEARL(通过设备端大语言模型实现同伴增强的自适应无线电),一个用于设备到设备(D2D)通信中协作式跨层优化的框架。基于我们之前在单设备端大语言模型方面的工作,PEARL通过利用发布者和订阅者状态来指导Wi-Fi Aware(WA)参数选择,从而扩展了这一范式。一个上下文感知奖励,它根据应用容忍度归一化延迟并根据设备电池状态调整能量,为基于KL的微调提供了更丰富的监督。我们研究了两种轻量级变体:PEARL(头部+低秩适应(LoRA))实现了最佳的整体性能,而PEARL-Lite(仅头部)在几乎相同的目标分数下实现了低于20毫秒的推理。在基于真实测量的合成场景中,PEARL相对于启发式和紧凑模型基线提高了目标分数,并在协作式低电量情况下将能耗降低了高达16%。这些结果表明,同伴感知上下文、奖励对齐训练和基于头部的效率使大语言模型在常开的设备端跨层控制中变得实用。 |
| 2025-09-28 | ByteSized32Refactored: Towards an Extensible Interactive Text Games Corpus for LLM World Modeling and Evaluation | null | 模拟交互式世界模型仍然是大语言模型(LLMs)中的一个核心挑战。在这项工作中,我们引入了ByteSized32Refactored,它是对原始ByteSized32语料库进行重构、模块化和可扩展的实现,旨在探索文本游戏生成任务。我们进一步优化了每个文本游戏的代码结构,并创建了GameBasic.py基础库,该库通过将7个基类(如GameObject等)抽象为可重用模块,集中了所有32个游戏的通用逻辑,从而与原始的Bytesized32相比,将Python代码总行数从2万行减少到1万行。我们重构的实现实现了可扩展性——凭借我们集中化的设计,ByteSized32Refactored可以通过重用共享逻辑和功能,更高效地扩展以包含新场景和新规格的文本游戏。使用GPT-4o进行的广泛实验显示出混合的性能——使用Bytesized32Refactored,为未见过场景生成的文本游戏在四个评估维度中的两个上显示出质量改进,而在另外两个上有所下降,这表明重构代码的层次结构给LLMs带来了新的挑战。总的来说,我们强调我们以基础库和模块化优化为中心的可扩展代码结构,不仅促进了LLM对环境规范的适应,而且建立了一个支持未来扩展的可扩展环境。 |
| 2025-09-26 | AxLLM: accelerator architecture for large language models with computation reuse capability | null | 大语言模型需要巨大的计算能力和内存资源,这对高效部署带来了巨大的挑战。尽管量化已被广泛探索以减小模型尺寸和计算量,但本文论证了一个额外的好处:量化增加了参数局部性,为计算复用创造了机会。基于这一洞察,我们提出了AxLLM,一种专为量化模型设计的硬件加速器架构。AxLLM引入了一种新颖的冗余消除技术,该技术缓存并复用重复权重值的乘法结果,大幅减少了冗余操作。该架构具有双重乘法与复用流水线,无需修改参数、重新训练或离线预处理,即可有效支持基础模型和LoRA微调模型。实验结果表明,AxLLM的计算量减少高达90%,能耗降低28%,相较于基线执行实现了1.7倍的加速。这些结果突出了AxLLM是用于在专用硬件上加速大语言模型的一种可扩展且高效的解决方案。 |
| 2025-09-26 | Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting | null | 在机器人远程操作数据上微调视觉-语言模型(VLM)以创建视觉-语言-动作(VLA)模型是训练通用策略的一种有前景的范式,但它存在一个根本性权衡:学习生成动作常常削弱VLM的基础推理和多模态理解能力,阻碍其泛化到新颖场景、遵循指令和语义理解。我们认为这种灾难性遗忘是由于VLM的互联网规模预训练语料库与机器人微调数据之间存在分布不匹配造成的。受此观察启发,我们引入了VLM2VLA:一种VLA训练范式,它首先在数据层面通过用自然语言表示低级动作来解决这种不匹配。这种对齐使得训练VLA仅使用低秩适应(LoRA)成为可能,从而最大限度地减少对VLM骨干的修改并避免灾难性遗忘。结果是,VLM可以在机器人远程操作数据上进行微调,而无需根本性地改变底层架构,也无需在互联网规模的VLM数据集上进行昂贵的协同训练。通过广泛的视觉问答(VQA)研究和800多次真实世界机器人实验,我们证明VLM2VLA保留了VLM的核心能力,从而实现对需要开放世界语义推理和多语言指令遵循的新颖任务的零样本泛化。 |
| 2025-09-26 | Task-Adaptive Parameter-Efficient Fine-Tuning for Weather Foundation Models | null | 机器学习的最新进展为天气基础模型 (WFMs) 赋予了在各种下游任务中强大的泛化能力,但其规模扩大带来的计算需求不断增长,日益阻碍了实际部署。当前的参数高效微调 (PEFT) 方法专为视觉或语言任务设计,未能解决天气下游任务的独特挑战,例如变量异构性、分辨率多样性和时空覆盖变化,导致应用于 WFMs 时性能次优。为了弥合这一差距,我们提出了 WeatherPEFT,这是一种新颖的适用于 WFMs 的 PEFT 框架,结合了两种协同创新。首先,在前向传播过程中,任务自适应动态提示 (TADP) 通过内部和外部模式提取,将编码器内部的嵌入权重动态注入到预训练主干网络的输入标记中,从而实现针对特定下游任务的上下文感知特征重校准。此外,在反向传播过程中,随机费雪引导自适应选择 (SFAS) 不仅利用费雪信息来识别和更新最关键的任务参数,从而保留不变的预训练知识,而且引入了随机性以稳定选择过程。我们在三个下游任务上展示了 WeatherPEFT 的有效性和效率,在这些任务中,现有 PEFT 方法与完全微调 (Full-Tuning) 相比存在显著差距,而 WeatherPEFT 使用更少的训练参数实现了与完全微调相当的性能。本工作的代码将发布。 |
| 2025-09-26 | Enhancing Low-Rank Adaptation with Structured Nonlinear Transformations | null | 低秩适配 (LoRA) 是一种广泛应用于大语言模型的参数高效微调方法。然而,其线性本质限制了表达能力。我们提出了 LoRAN,它是 LoRA 的一种非线性扩展,将轻量级变换应用于低秩更新。我们进一步引入了 Sinter,它是一种基于正弦的激活函数,可在不增加参数数量的情况下增加结构化扰动。在文本摘要和分类任务中的实验表明,LoRAN 始终优于 QLoRA。消融研究揭示 Sinter 优于 Sigmoid、ReLU 和 Tanh 等标准激活函数,强调了激活函数设计在低秩微调中的重要性。 |
| 2025-09-25 | MORPH: Shape-agnostic PDE Foundation Models | null | 我们引入了MORPH,一个形状无关的、自回归的偏微分方程(PDEs)基础模型。MORPH建立在卷积视觉Transformer骨干网络之上,能够无缝处理具有不同数据维度(1D-3D)、不同分辨率、以及具有混合标量和矢量分量的多个场的异构时空数据集。该架构结合了(i)分量级卷积,它联合处理标量和矢量通道以捕获局部相互作用;(ii)场间交叉注意力,它在不同物理场之间建模并选择性地传播信息;(iii)轴向注意力,它沿单独的空间和时间轴分解完整的时空自注意力,从而在保持表达能力的同时减少计算负担。我们在一系列多样化的异构PDE数据集上预训练了多个模型变体,并评估了其在各种下游预测任务上的迁移能力。通过全模型微调和参数高效的低秩适配器(LoRA),MORPH在零样本和全样本泛化方面均优于从头开始训练的模型。在广泛的评估中,MORPH达到或超越了强大的基线模型和最新的最先进模型。总的来说,这些能力为从科学观测的异构和多模态性质中学习提供了一个灵活而强大的骨干网络,为可扩展且数据高效的科学机器学习开辟了一条道路。 |
| 2025-09-25 | Explaining Fine Tuned LLMs via Counterfactuals A Knowledge Graph Driven Framework | null | 低秩适应(LoRA)的广泛采用使得大型语言模型(LLMs)能够以显著的效率获取领域特定知识。然而,理解这种微调机制如何改变模型的结构化推理和语义行为仍然是一个开放性挑战。本工作引入了一个新颖的框架,通过基于知识图谱的反事实来解释微调后的LLMs。具体而言,我们构建了BioToolKG,这是一个生物信息学工具领域的特定异构知识图谱,并设计了一个基于反事实的微调LLMs解释器(CFFTLLMExplainer),该解释器学习图节点和边上的软掩码,以生成最小的结构扰动,从而引起最大的语义分歧。我们的方法联合优化了结构稀疏性和语义分歧,同时施加了保持可解释性的约束,例如熵正则化和边平滑性。我们将此框架应用于一个基于LLaMA的微调LLM,并揭示反事实掩码暴露了模型的结构依赖性,并与LoRA引起的参数偏移对齐。这项工作为微调LLMs的内部机制提供了新见解,并强调反事实图是可解释人工智能的潜在工具。 |
| 2025-09-25 | SiNGER: A Clearer Voice Distills Vision Transformers Further | null | 视觉Transformer被广泛用作视觉基础模型的主干网络,但已知它们会产生降低表示质量的高范数伪影。当知识蒸馏将这些特征传递给学生模型时,高范数伪影主导了目标函数,导致学生模型过度拟合伪影并低估了信息丰富的信号,从而削弱了从更大模型中获得的收益。先前工作曾尝试去除伪影,但在伪影抑制和保留教师模型的信息信号之间遇到了一个固有的权衡。为了解决这个问题,我们引入了奇异零空间引导的能量重分配 (SiNGER),这是一种新颖的蒸馏框架,能够在抑制伪影的同时保留信息信号。其核心思想是原则性的教师特征精炼:在精炼过程中,我们利用零空间引导的扰动,在抑制伪影的同时保留信息。随后,精炼后的教师特征被蒸馏到学生模型。我们使用基于LoRA的适配器高效实现了这一扰动,仅需要最小的结构修改。大量实验表明,SiNGER持续改进了学生模型,在多个下游任务中取得了最先进的性能,并产生了更清晰、更可解释的表示。 |
| 2025-09-25 | MemLens: Uncovering Memorization in LLMs with Activation Trajectories | null | 大语言模型(LLMs)通常在AIME和Math500等具有挑战性的基准上进行评估,这些基准容易受到数据污染并存在模型记忆的风险。现有的检测方法主要依赖于表面词汇重叠和困惑度,泛化能力较差,在遇到隐式污染数据时会显著退化。在本文中,我们提出了MemLens(一种用于记忆检测的激活透镜),通过分析生成过程中数字标记的概率轨迹来检测模型记忆。我们的方法揭示,污染样本表现出“捷径”行为,在模型的早期层中以高置信度锁定答案,而干净样本则在模型的整个深度中显示出更渐进的证据积累。我们观察到,污染样本和干净样本表现出明显且良好分离的推理轨迹。为了进一步验证这一点,我们通过LoRA微调将精心设计的样本注入模型,并观察到与自然污染数据中相同的轨迹模式。这些结果提供了强有力的证据,表明MemLens捕获了真正的记忆信号而非虚假关联。 |
| 2025-09-25 | DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation | null | 视觉-语言模型(VLMs)是自动驾驶、医疗诊断和内容审核等关键应用的基础。虽然像LoRA这样的参数高效微调(PEFT)方法使其能够高效适应专业任务,但这些模型仍然容易受到可能危及安全关键决策的对抗性攻击。CLIP作为众多下游VLM的骨干模型,是一个高价值目标,其脆弱性可能在多模态AI生态系统中产生连锁反应。我们提出了动态对抗课程DAC-LoRA,这是一个将对抗训练整合到PEFT中的新颖框架。我们方法的核心原理,即逐步增强攻击难度的智能课程,具有通用性,并可潜在地应用于任何迭代攻击方法。在第一阶平稳条件(FOSC)和受TRADES启发的损失函数的指导下,DAC-LoRA在对抗鲁棒性方面取得了显著提升,而没有显著损害干净准确性。我们的工作提出了一种有效、轻量且广泛适用的方法,旨在证明DAC-LoRA框架可以轻松集成到标准PEFT流程中以显著增强鲁棒性。 |
| 2025-09-25 | SFT Doesn’t Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs | null | 有监督微调(SFT)在领域特定数据集上是使大语言模型(LLMs)适应专门任务的常用方法,但通常认为这会损害其通用能力。在这项工作中,我们重新审视了这种权衡,并提出了经验和理论见解。首先,我们表明SFT并非总是有害:使用较小的学习率可以大幅缓解通用性能下降,同时保持可比的目标领域性能。随后,我们提供了一项理论分析,解释了这些现象,并进一步推动了一种新方法——词元自适应损失重加权(TALR)。在此基础上,鉴于仅靠较小的学习率并不能完全消除所有情况下的通用性能下降,我们评估了一系列减少通用能力损失的策略,包括L2正则化、LoRA、模型平均、FLOW以及我们提出的TALR。实验结果表明,虽然没有哪种方法能完全消除这种权衡,但TALR在平衡领域特定收益和通用能力方面始终优于这些基线方法。最后,我们将研究结果提炼成将大语言模型适应到新领域的实用指南:(i) 使用较小的学习率以实现有利的权衡;(ii) 当需要更强的平衡时,采用TALR作为一种有效策略。 |
| 2025-09-24 | TianHui: A Domain-Specific Large Language Model for Diverse Traditional Chinese Medicine Scenarios | null | 中医领域特定大型语言模型在研究环境中面临适应性受限、评估数据集不足和计算资源有限等局限。本研究介绍了天汇(TianHui),一个通过上下文数据整合和领域知识融合构建的专门中医大型语言模型。我们构建了一个大规模中医语料库(包含0.97GB无监督数据和611,312个问答对),并采用了结合QLoRA、DeepSpeed Stage 2和Flash Attention 2的两阶段训练策略。在12个基准测试中的评估显示,天汇在六个数据集(APQ、TCMCD、HFR、HCCA、DHPE、TLAW)的所有指标上均位列前三,并在另外六个数据集(TCMEE、APR、GCPMI、TCMKQA、TCMRC、ADTG)中取得了领先结果。最佳配置被确定为LoRA秩=128,alpha=256,迭代周期=4,dropout=0.2,最大长度=2048。天汇实现了中医知识的系统化保存和可扩展应用。所有资源均已开源。 |
| 2025-09-23 | Analysis on distribution and clustering of weight | link | 大语言模型架构和参数特性的研究仍然是当前的热点。本文关注权重的特性,并以此分析模型之间的相关性和差异。提出了标准差向量和聚类向量两种向量来描述模型的特征。在第一种情况下,假设权重服从正态分布。将投影矩阵的标准差值进行归一化,形成标准差向量,用以表示模型的分布特性。在第二种情况下,从每个权重投影矩阵中提取奇异值,并通过K-Means算法进行分组。将同类型矩阵的分组数据组合成聚类向量,用以表示模型权重的相关特性。研究表明,这两种向量能有效区分不同模型,并清楚地显示同一系列模型之间的相似性。此外,在使用不同数据集和模型进行LoRA微调后发现,标准差向量表示的权重分布直接受数据集影响,但聚类向量表示的不同权重之间的相关性不受影响,并与预训练模型保持高度一致。 |
| 2025-09-23 | Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning | link | 大语言模型(LLM)的最新进展强调了微调(FT)技术在使LLM适应特定任务中的关键作用,尤其是在从头开始重新训练在计算上不可行时。微调使LLM能够利用任务或领域特定数据,从而生成能更有效满足目标应用需求的模型。然而,传统的微调方法通常面临灾难性遗忘和次优数据效率的问题,这限制了它们的实际应用性。为解决这些挑战,本文提出DEAL,一个将低秩适应(LoRA)与连续微调策略相结合的新颖框架。通过引入知识保留和自适应参数更新模块,该框架缓解了现有微调方法的局限性,同时在隐私保护设置中保持了效率。在15个不同数据集上的实验表明,DEAL持续优于基线方法,在任务准确性和资源效率方面取得了显著提升。这些发现表明我们的方法通过提高任务性能同时提升资源效率,从而推动LLM中持续适应的潜力。 |
| 2025-09-23 | Memory in Large Language Models: Mechanisms, Evaluation and Evolution | null | 在统一操作定义下,我们将大语言模型(LLM)记忆定义为在预训练、微调或推理期间写入的持久状态,该状态随后可被寻址并稳定地影响输出。我们提出了一种四部分分类法(参数式、上下文式、外部式、程序式/情景式)和一个记忆四元组(位置、持久性、写入/访问路径、可控性)。我们通过“写入 -> 读取 -> 抑制/更新”链条将机制、评估和治理联系起来。为避免在异构设置中出现扭曲的比较,我们采用了一种三设置协议(仅参数式、离线检索、在线检索),该协议将能力与相同数据和时间线上的信息可用性解耦。在此基础上,我们构建了一个分层评估体系:参数式(闭卷回忆、编辑差异、记忆/隐私)、上下文式(位置曲线和序列中部下降)、外部式(答案正确性与片段归因/忠实度)以及程序式/情景式(跨会话一致性和时间线重放,E MARS+)。该框架集成了时间治理和泄露审计(新鲜度命中、过时答案、拒绝响应片段),并通过评估者间一致性以及带有多重比较校正的配对测试来报告不确定性。针对更新和遗忘,我们提出了DMM Gov:协调DAPT/TAPT、PEFT、模型编辑(ROME、MEND、MEMIT、SERAC)和RAG,以形成一个可审计的循环,涵盖准入阈值、部署、监控、回滚和变更审计,并明确了及时性、冲突处理和长期一致性的规范。最后,我们提出了四个可测试命题:最小可识别性;最小评估卡;具有可验证遗忘的因果约束编辑;以及小窗口重放检索何时优于超长上下文阅读。这为研究和部署提供了一个可复现、可比较、可治理的坐标系。 |
| 2025-09-23 | HyperAdapt: Simple High-Rank Adaptation | null | 基础模型在各种任务中表现出色,但将它们适应到专用应用通常需要微调,这种方法是内存和计算密集型的。参数高效微调(PEFT)方法通过仅更新一小部分权重来缓解这一问题。在本文中,我们引入了HyperAdapt,这是一种参数高效微调方法,与LoRA等最先进方法相比,它显著减少了可训练参数的数量。具体而言,HyperAdapt通过对预训练权重矩阵应用行向和列向缩放(通过对角矩阵)来适应模型,从而产生高秩更新,而对于一个 $n \times m$矩阵,仅需要$n+m$ 个可训练参数。理论上,我们建立了HyperAdapt更新的秩的上限,经验上,我们证实它在模型层中始终能产生高秩变换。在GLUE、算术推理和常识推理基准上,使用高达140亿参数的模型进行的实验表明,HyperAdapt的性能与完全微调和最先进的PEFT方法相当或接近,同时使用的可训练参数数量少了几个数量级。 |
| 2025-09-22 | SEQR: Secure and Efficient QR-based LoRA Routing | null | 低秩适配(LoRA)已成为大语言模型参数高效微调的标准技术,使得为特定任务或领域创建大型LoRA库成为可能。然而,对于给定输入如何有效选择正确的LoRA适配器仍然是一个挑战,尤其是在安全环境中,路由器的监督训练可能引发隐私问题。受先前方法的启发,我们将无监督LoRA路由的目标形式化为激活范数最大化,并为此提供了一个理论分析框架。我们证明了激活范数的鉴别能力,并引入了SEQR,这是一种旨在最大化效率同时提供严格路由保证的无监督LoRA路由算法。SEQR可证明地以显著更高的效率识别范数最大化适配器,使其成为动态LoRA组合的高度可扩展和有效的解决方案。我们通过实验验证了我们的结果,这些实验证明了多任务性能和效率的提升。 |
| 2025-09-22 | MapCoder-Lite: Squeezing Multi-Agent Coding into a Single Small LLM | null | 大语言模型 (LLMs) 已将代码生成从单函数任务推进到编程竞赛问题,但现有的多智能体解决方案要么依赖于昂贵的大规模 (超过300亿参数) 模型,要么在缩小到小型开源模型时性能崩溃。我们提出了 MapCoder-Lite,它仅使用秩为32、特定于角色的LoRA适配器 (额外参数少于3%),将一个70亿参数模型升级为四个角色专业化智能体:检索器、规划器、编码器和调试器。三种轻量级技术使其成为可能:(i) 从强大LLM中进行的轨迹蒸馏解决了检索和调试中的格式脆弱性问题;(ii) 监督者引导的纠正增强了规划和编码智能体;(iii) 智能体级别的LoRA微调实现了内存高效的专业化。在xCodeEval、APPS和CodeContests上的综合评估表明,MapCoder-Lite 将xCodeEval准确率提高了一倍以上 (从13.2%提升至28.3%),消除了所有格式错误,并将与一个320亿参数基线的差距缩小到六个百分点之内,同时将GPU内存和令牌生成时间减少了四倍。这些结果表明,仔细的智能体级别微调在小型语言模型上释放了高质量的多智能体编码能力。 |
| 2025-09-23 | QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models | null | 大语言模型(LLMs)高效部署的需求推动了对量化(可降低推理成本)和参数高效微调(PEFT,可减少训练开销)的关注。这促使了量化感知型PEFT的开发,以生成准确而高效的量化模型。在这种背景下,在微调之前减少量化误差对于实现高模型精度至关重要。然而,现有依赖低秩适应的方法存在表示能力有限的问题。近期基于傅里叶相关变换(FT)的适配器比低秩适配器提供了更强的表示能力,但将其直接集成到量化模型中往往会导致误差减少效果不佳并增加计算开销。为了克服这些局限性,我们提出了QWHA,该方法通过采用Walsh-Hadamard变换(WHT)作为变换核,并结合一种新颖的适配器初始化方案(该方案包含自适应参数选择和值细化),将基于FT的适配器集成到量化模型中。我们证明了QWHA能有效缓解量化误差,同时便于微调,并且其设计大幅降低了计算成本。实验结果表明,QWHA在低比特量化精度方面持续优于基线方法,并相对于现有基于FT的适配器实现了显著的训练加速。代码已在https://github.com/vantaa89/qwha提供。 |
| 2025-09-22 | EpiCache: Episodic KV Cache Management for Long Conversational Question Answering | null | 大语言模型(LLMs)的近期进展扩展了上下文长度,使助手能够维持长对话历史,以生成连贯、个性化的回复。然而,这种能力依赖于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源限制下迅速占据主导地位。减少这种开销的一个活跃研究方向是KV缓存压缩,它旨在限制缓存大小同时保持准确性。然而,现有方法面临两个主要限制:(i) 在全上下文预填充后驱逐条目会导致无限制的峰值内存,以及 (ii) 依赖于查询的驱逐将缓存范围缩小到单个查询,导致多轮对话中准确性下降。我们引入了EpiCache,这是一个在固定内存预算下用于长对话问答(LongConvQA)的无需训练的KV缓存管理框架。EpiCache通过块级预填充限制缓存增长,并通过情景式KV压缩保留主题相关的上下文,该压缩将对话历史聚类成连贯的情景并应用情景特定的KV缓存驱逐。我们进一步设计了一种自适应的逐层预算分配策略,该策略衡量每个层对驱逐的敏感性,并相应地在各层之间分配内存预算。在三个LongConvQA基准测试中,EpiCache将准确性比近期基线提高了高达40%,在4-6倍压缩下保持接近完整的KV准确性,并将延迟和内存分别降低了高达2.4倍和3.5倍,从而在严格的资源限制下实现了高效的多轮交互。 |
| 2025-09-21 | Parameter-efficient fine-tuning (PEFT) of Vision Foundation Models for Atypical Mitotic Figure Classification | null | 非典型有丝分裂像(AMFs)是罕见的异常细胞分裂,与肿瘤侵袭性和不良预后相关。由于微妙的形态学线索、类别不平衡以及病理学家之间观察者间差异,它们的检测仍然是一个重大挑战。MIDOG 2025挑战赛引入了一个专门用于非典型有丝分裂分类的赛道,从而能够系统地评估深度学习方法。在本研究中,我们探索了使用大型视觉基础模型(包括Virchow、Virchow2和UNI),并结合低秩适应(LoRA)进行参数高效微调。我们通过不同LoRA秩以及随机和基于组的数据划分进行了大量实验,以分析在不同条件下的鲁棒性。我们的最佳方法是结合LoRA秩为8的Virchow模型和三折交叉验证集成,在初步测试集上实现了88.37%的平衡准确率,在挑战赛排行榜上并列第9位。这些结果突显了基础模型结合高效适应策略在非典型有丝分裂分类方面的潜力,同时也强调了在特异性和域泛化方面进行改进的必要性。 |
| 2025-09-19 | BEFT: Bias-Efficient Fine-Tuning of Language Models | null | 对所有偏置项进行微调在各种参数高效微调(PEFT)技术中脱颖而出,这归因于其开箱即用性和具有竞争力的性能,尤其是在低数据量场景下。仅微调偏置项有潜力实现前所未有的参数效率。然而,微调不同偏置项(即查询、键或值投影中的偏置项)与下游性能之间的联系仍不明确。现有方法,例如基于偏置变化幅度或经验费雪信息的方法,为选择特定的偏置项以实现有效微调提供的指导有限。在本文中,我们提出了一种选择要微调的偏置项的方法,构成了我们偏置高效微调(BEFT)的基础。我们广泛评估了我们的偏置高效方法,并将其与其他偏置选择方法进行了对比,涵盖了从1.1亿到67亿参数的、跨越仅编码器和仅解码器架构的各种大型语言模型(LLMs)。我们的结果表明,在包括分类、多项选择和生成任务在内的多种下游任务上,我们的偏置高效方法具有有效性和优越性。 |
| 2025-09-19 | Distribution-Aligned Decoding for Efficient LLM Task Adaptation | null | 即使使用参数高效微调(PEFT),将亿参数语言模型适配到下游任务仍然成本高昂。我们将任务适配重新定义为输出分布对齐:目标是在解码过程中直接将输出分布引导至任务分布,而不是通过权重更新间接实现。基于这种观点,我们引入了引导向量解码(SVD),这是一种轻量级、兼容PEFT且具有理论基础的方法。我们首先进行一个简短的热启动微调,并从热启动模型和预训练模型输出分布之间的库尔巴克-莱布勒(KL)散度梯度中提取一个任务感知的引导向量。随后,该引导向量被用于引导解码过程,以将模型的输出分布引导至任务分布。我们理论上证明了SVD与全量微调的梯度步长一阶等价,并推导出了引导向量强度的全局最优解。在三个任务和九个基准测试中,SVD与四种标准PEFT方法结合,将多项选择准确率提高了多达5个百分点,将开放式真实性提高了2个百分点,并在常识数据集上取得了类似的提升(1-2个百分点),且除了PEFT适配器之外不增加任何可训练参数。因此,SVD为大语言模型提供了一条轻量级、有理论基础的途径,以实现更强的任务适配。 |
| 2025-09-19 | Mamba-2 audio captioning: design space exploration and analysis | null | 我们提出了一种基于Mamba-2大语言模型骨干的音频字幕生成模型,Mamba-2是一种最先进(SOTA)的状态空间模型(SSM)。我们系统地探索了设计空间,包括LLM尺寸、LoRA秩和连接器设计,这些设计利用了Mamba-2在序列长度方面的线性时间复杂度。在各项基准测试中,与在相同数据集上训练的更大语言模型相比,我们的模型在使用了更少参数的情况下,仍实现了强大的字幕生成性能。我们首次深入分析了LLM参数数量、音频编码器微调策略、音频特征多样性以及不同的特征降维或扩展技术如何影响性能。 |
| 2025-09-19 | UNIV: Unified Foundation Model for Infrared and Visible Modalities | null | 联合可见光和红外感知的需求正在快速增长,尤其是在各种天气条件下实现鲁棒性能方面。尽管针对可见光和红外数据的预训练模型在各自领域表现出色,但在多模态场景中(例如配备这两种传感器的自动驾驶汽车)往往表现不佳。为解决这一挑战,我们提出了一种受生物学启发的红外与可见光模态统一基础模型 (UNIV),该模型具有两项关键创新。首先,我们引入了逐块跨模态对比学习 (PCCL),这是一种注意力引导的蒸馏框架,它模仿视网膜水平细胞的侧向抑制作用,能够在与任何基于Transformer的架构兼容的同时,实现有效的跨模态特征对齐。其次,我们的双知识保留机制模拟视网膜双极细胞的信号路由——结合LoRA适配器(增加2%的参数)和同步蒸馏以防止灾难性遗忘,从而复制视网膜的明视(锥体细胞驱动)和暗视(杆体细胞驱动)功能。为支持跨模态学习,我们引入了MVIP数据集,这是迄今为止最全面的可见光-红外基准。它包含98,992对精确对齐的图像,涵盖各种场景。大量实验表明,UNIV在红外任务上表现优越(语义分割中mIoU提升1.7,目标检测中mAP提升0.7),同时在可见光RGB任务上保持了99%以上的基线性能。我们的代码可在 https://github.com/fangyuanmao/UNIV 获取。 |
| 2025-09-18 | Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding | null | 讽刺检测在自然语言理解中仍然是一个挑战,因为讽刺意图通常依赖于文本、语音和视觉等微妙的跨模态线索。尽管先前的工作主要集中在文本或视觉-文本讽刺上,但全面的音频-视觉-文本讽刺理解仍未得到充分探索。在本文中,我们系统地评估了大语言模型 (LLMs) 和多模态大语言模型在零样本、少样本和LoRA微调设置下,对英语 (MUStARD++) 和中文 (MCSD 1.0) 讽刺检测的性能。除了直接分类,我们还探索将模型用作特征编码器,并通过协同门控融合模块整合它们的表示。实验结果表明,基于音频的模型实现了最强的单模态性能,而文本-音频和音频-视觉组合则优于单模态和三模态模型。此外,Qwen-Omni等多模态大语言模型展现出有竞争力的零样本和微调性能。我们的研究结果强调了多模态大语言模型在跨语言、音频-视觉-文本讽刺理解方面的潜力。 |
| 2025-09-18 | Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation | null | 我们提出VocAlign,一种专门为开放词汇语义分割中的视觉语言模型(VLMs)设计的无源域适应新框架。我们的方法采用学生-教师范式,并辅以词汇对齐策略,通过引入额外的类别概念来改进伪标签生成。为确保效率,我们使用低秩适应(LoRA)来微调模型,在保留其原始能力的同时最大限度地减少计算开销。此外,我们为学生模型提出了一种Top-K类别选择机制,该机制显著减少了内存需求,同时进一步提高了适应性能。我们的方法在CityScapes数据集上实现了mIoU显著的6.11点提升,并在零样本分割基准测试中表现出卓越性能,为开放词汇设置下的无源适应设定了新标准。 |
| 2025-09-18 | Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning | null | 大型语言模型(LLMs)在各种任务中展现出令人印象深刻的能力,但为领域特定应用微调LLMs通常需要大量可能分布在多个组织中的领域特定数据。联邦学习(FL)提供了一种隐私保护解决方案,但在应用于LLMs时面临计算约束的挑战。低秩适应(LoRA)作为一种参数高效的微调方法应运而生,但单个LoRA模块在处理不同领域的异构数据时往往表现不佳。本文解决了联邦LoRA微调中的两个关键挑战:1. 确定异构客户端之间LoRA专家的最佳数量和分配,以及2. 使客户端能够根据其特定数据特征选择性地利用这些专家。我们提出了FedLEASE(联邦自适应LoRA专家分配与选择),这是一种新颖的框架,它根据表示相似性自适应地聚类客户端,以分配和训练领域特定的LoRA专家。它还引入了一种自适应的top- $M$ 专家混合机制,允许每个客户端选择所利用专家的最佳数量。我们在各种基准数据集上进行的大量实验表明,FedLEASE在异构客户端设置中显著优于现有的联邦微调方法,同时保持了通信效率。 |
| 2025-09-18 | Explicit vs. Implicit Biographies: Evaluating and Adapting LLM Information Extraction on Wikidata-Derived Texts | null | 文本隐含性一直是自然语言处理 (NLP) 中的一个难题,传统方法依赖于显式陈述来识别实体及其关系。例如,从句子“Zuhdi attends church every Sunday”中,Zuhdi 与基督教之间的关系对人类读者来说是显而易见的,但当需要自动推断时,这便提出了挑战。大语言模型 (LLMs) 已被证明在文本理解和信息抽取 (IE) 等NLP下游任务中表现出色。本研究考察了文本隐含性如何影响预训练LLM(包括 LLaMA 2.3、DeepSeekV1 和 Phi1.5)在IE任务中的表现。我们生成了两个包含1万条隐含和显式传记信息表达的合成数据集,以衡量其对LLM性能的影响,并分析对隐含数据进行微调是否能提高其在隐含推理任务中的泛化能力。本研究展示了一项关于LLM在IE中内部推理过程的实验,特别是在处理隐含和显式上下文方面。结果表明,使用LoRA(低秩适应)对LLM模型进行微调可以提高其从隐含文本中抽取信息的性能,从而有助于提升模型的解释性和可靠性。 |
| 2025-09-18 | LLM4MG: Adapting Large Language Model for Multipath Generation via Synesthesia of Machines | null | 基于机器联觉 (SoM),大语言模型 (LLM) 首次被用于多径生成 (LLM4MG)。考虑到典型的第六代 (6G) 车-基础设施 (V2I) 场景,本文构建了一个新的多模态感知-通信数据集,命名为 SynthSoM-V2I,其中包括信道多径信息、毫米波 (mmWave) 雷达感知数据、RGB-D 图像以及光探测与测距 (LiDAR) 点云。基于 SynthSoM-V2I 数据集,所提出的 LLM4MG 利用大语言模型 Meta AI (LLaMA) 3.2 通过多模态感知数据进行多径生成。所提出的 LLM4MG 通过特征提取和融合网络,将多模态特征空间与 LLaMA 语义空间对齐。为进一步实现从预训练 LLaMA 到通过多模态感知数据进行多径生成的通用知识迁移,本文采用了低秩适应 (LoRA) 参数高效微调和传播感知提示工程。仿真结果表明,所提出的 LLM4MG 在视距 (LoS)/非视距 (NLoS) 分类方面优于传统的基于深度学习的方法,准确率达到 92.76%;在多径功率/时延生成精度方面,归一化均方误差 (NMSE) 分别为 0.099/0.032;并且在跨车辆交通密度 (VTD)、跨频段和跨场景泛化方面也表现出色。通过真实世界泛化验证了所提出的 LLM4MG 的实用性。通过信道容量比较,也证明了高精度多径生成对于系统设计的必要性。 |
| 2025-09-18 | Catch Me If You Can? Not Yet: LLMs Still Struggle to Imitate the Implicit Writing Styles of Everyday Authors | link | 随着大型语言模型(LLM)日益融入个人写作工具,一个关键问题浮现:LLM能否仅凭少量示例忠实模仿个体的写作风格?个人风格通常是微妙且隐性的,这使得通过提示(prompt)难以明确指定,但对于用户对齐的生成至关重要。本工作对最先进LLM模仿个人写作风格的能力进行了全面评估,通过少量用户原创样本进行上下文学习(in-context learning)。我们引入了一套互补的指标——包括作者归属、作者验证、风格匹配和AI检测——以稳健地评估风格模仿能力。我们的评估涵盖每个模型超过40000次生成,跨越新闻、电子邮件、论坛和博客等领域,包含了来自400多位真实作者的写作样本。结果表明,尽管LLM可以在新闻和电子邮件等结构化格式中近似用户风格,但它们在博客和论坛中处理细致入微、非正式的写作时表现不佳。对各种提示策略(例如演示数量)的进一步分析揭示了有效个性化中的关键局限。我们的发现突出了个性化LLM适应方面的一个根本性差距,以及对改进技术以支持隐式、风格一致生成的需求。为了促进未来研究和可复现性,我们开源了数据和代码。 |
| 2025-09-18 | CLAIP-Emo: Parameter-Efficient Adaptation of Language-supervised models for In-the-Wild Audiovisual Emotion Recognition | null | 真实场景下的视听情感识别(AVER)仍受姿态变化、遮挡和背景噪声的阻碍。现有方法主要依赖于大规模领域特定预训练,这成本高昂且通常与真实世界的情感数据不匹配。为解决此问题,我们提出了CLAIP-Emo,一个模块化框架,它将真实场景下的AVER重新定义为语言监督基础模型(CLIP/CLAP)的参数高效适应。具体而言,它(i)通过冻结CLIP/CLAP骨干网络并通过LoRA进行情感导向适应(更新总参数的\ensuremath{\le}4.0%)来保留语言监督先验知识,(ii)非对称地分配时间建模,采用轻量级Transformer处理视觉动态,同时对音频韵律应用均值池化,以及(iii)应用一个简单的融合头进行预测。在DFEW和MAFW数据集上,CLAIP-Emo (ViT-L/14) 仅用8M训练参数就达到了80.14%和61.18%的加权平均召回率,创造了新的最先进水平。我们的发现表明,语言监督基础模型的参数高效适应为真实场景下的AVER提供了一种可扩展的替代方案,以替代领域特定预训练。代码和模型将在此处提供:\href{https://github.com/MSA-LMC/CLAIP-Emo}{https://github.com/MSA-LMC/CLAIP-Emo}。 |
| 2025-09-17 | Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection | null | 部署无人机 (UAV) 从空间分布设备进行可靠且节能的数据收集,在支持多样化的物联网 (IoT) 应用方面具有巨大潜力。然而,无人机有限的续航能力和通信范围使得智能轨迹规划成为必要。尽管强化学习 (RL) 已被广泛探索用于无人机轨迹优化,但其交互性在真实世界环境中带来了高成本和高风险。离线 RL 缓解了这些问题,但仍易受不稳定训练影响,并高度依赖专家质量数据集。为解决这些挑战,我们提出了一个无人机轨迹规划与资源分配联合问题,以最大化数据收集的能源效率。资源分配子问题首先被转化为等价的线性规划公式,并以多项式时间复杂度得到最优解。随后,我们提出了一个大型语言模型 (LLM) 赋能的批评者正则化决策 Transformer (DT) 框架,称之为 LLM-CRDT,以学习有效的无人机控制策略。在 LLM-CRDT 中,我们整合了批评者网络来正则化 DT 模型训练,从而将 DT 的序列建模能力与基于批评者的价值指导相结合,以实现从次优数据集中学习有效策略。此外,为缓解 Transformer 模型对数据的高需求特性,我们采用预训练 LLM 作为 DT 模型的 Transformer 主干,并采纳参数高效微调策略 LoRA,从而在小规模数据集和低计算开销下实现对无人机控制任务的快速适应。大量仿真表明,LLM-CRDT 优于基准在线和离线 RL 方法,与当前最先进的 DT 方法相比,能源效率提高高达 36.7%。 |
| 2025-09-17 | Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake Detection | null | Wav2Vec2等基础模型在语音任务(包括音频深度伪造检测)中的表征学习方面表现出色。然而,在对一组固定的真实和伪造音频片段进行微调后,它们通常无法泛化到训练中未出现的新颖深度伪造方法。为解决此问题,我们提出了一种LoRA专家混合方法,该方法将多个低秩适配器(LoRA)集成到模型的注意力层中。一种路由机制选择性地激活专门的专家,从而增强了对不断演变的深度伪造攻击的适应性。实验结果表明,我们的方法在域内和域外场景中均优于标准微调,相对于基线模型降低了等错误率。值得注意的是,我们最佳的MoE-LoRA模型将平均域外EER从8.55%降低到6.08%,证明了其在实现可泛化的音频深度伪造检测方面的有效性。 |
| 2025-09-18 | Exploring Data and Parameter Efficient Strategies for Arabic Dialect Identifications | null | 本文探讨了我们对阿拉伯方言识别 (ADI) 中不同数据高效和参数高效方法的探索。具体来说,我们研究了各种软提示策略,包括 prefix-tuning、prompt-tuning、P-tuning 和 P-tuning V2,以及 LoRA 重参数化。对于数据高效策略,我们分析了结合零样本和少样本推理的硬提示,以分析大型语言模型 (LLMs) 的方言识别能力。对于参数高效的 PEFT 方法,我们使用阿拉伯语专用的编码器模型在几个主要数据集上进行了实验。我们还在开源的仅解码器模型、一个通用多语言模型 (Phi-3.5) 和一个阿拉伯语专用模型 (SILMA) 上分析了 n-shot 推理。我们观察到,LLMs 在少样本或零样本设置中通常难以区分方言细微差别。软提示编码器变体表现更好,而基于 LoRA 的微调模型表现最佳,甚至超越了完全微调。 |
| 2025-09-17 | Latent Traits and Cross-Task Transfer: Deconstructing Dataset Interactions in LLM Fine-tuning | null | 大语言模型正越来越多地部署到各种应用中。这通常包括大语言模型在训练期间未曾遇到的任务。这意味着枚举并获取所有任务的高质量训练数据是不可行的。因此,我们通常需要依赖于使用具有不同特征的数据集的迁移学习,并预测分布外请求。受此实际需求的启发,我们提出了一个分析框架,通过构建迁移学习矩阵和降维来剖析这些跨任务交互。我们训练并分析了10个模型,以识别潜在能力(例如,推理、情感分类、自然语言理解、算术)并发现迁移学习的副作用。我们的发现揭示,性能提升往往难以用基于表层数据集相似性或源数据质量的解释来阐明。相反,源数据集的隐藏统计因素,例如类别分布和生成长度倾向性,以及特定的语言特征,实际上更具影响力。这项工作为理解迁移学习的复杂动态提供了见解,为更可预测和更有效的大语言模型适应铺平了道路。 |
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-28 | Greedy Sampling Is Provably Efficient for RLHF | null | 人类反馈强化学习(RLHF)已成为大型语言模型后期训练的一项关键技术。尽管它取得了经验上的成功,但RLHF的理论理解仍然有限,因为仅凭偏好反馈学习KL正则化的目标与经典强化学习相比带来了额外的挑战。现有工作主要研究基于奖励的Bradley-Terry(BT)偏好模型,并扩展了利用乐观或悲观原则的经典设计。相反,本工作考虑了通用偏好模型(其在实践中的相关性最近已被观察到),并获得了性能保证,与现有工作相比取得了显著的数量级改进。令人惊讶的是,这些结果源于直接使用经验估计(即贪婪采样)的算法,而不是像以前的工作那样构建乐观或悲观估计。这一见解深植于KL正则化目标下最优策略类所独有的结构特性,我们进一步将其专门化到BT模型,突出了贪婪采样在RLHF中令人惊讶的充分性。 |
| 2025-10-28 | Repurposing Synthetic Data for Fine-grained Search Agent Supervision | null | 基于大型语言模型(LLM)的搜索代理越来越多地通过以实体为中心的合成数据进行训练,以解决复杂、知识密集型任务。然而,群体相对策略优化(GRPO)等主流训练方法却丢弃了这些丰富的实体信息,转而依赖于稀疏的、基于结果的奖励。这一关键限制使得它们无法区分有信息量的“接近正确”样本(即推理过程基本正确但最终答案有缺陷的样本)与完全失败的样本,从而丢弃了有价值的学习信号。我们通过利用在训练过程中被丢弃的实体来解决这一问题。我们的实证分析揭示,代理在推理过程中识别出的真实实体数量与最终答案的准确性之间存在显著的正相关性。基于这一洞察,我们引入了实体感知群体相对策略优化(E-GRPO),这是一个新颖的框架,它构建了一个密集的实体感知奖励函数。E-GRPO根据不正确样本的实体匹配率按比例分配部分奖励,使模型能够有效地从这些“接近正确”的样本中学习。在各种问答(QA)和深度研究基准上的实验表明,E-GRPO持续且显著优于GRPO基线。此外,我们的分析揭示,E-GRPO不仅实现了更高的准确性,而且诱导了更高效的推理策略,这些策略需要更少的工具调用,这展示了一种更有效和样本高效的对齐搜索代理的方法。 |
| 2025-10-28 | Evolving Diagnostic Agents in a Virtual Clinical Environment | null | 在本文中,我们提出了一个框架,用于通过强化学习训练大型语言模型(LLMs)作为诊断智能体,使其能够管理多轮诊断过程、自适应选择检查并确定最终诊断。与在静态病例摘要上训练的指令微调模型不同,我们的方法通过交互式探索和基于结果的反馈获取诊断策略。我们的贡献有四方面:(i) 我们提出了DiagGym,一个使用电子健康记录训练的诊断世界模型,它根据患者病史和推荐检查输出检查结果,作为一个虚拟临床环境,用于真实的诊断训练和评估;(ii) 我们通过端到端的多轮强化学习训练DiagAgent,以学习优化信息增益和诊断准确性的诊断策略;(iii) 我们引入了DiagBench,一个诊断基准,包含750个具有医生验证检查建议的病例以及99个标注了973条医生编写的诊断过程评估标准的病例;(iv) 我们展示了在多样化诊断场景中的卓越性能。DiagAgent显著优于10个最先进的LLMs,包括DeepSeek-v3和GPT-4o,以及两个提示工程智能体。在单轮设置中,DiagAgent的诊断准确性提高了9.34%,检查推荐命中率提高了44.03%。在端到端设置中,它使诊断准确性提高了15.12%,检查推荐F1分数提升了23.09%。在基于评估标准的评估中,它在加权评估标准得分方面超越了次优模型Claude-sonnet-4达7.1%。这些发现表明,在交互式临床环境中学习策略,能够赋予动态且具有临床意义的诊断管理能力,而这些能力是单纯通过被动训练无法实现的。 |
| 2025-10-28 | Advancing site-specific disease and pest management in precision agriculture: From reasoning-driven foundation models to adaptive, feedback-based learning | null | 作物病害精准管理(SSDM)通过机器学习和深度学习(ML和DL)实现实时计算机视觉,发展迅速。研究从手工特征提取演变为大规模自动化特征学习。借助基础模型(FM),作物病害数据集现在以全新的方式进行处理。与传统神经网络不同,FM整合视觉和文本数据,以文本形式解读症状,推理症状与管理之间的关系,并支持种植者和教育工作者的交互式问答。机器人技术中的自适应学习和模仿学习进一步赋能田间病害管理。本综述筛选了大约40篇关于FM在SSDM中应用的文章,侧重于大语言模型(LLM)和视觉-语言模型(VLM),并讨论了它们在自适应学习(AL)、强化学习(RL)以及用于精准喷洒的数字孪生框架中的作用。主要发现包括:(a)FM在2023-24年间文献激增,获得关注;(b)VLM超越LLM,发表量增长5-10倍;(c)RL和AL在智能喷洒方面仍处于萌芽阶段;(d)带有RL的数字孪生可以虚拟仿真精准喷洒;(e)弥合虚拟与现实差距对于实际部署至关重要;(f)人机协作仍然有限,特别是在人在环方法中,机器人检测早期症状,人类验证不确定案例;(g)具有实时反馈的多模态FM将推动下一代SSDM。如需获取更新、资源和贡献,请访问https://github.com/nitin-dominic/AgriPathogenDatabase,提交论文、代码或数据集。 |
| 2025-10-28 | OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning | null | 奖励模型(RMs)已成为对齐大型语言模型(LLMs)的关键,在训练和推理阶段作为人类评估的可扩展代理。然而,现有奖励模型在知识密集型和长文本任务上表现不佳,因为评估正确性需要超越模型内部知识的依据。这一局限性阻碍了它们可靠地区分细微的质量差异,尤其是在需要外部证据时。为解决这一问题,我们引入了OpenRM,一种工具增强型长文本奖励模型,它通过调用外部工具收集相关证据,系统地判断开放式回答。我们使用组相对策略优化(GRPO),在通过可控数据合成框架生成的超过2.7万个合成成对示例上训练OpenRM。训练目标联合监督中间工具使用和最终结果准确性,激励我们的奖励模型学习有效的基于证据的判断策略。在三个新收集的数据集和两个广泛使用的基准测试上进行的大量实验表明,OpenRM显著优于现有奖励建模方法。作为进一步的步骤,我们将OpenRM整合到推理时响应选择和训练时数据选择中。这在下游LLM对齐任务中带来了持续的提升,突显了工具增强型奖励模型在扩展可靠长文本评估方面的潜力。 |
| 2025-10-28 | SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space | null | 多模态大语言模型(MLLM)在推理分割等视觉-语言任务中展现出令人印象深刻的能力,这些模型根据文本查询生成分割掩码。尽管先前的工作主要集中在扰动图像输入,但语义等效的文本释义——在用户以不同方式表达相同意图的现实世界应用中至关重要——仍未得到充分探索。为了解决这一空白,我们引入了一种新颖的对抗性释义任务:生成语法正确的释义,既保留原始查询含义,又会降低分割性能。为了评估对抗性释义的质量,我们开发了一个综合的自动化评估协议,并通过人工研究进行了验证。此外,我们引入了SPARTA——一种黑盒、句子级优化方法,该方法在文本自编码器的低维语义潜在空间中运行,并由强化学习指导。SPARTA取得了显著更高的成功率,在ReasonSeg和LLMSeg-40k数据集上,其性能比现有方法高出多达2倍。我们使用SPARTA和具有竞争力的基线来评估先进推理分割模型的鲁棒性。我们发现它们仍然容易受到对抗性释义的攻击——即使在严格的语义和语法约束下。所有代码和数据将在论文接收后公开发布。 |
| 2025-10-28 | MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation | null | 大语言模型(LLMs)最近的成功重新激发了人们对推荐系统能否实现类似规模化效益的兴趣。传统的推荐系统以庞大的嵌入表为主,其性能往往随着嵌入维度的增长而趋于饱和。相比之下,新兴的生成范式用自回归Transformer生成的紧凑语义ID(SID)序列来替代嵌入。然而,大多数工业部署仍然是闭源的,留下了两个基本问题待解决:(1)预期的规模法则在公共基准上是否成立?(2)实现有竞争力性能所需的最小后训练方案是什么?据我们所知,我们提出了MiniOneRec,这是第一个完全开源的生成式推荐框架,它提供了一个端到端的工作流程,涵盖了SID构建、有监督微调以及面向推荐的强化学习。我们通过残差量化VAE生成SID,并在Amazon评论数据集上对参数量从0.5B到7B的Qwen骨干模型进行后训练。我们的实验表明,随着模型规模的增大,训练损失和评估损失均呈现一致的下降趋势,验证了生成方法在参数效率方面的优势。为了进一步提升性能,我们提出了一个轻量级但有效的后训练流程,该流程(1)强制实现全流程SID对齐,并且(2)应用了结合受限解码和混合奖励的强化学习。这些技术共同在排序准确性和候选多样性方面带来了显著的改进。 |
| 2025-10-28 | Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards | null | 可验证奖励强化学习 (RLVR),特别是结合组相对策略优化 (GRPO) 等算法,已被证明在增强大语言模型的推理能力方面高效。然而,当前流程中的一个关键瓶颈在于组式展开过程中采样轨迹的多样性有限。同质轨迹及其相关的奖励会削弱策略更新的回报信号,从而阻碍有效的策略学习。这种多样性缺乏主要源于词元级随机采样,其中局部变异很可能收敛到几乎相同的推理路径。为解决这一局限性,我们提出了前瞻树状Rollout (LATR),这是一种新颖的rollout策略,旨在通过强制分支到可能产生不同后续的候选词元来显式促进轨迹级多样性。具体而言,LATR 迭代地分三个阶段运行:(1) 在高不确定性生成步骤进行分支,(2) 对每个新分支执行前瞻模拟,以及 (3) 剪枝在模拟过程中表现出长时间相似性的分支。与随机采样相比,LATR 平均加速策略学习131%,并在 GRPO 和动态采样策略优化 (DAPO) 算法上,在不同推理任务中将最终的 pass@1 性能提高了4.2%。我们的代码和数据已公开,网址为 https://github.com/starreeze/latr。 |
| 2025-10-28 | ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model | null | 细粒度视觉感知能力有限,构成了视觉-语言模型(VLMs)在实际应用中的关键瓶颈。解决这一问题极具挑战性,原因在于高质量数据的稀缺性以及现有方法的局限性:监督微调(SFT)通常会损害通用能力,而强化微调(RFT)则将文本推理置于视觉感知之上。为了弥合这一鸿沟,我们提出了一种新颖的两阶段任务,将视觉感知学习构建为一个从粗到细的渐进过程。基于这种任务表述,我们开发了ViPER,这是一个专门设计用于通过自我批评和自我预测实现迭代演化的自举框架。通过协同整合图像级和实例级重建与两阶段强化学习策略,ViPER建立了一个闭环训练范式,其中内部合成数据直接促进了感知能力的提升。应用于Qwen2.5-VL系列模型,ViPER产生了Qwen-Viper系列模型。在涵盖各种任务的七个综合基准测试中平均提升1.7%,在细粒度感知任务上最高提升6.0%,Qwen-Viper在不同视觉-语言场景中持续展现出卓越的性能,同时保持了泛化能力。除了实现感知能力的自我提升,ViPER还为生成与理解之间的相互关系提供了具体证据,这是开发更自主和更有能力的VLMs的一项突破。 |
| 2025-10-28 | Can LLMs Translate Human Instructions into a Reinforcement Learning Agent’s Internal Emergent Symbolic Representation? | null | 涌现式符号表示对于使发展式学习智能体能够进行跨任务规划和泛化至关重要。在这项工作中,我们研究了大型语言模型(LLMs)是否能将人类自然语言指令翻译成在分层强化学习过程中涌现的内部符号表示。我们应用了一个结构化评估框架来衡量常见的LLMs(如GPT、Claude、Deepseek和Grok)在Ant Maze和Ant Fall环境中,由分层强化学习算法生成的不同内部符号分区上的翻译性能。我们的发现表明,尽管LLMs在将自然语言翻译成环境动态的符号表示方面展现出一定的能力,但它们的性能对分区粒度和任务复杂度高度敏感。这些结果揭示了当前LLMs在表示对齐能力方面的局限性,强调了需要进一步研究语言与内部智能体表示之间鲁棒对齐的重要性。 |
| 2025-10-23 | KL-Regularized Reinforcement Learning is Designed to Mode Collapse | null | 人们普遍认为,优化反向KL散度会导致“模式搜索”,而优化前向KL则会导致“质量覆盖”,如果目标是从多个多样化模式中采样,则后者更受欢迎。我们通过数学和经验表明,这种直觉不一定能很好地迁移到使用反向/前向KL正则化进行强化学习(例如,在语言模型中常用)。相反,反向/前向KL的选择决定了最佳目标分布族,该分布族由正则化系数参数化。模式覆盖主要取决于其他因素,例如正则化强度以及奖励与参考概率之间的相对比例。此外,我们表明,常用的设置,如低正则化强度和相等的、可验证的奖励,往往会指定单峰目标分布,这意味着优化目标在构建上是非多样化的。我们利用这些见解构建了一个简单、可扩展且理论上合理的算法。它对奖励幅度做出了最小的改变,却能优化出一个对所有高质量采样模式赋予高概率的目标分布。在实验中,这种简单的修改能够对大型语言模型和化学语言模型进行后训练,以获得更高的解决方案质量和多样性,而无需任何外部多样性信号,并且在单独使用前向或反向KL会失败的情况下,该方法对两者都有效。 |
| 2025-10-23 | Plan Then Retrieve: Reinforcement Learning-Guided Complex Reasoning over Knowledge Graphs | null | 知识图谱问答旨在通过对结构化知识图谱进行推理来回答自然语言问题。尽管大语言模型凭借其强大的推理能力推动了知识图谱问答的发展,但现有方法仍难以充分利用知识图谱中编码的丰富知识以及大语言模型的推理能力,尤其是在复杂场景中。它们通常假设知识图谱覆盖完整,缺乏判断何时需要外部信息的机制,并且其推理仍然是局部短视的,无法保持连贯的多步规划,导致即使存在相关知识也出现推理失败。我们提出了Graph-RFT,这是一种新颖的两阶段强化微调知识图谱问答框架,采用“思考时规划-知识图谱搜索-网络搜索”范式,使大语言模型能够在知识不完整条件下,跨知识图谱和网络资源执行自主规划和自适应检索调度。Graph-RFT引入了一种思维链微调方法,结合定制化的规划-检索数据集,激活结构化推理并解决了GRPO冷启动问题。随后,它引入了一种新颖的规划-检索引导强化学习过程,将显式规划和检索动作与多奖励设计相结合,实现了覆盖感知型检索调度。它采用了一个受笛卡尔启发的规划模块,将复杂问题分解为有序的子问题,并使用逻辑表达式来指导工具调用,以实现全局一致的多步推理。这种推理检索过程通过结合了结果和检索特定信号的多奖励进行优化,使模型能够学习何时以及如何有效地结合知识图谱和网络检索。 |
| 2025-10-23 | The Shape of Reasoning: Topological Analysis of Reasoning Traces in Large Language Models | null | 评估大型语言模型推理轨迹的质量仍然研究不足、劳动密集且不可靠:当前实践依赖于专家评分标准、人工标注和缓慢的成对判断。自动化方法主要由量化结构连通性但未阐明高质量推理构成要素的基于图的代理主导;此类抽象对于本质上复杂的过程可能过于简化。我们引入了一个基于拓扑数据分析(TDA)的评估框架,该框架捕获推理轨迹的几何形状,并实现标签高效的自动化评估。在我们的实证研究中,拓扑特征在评估推理质量方面比标准图度量产生了显著更高的预测能力,这表明有效推理更好地由高维几何结构而非纯粹的关系图捕获。我们进一步表明,一组紧凑、稳定的拓扑特征可靠地指示轨迹质量,为未来的强化学习算法提供了一个实用信号。 |
| 2025-10-23 | EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence | null | 通用人工智能(AGI)的实现需要具身AI智能体,这些智能体应具备在物理环境中进行鲁棒的空间感知、有效的任务规划和自适应执行的能力。然而,当前用于具身任务的大语言模型(LLMs)和多模态大语言模型(MLLMs)存在主要局限性,包括模型设计与智能体需求之间的显著差距、实时延迟与性能之间不可避免的权衡,以及使用不真实、离线的评估指标。为解决这些挑战,我们提出了EmbodiedBrain,这是一种新颖的视觉-语言基础模型,具有7B和32B两种参数规模。我们的框架具有智能体对齐的数据结构,并采用强大的训练方法,该方法将大规模监督微调(SFT)与步骤增强组相对策略优化(Step-GRPO)相结合,通过将先行步骤整合为引导前驱来提升长程任务成功率。此外,我们还引入了一个全面的奖励系统,包括在基础设施层面进行加速的生成式奖励模型(GRM),以提高训练效率。为实现彻底验证,我们建立了一个涵盖通用、规划和端到端模拟基准的三部分评估系统,其亮点在于提出并开源了一个新颖且具有挑战性的模拟环境。实验结果表明,EmbodiedBrain在所有指标上均实现了卓越性能,为具身基础模型建立了新的最先进水平。为下一代通用具身智能体铺平道路,我们开源了所有数据、模型权重和评估方法,这些内容可在https://zterobot.github.io/EmbodiedBrain.github.io获取。 |
| 2025-10-23 | A Unified Framework for Zero-Shot Reinforcement Learning | null | 零样本强化学习(RL)已成为一种以无监督方式开发通用智能体的范式,能够无需在测试时进行额外训练或规划即可解决下游任务。与针对固定奖励优化策略的传统RL不同,零样本RL要求智能体编码足够丰富的表征,以支持对任何目标的即时适应,这与视觉和语言基础模型有异曲同工之处。尽管兴趣日益增长,该领域仍缺乏一个共同的分析视角。我们提出了第一个针对零样本RL的统一框架。我们的框架引入了一致的符号和分类法,组织了现有方法并允许它们之间进行直接比较。我们框架的核心是将算法分为两大家族:直接表征,其学习从奖励到策略的端到端映射;以及组合表征,其利用价值函数的子结构来分解表征。在此框架内,我们强调了各种方法的共同原则和主要区别,并为后继特征方法推导了一个扩展边界,为它们在零样本范式下的性能提供了新视角。通过在共同视角下整合现有工作,我们的框架为零样本RL的未来研究提供了原则性基础,并勾勒出开发更通用智能体的清晰路径。 |
| 2025-10-23 | Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence | null | 视频推理需要跨帧多步演绎,这对于多模态大语言模型(MLLM)来说仍然是一个主要挑战。尽管基于强化学习(RL)的方法能增强推理能力,但它们通常依赖于纯文本链,这会导致未能接地或产生幻觉的结论。相反,帧检索方法引入了视觉接地,但仍面临证据定位不准确的问题。为解决这些挑战,我们提出了Conan,一个用于证据接地多步视频推理的框架。Conan识别上下文帧和证据帧,对跨帧线索进行推理,并自适应地决定何时得出结论或进一步探索。为此,我们(1)构建了Conan-91K,一个包含帧识别、证据推理和动作决策的自动生成推理轨迹的大规模数据集,以及(2)设计了一种多阶段渐进式冷启动策略,并结合识别-推理-动作(AIR)RLVR训练框架,以共同增强多步视觉推理能力。在六个多步推理基准上的大量实验表明,Conan在准确性方面平均超越基线Qwen2.5-VL-7B-Instruct逾10%,实现了最先进的性能。此外,Conan能有效泛化到长视频理解任务,验证了其强大的可扩展性和鲁棒性。 |
| 2025-10-23 | LM-mixup: Text Data Augmentation via Language Model based Mixup | null | 指令微调对于对齐大型语言模型(LLMs)至关重要,然而指令遵循数据的质量差异很大。高质量数据至关重要,但往往稀缺;相反,大量丰富的低质量数据却经常被丢弃,导致大量信息损失。现有数据增强方法难以有效增强这些低质量数据,并且对此类技术的评估仍然定义不清。为解决此问题,我们正式定义了指令蒸馏任务:将多个低质量和冗余输入蒸馏成高质量和连贯的指令-输出对。具体而言,我们引入了一个全面的数据构建流程来创建MIXTURE,这是一个包含14.4万个样本的数据集,它将低质量或语义冗余的不完善指令簇与其高质量蒸馏结果配对。接着我们引入了LM-Mixup,首先在MIXTURE上进行监督微调,然后通过强化学习对其进行优化。此过程通过组相对策略优化(GRPO)利用了三种互补的奖励信号:质量、语义对齐和格式合规性。我们证明LM-Mixup能有效增强不完善的数据集:在仅占整个数据集约3%的蒸馏数据上对LLMs进行微调,不仅超越了在完整数据集上训练的效果,而且在多个基准测试中与最先进的高质量数据选择方法相媲美。我们的工作表明,当通过LM-Mixup正确蒸馏和增强时,低质量数据是一种宝贵的资源,显著提高了经过指令微调的LLMs的效率和性能。 |
| 2025-10-23 | Why DPO is a Misspecified Estimator and How to Fix It | null | 直接对齐算法,如直接偏好优化 (DPO),基于偏好数据微调模型,仅使用监督学习而非两阶段人类反馈强化学习 (RLHF)。我们表明,DPO 编码了一个由参数化策略类诱导的奖励函数上的统计估计问题。当生成偏好的真实奖励函数无法通过策略类实现时,DPO 会出现错配,导致诸如偏好顺序反转、策略奖励恶化以及对输入偏好数据分布的高度敏感性等失败模式。另一方面,我们研究了参数化类两阶段 RLHF 的局部行为,并将其与策略空间中的自然梯度步长联系起来。我们细粒度的几何表征使我们能够提出 AuxDPO,该方法在 DPO 损失函数中引入了额外的辅助变量,以原则性方式帮助趋向 RLHF 解决方案,并缓解 DPO 中的错配问题。我们通过实验证明了 AuxDPO 在教学型多臂老虎机设置以及大语言模型对齐任务上的优越性能。 |
| 2025-10-23 | Ask a Strong LLM Judge when Your Reward Model is Uncertain | null | 奖励模型(RM)在基于人类反馈的强化学习(RLHF)中对齐大型语言模型(LLM)方面发挥着关键作用。然而,基于人类偏好训练的经典奖励模型容易受到奖励攻击,并且对分布外(OOD)输入的泛化能力差。相比之下,具备推理能力的强大LLM评判器即使没有额外训练也展现出卓越的泛化能力,但会带来显著更高的推理成本,限制了它们在在线RLHF中的适用性。在这项工作中,我们提出了一种基于不确定性的路由框架,可以有效地用一个强大但昂贵的LLM评判器来补充一个快速奖励模型。我们的方法将策略梯度(PG)方法中的优势估计公式化为成对偏好分类,从而实现有原则的不确定性量化以指导路由。不确定的对被转发给LLM评判器,而确定的对则由奖励模型评估。在奖励模型基准上的实验表明,我们的基于不确定性的路由策略在相同成本下显著优于随机调用评判器,并且下游对齐结果展示了其在改进在线RLHF方面的有效性。 |
| 2025-10-23 | ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows | null | 随着大型语言模型(LLM)的发展,它们在科学领域中的终极愿景正在浮现:我们可以构建一个人工智能协作者,有效地协助人类贯穿整个科学研究过程。我们将这种设想中的系统称为ResearchGPT。鉴于科学研究通过多个相互依存的阶段进行,实现这一愿景需要严谨的基准,这些基准评估端到端的工作流程,而非孤立的子任务。为此,我们贡献了CS-54k,一个计算机科学领域的高质量科学问答对语料库,该语料库基于1.4万篇CC许可论文构建。它通过一个可扩展的、以论文为基础的流水线构建,该流水线结合了检索增强生成(RAG)和多阶段质量控制,以确保事实依据。从这个统一的语料库中,我们派生出两个互补的子集:CS-4k,一个精心策划的基准,用于评估AI协助科学研究的能力;以及CS-50k,一个大规模训练数据集。大量实验表明,CS-4k将最先进的LLM分层为不同的能力等级。在CS-50k上采用监督训练和强化学习训练的开源模型显示出显著的改进。即使是7B规模的模型,经过适当训练后,也能超越许多更大的专有系统,例如GPT-4.1、GPT-4o和Gemini 2.5 Pro。这表明,使AI模型成为更好的研究助手,更多地依赖于高质量数据的领域对齐训练,而非预训练规模或通用基准性能。我们发布CS-4k和CS-50k,希望能促进人工智能系统成为计算机科学研究中可靠的协作者。 |
| 2025-10-21 | EffiReasonTrans: RL-Optimized Reasoning for Code Translation | null | 代码翻译是软件开发和维护中一项至关重要的任务。尽管大语言模型(LLMs)的最新进展提高了自动化代码翻译的准确性,但这些改进往往以增加推理延迟为代价,阻碍了涉及人工干预检查的实际开发工作流程。为解决这种权衡,我们提出了EffiReasonTrans,这是一个旨在提高翻译准确性同时平衡推理延迟的训练框架。我们首先通过提示一个更强大的语言模型DeepSeek-R1生成中间推理和目标翻译,从而构建了一个高质量的推理增强数据集。每个(源代码、推理、目标代码)三元组都经过自动化语法和功能检查,以确保可靠性。基于此数据集,我们采用两阶段训练策略:首先在推理增强样本上进行监督微调,然后通过强化学习进一步提高准确性并平衡推理延迟。我们在六个翻译对上评估了EffiReasonTrans。实验结果表明,它持续提高了翻译准确性(与基线模型相比,CA最高提高49.2%,CodeBLEU最高提高27.8%),同时减少了生成的token数量(最高减少19.3%),并在大多数情况下降低了推理延迟(最高降低29.0%)。消融研究进一步证实了该两阶段训练框架的互补优势。此外,当集成到基于代理的框架中时,EffiReasonTrans展现了改进的翻译准确性。我们的代码和数据可在https://github.com/DeepSoftwareAnalytics/EffiReasonTrans获取。 |
| 2025-10-21 | Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning | null | 忠实地个性化大语言模型 (LLM) 以使其与个体用户偏好对齐是一项关键但具挑战性的任务。尽管有监督微调 (SFT) 很快达到性能平台期,但标准的人类反馈强化学习 (RLHF) 也难以处理个性化的细微之处。基于标量的奖励模型容易受到奖励攻击,这会导致生成冗长且表面化个性化的响应。为解决这些局限性,我们提出了“批判-后编辑”(Critique-Post-Edit),这是一个鲁棒的强化学习框架,能够实现更忠实和可控的个性化。我们的框架整合了两个关键组件:(1) 一个个性化生成式奖励模型 (GRM),它提供多维分数和文本批判以抵抗奖励攻击;以及 (2) 一个批判-后编辑机制,其中策略模型基于这些批判修改其自身输出,以实现更有针对性和高效的学习。在严格的长度控制评估下,我们的方法在个性化基准测试中显著优于标准的PPO。个性化的Qwen2.5-7B模型平均胜率提升11%,而个性化的Qwen2.5-14B模型超越了GPT-4.1的性能。这些结果表明了实现忠实、高效且可控的个性化的一条实用路径。 |
| 2025-10-21 | Search Self-play: Pushing the Frontier of Agent Capability without Supervision | null | 可验证奖励强化学习(RLVR)已成为训练大型语言模型(LLM)智能体的主流技术。然而,RLVR高度依赖精心设计的任务查询和相应的真实答案来提供准确奖励,这需要大量人力投入并阻碍了强化学习的扩展过程,尤其是在智能体场景下。尽管一些近期工作探索了任务合成方法,但生成的智能体任务的难度难以控制,从而无法提供有效的强化学习训练优势。为实现更高可扩展性的智能体RLVR,我们探索了深度搜索智能体的自博弈训练,其中学习型LLM利用多轮搜索引擎调用,并同时充当任务提出者和问题解决者。任务提出者旨在生成带有明确定义的真实答案和不断增加任务难度的深度搜索查询。问题解决者尝试处理生成的搜索查询并输出正确的答案预测。为确保每个生成的搜索查询都具有准确的真实性,我们将提出者轨迹中的所有搜索结果作为外部知识进行收集,然后进行检索增强生成(RAG),以测试所提出的查询是否可以在提供所有必要搜索文档的情况下被正确回答。在这种搜索自博弈(SSP)游戏中,提出者和解决者通过竞争与合作共同演化其智能体能力。凭借大量的实验结果,我们发现SSP能在从零开始和持续强化学习训练设置下,在没有任何监督的情况下,统一显著提升搜索智能体在各种基准测试上的性能。代码位于https://github.com/Alibaba-Quark/SSP。 |
| 2025-10-21 | Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards | link | 我们提出了一种简单、自助式的大语言模型推理在线监督微调(OSFT)范式。在该范式中,模型生成自己的响应,并立即利用这些自生成数据进行微调。OSFT是一种用于大语言模型推理的高效训练策略,因为它无需奖励且默认仅使用一次推演。实验结果表明,OSFT在具有挑战性的数学推理任务上实现了与GRPO等强大的可验证奖励强化学习(RLVR)方法相当的下游性能。我们的消融研究进一步证明了OSFT的效率和鲁棒性。OSFT的主要机制在于促进模型自身从预训练中学习到的已有偏好(潜在知识),从而提升推理能力。我们相信OSFT为更复杂的、基于奖励的训练范式提供了一种高效且有前景的替代方案。我们的代码可在https://github.com/ElementQi/OnlineSFT获取。 |
| 2025-10-21 | Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation | null | 大型语言模型在单轮指令遵循方面表现出强大的能力,但在多轮对话设置中,随着信息逐步披露,其性能会下降,即存在对话迷失(LiC)问题。受可验证奖励强化学习(RLVR)当前进展的启发,我们提出了具备可验证准确性和弃权奖励的课程强化学习(RLAAR),这是一个鼓励模型不仅生成正确答案,还能在多轮对话设置中判断问题可解性的框架。我们的方法采用一种能力门控课程,该课程逐步增加对话难度(以指令碎片衡量),从而稳定训练并提升可靠性。RLAAR利用多轮、在策略(on-policy)的滚动(rollouts)和混合奖励系统,教导模型在问题解决和明智弃权之间取得平衡,从而减少导致LiC的过早回答行为。在LiC基准测试上进行评估,RLAAR显著缓解了LiC性能衰减(从62.6%到75.1%),并提高了校准弃权率(从33.5%到73.4%)。综上所述,这些结果为构建多轮可靠且值得信赖的LLM提供了一个实用的方案。 |
| 2025-10-21 | Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options | null | 我们研究在线基于偏好的强化学习 (PbRL),旨在提高样本效率。尽管受PbRL近期经验成功(尤其是在对齐大型语言模型LLM方面)的启发,越来越多的理论工作已经出现,但大多数现有研究只关注成对比较。少数近期工作 (Zhu et al., 2023, Mukherjee et al., 2024, Thekumparampil et al., 2024) 探索了使用多重比较和排序反馈,但尽管有更丰富的信息可用,它们的性能保证未能随反馈长度的增加而改善,甚至可能恶化。为了解决这一空白,我们采用Plackett-Luce (PL) 模型进行动作子集的排序反馈,并提出M-AUPO算法,该算法通过最大化所提供子集内的平均不确定性来选择多个动作。我们证明M-AUPO实现了 $\tilde{\mathcal{O}}\left( \frac{d}{T} \sqrt{ \sum_{t=1}^T \frac{1}{|S_t|}} \right)$的次优性差距,其中T是总轮数,d是特征维度,且$|S_t|$是第t轮子集的大小。这一结果表明,更大的子集直接导致性能提升,值得注意的是,该界限避免了对未知参数范数的指数依赖,这是大多数先前工作中的一个根本性限制。此外,我们建立了$\Omega \left( \frac{d}{K \sqrt{T}} \right)$ 的接近匹配下界,其中K是最大子集大小。据我们所知,这是PbRL领域中第一个关于排序反馈的理论结果,明确表明样本效率是子集大小的函数而得到提升。 |
| 2025-10-21 | Socialized Learning and Emergent Behaviors in Multi-Agent Systems based on Multimodal Large Language Models | null | 本文介绍了多模态社会化学习框架 (M-S2L),旨在通过将多模态大语言模型 (M-LLMs) 与社会学习机制相结合,在AI智能体中培养新兴的社会智能。该框架为智能体配备了多模态感知能力(视觉和文本)和结构化动作能力,使其能够进行物理操作以及基于基础的多模态通信(例如,带有视觉指示的文本)。M-S2L将直接强化学习与两种新颖的社会学习途径相结合:多模态观察学习和通信驱动的反馈学习,并通过情景记忆系统增强以获取长期社会情境。我们在一个协作组装环境 (CAE) 中评估了M-S2L,其中智能体团队必须在信息不对称的情况下,根据模糊的蓝图构建复杂的设备。在复杂度不断增加的任务中,M-S2L智能体在任务完成率和完成时间方面始终优于仅文本和无社会学习基线,尤其是在动态问题解决场景中。消融研究证实了多模态和社会化学习两者均是必要的。我们的分析揭示了将视觉指示与简洁文本相结合的高效通信协议的出现,以及快速的角色专业化从而形成稳定的劳动分工。定性案例研究表明智能体具备共享意识、动态重新规划和自适应问题解决的能力,这表明了一种新兴的机器社会认知形式。这些发现表明,将多模态感知与显式社会学习相结合,对于在多智能体系统中开发类人协作智能至关重要。 |
| 2025-10-21 | CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment | null | 尽管大语言模型(LLMs)通过学习海量代码语料库在代码生成方面表现出色,但在它们基于文本模式的训练与由形式化执行语义支配的功能正确性目标之间,仍存在一个根本性的语义鸿沟。可验证奖励强化学习(RLVR)方法试图通过利用执行测试用例产生的结果奖励来弥合这一鸿沟。然而,仅仅依靠二元的通过/失败信号,对于在代码的文本表示与其执行语义之间建立良好对齐的连接是低效的,尤其对于代码中细微的逻辑错误。在本文中,我们提出了CodeRL+,这是一种新颖的方法,它将执行语义对齐集成到代码生成的RLVR训练流程中。CodeRL+使模型能够推断变量级的执行轨迹,从而提供执行语义的直接学习信号。CodeRL+可以直接利用现有的在策略采样构建执行语义对齐,并能与各种强化学习算法无缝集成。大量实验表明,CodeRL+优于训练后基线方法(包括RLVR和蒸馏),在pass@1指标上实现了4.6%的平均相对提升。CodeRL+能有效地泛化到其他编码任务,在代码推理和测试输出生成基准上分别取得了15.5%和4.4%更高的准确率。CodeRL+在各种强化学习算法和大语言模型中都显示出强大的适用性。此外,探针分析提供了令人信服的证据表明CodeRL+加强了代码的文本表示与其底层执行语义之间的对齐。 |
| 2025-10-21 | Med-VRAgent: A Framework for Medical Visual Reasoning-Enhanced Agents | null | 视觉语言模型 (VLM) 在医学推理中取得了有前景的成果,但在幻觉、模糊描述、逻辑不一致和定位能力差等方面面临挑战。为了解决这个问题,我们提出了一个名为医学视觉推理智能体 (Med-VRAgent) 的智能体框架。该方法基于视觉引导和自我奖励范式以及蒙特卡洛树搜索 (MCTS)。通过将视觉引导与树搜索结合,Med-VRAgent 提升了 VLM 的医学视觉推理能力。我们利用 Med-VRAgent 收集的轨迹作为反馈,通过使用近端策略优化 (PPO) 目标对 VLM 进行微调,以进一步提高性能。在多个医学视觉问答 (VQA) 基准上的实验表明,我们的方法优于现有方法。 |
| 2025-10-21 | MENTOR: A Reinforcement Learning Framework for Model Enhancement via Teacher-Optimized Rewards in Small Models | null | 将大语言模型(LLMs)的工具使用能力蒸馏到更小、更高效的小语言模型(SLMs)中是其实际应用的关键挑战。主流方法有监督微调(SFT)存在泛化能力差的问题,因为它训练模型模仿一组静态的教师轨迹,而非学习一种鲁棒的方法论。尽管强化学习(RL)提供了一种替代方案,但使用稀疏奖励的标准强化学习未能有效指导SLMs,导致它们在低效探索中挣扎并采纳次优策略。为了解决这些不同的挑战,我们提出了MENTOR,一个协同结合了强化学习与教师指导蒸馏的框架。相较于简单的模仿,MENTOR采用了一种基于RL的过程,通过探索学习一种更具泛化能力的策略。此外,为了解决奖励稀疏性问题,它使用教师的参考轨迹来构建一种密集的、复合的教师指导奖励,从而提供细粒度指导。大量实验表明,与SFT和标准稀疏奖励RL基线相比,MENTOR显著提高了SLMs的跨领域泛化能力和策略能力。 |
| 2025-10-16 | Agentic Design of Compositional Machines | link | 复杂机器的设计既是人类智慧的标志,也是工程实践的基础。鉴于大型语言模型(LLM)的最新进展,我们探讨它们是否也能学会创造。我们通过组合式机器设计的视角来探讨这个问题:在这项任务中,机器由标准化组件组装而成,以在模拟物理环境中满足运动或操纵等功能需求。为了支持这项研究,我们引入了BesiegeField,这是一个基于机器建造游戏Besiege构建的测试平台,它支持基于零件的构建、物理模拟和奖励驱动的评估。利用BesiegeField,我们对采用智能体工作流的最新LLM进行了基准测试,并识别了成功所需的关键能力,包括空间推理、策略性组装和指令遵循。由于当前的开源模型表现不足,我们探索强化学习(RL)作为改进途径:我们整理了一个冷启动数据集,进行了RL微调实验,并强调了语言、机器设计和物理推理交叉领域的开放挑战。 |
| 2025-10-16 | Learning an Image Editing Model without Image Editing Pairs | link | 最近的图像编辑模型在遵循自然语言编辑指令方面取得了令人瞩目的成果,但它们依赖于使用大量输入-目标对数据集进行的监督微调。这是一个关键瓶颈,因为这种自然产生的配对数据难以大规模收集。当前的解决方法是利用现有模型的零样本能力生成合成训练对。然而,这可能会将预训练模型的伪影传播并放大到最终训练模型中。在这项工作中,我们提出了一种新的训练范式,完全消除了对配对数据的需求。我们的方法通过在训练期间展开一个少步扩散模型,并利用视觉-语言模型(VLM)的反馈,直接对其进行优化。对于每个输入和编辑指令,VLM评估编辑是否遵循指令并保留未更改的内容,为端到端优化提供直接梯度。为了确保视觉保真度,我们引入了分布匹配损失(DMD),它约束生成的图像保持在预训练模型学习到的图像流形内。我们在标准基准上评估了我们的方法,并进行了广泛的消融研究。在没有任何配对数据的情况下,我们的方法在少步设置下,性能与各种在大量监督配对数据上训练的图像编辑扩散模型相当。在给定相同的VLM作为奖励模型时,我们的方法也优于Flow-GRPO等基于强化学习的技术。 |
| 2025-10-16 | Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents | null | 基于大型语言模型(LLM)的智能体正越来越多地通过强化学习(RL)进行训练,以增强其通过工具使用与外部环境交互的能力,特别是在需要多轮推理和知识获取的基于搜索的场景中。然而,现有方法通常依赖于仅在最终答案处提供的基于结果的奖励。这种奖励稀疏性在多轮设置中变得尤为突出,其中长轨迹会加剧两个关键问题:(i) 优势坍塌,即所有采样轨迹获得相同的奖励,无法提供有用的学习信号;以及 (ii) 缺乏细粒度信用分配,即轮次间的依赖关系变得模糊,尤其是在长周期任务中。在本文中,我们提出了基于信息增益的策略优化(IGPO),这是一种简单而有效的强化学习框架,为多轮智能体训练提供了密集且内在的监督。IGPO将每次交互轮次建模为获取关于真值的增量过程,并将轮次级别奖励定义为策略生成正确答案的概率的边际增量。与以往依赖外部奖励模型或昂贵蒙特卡洛估计的过程级奖励方法不同,IGPO直接从模型自身的信念更新中导出内在奖励。这些内在的轮次级别奖励与结果级别的监督相结合,形成密集的奖励轨迹。在域内和域外基准测试上进行的大量实验表明,IGPO在多轮场景中持续优于强大的基线,实现了更高的准确性并提高了样本效率。 |
| 2025-10-16 | LaSeR: Reinforcement Learning with Last-Token Self-Rewarding | link | 可验证奖励强化学习(RLVR)最近已成为增强大型语言模型(LLMs)推理能力的核心范式。为解决测试时缺乏验证信号的问题,先前研究将模型自我验证能力的训练纳入标准RLVR过程,从而在单个LLM中统一了推理和验证能力。然而,以往的做法要求LLM使用两个独立的提示模板顺序生成解决方案和自我验证,这显著降低了效率。在这项工作中,我们理论上揭示了自我验证的强化学习目标的封闭形式解可以简化为一种非常简单的形式:解决方案的真实推理奖励等于其最后一个token的自我奖励分数,该分数计算为策略模型在解决方案最后一个token处分配给任何预先指定token的下一个token对数概率与一个预先计算的常数之间的差值,并乘以KL系数。基于这一见解,我们提出了LaSeR(带最后一个token自我奖励的强化学习),这是一种算法,它通过均方误差(MSE)损失来增强原始RLVR损失,该损失将最后一个token的自我奖励分数与基于验证器的推理奖励对齐,从而联合优化LLMs的推理和自我奖励能力。优化后的自我奖励分数可以在训练和测试中利用,以提高模型性能。值得注意的是,我们的算法在生成后立即从最后一个token的预测下一个token概率分布中推导出这些分数,仅产生一个额外token推理的最小额外开销。实验表明,我们的方法不仅提高了模型的推理性能,而且赋予了它卓越的自我奖励能力,从而提升了其推理时的扩展性能。 |
| 2025-10-16 | Reasoning with Sampling: Your Base Model is Smarter Than You Think | link | 前沿推理模型在广泛的学科领域展现出惊人的能力,这得益于使用强化学习(RL)对大型语言模型(LLM)进行后训练。然而,尽管这种范式取得了广泛成功,许多文献致力于辨析在RL期间出现但在基础模型中不存在的真正新颖行为。在我们的工作中,我们从一个不同的角度探讨这个问题,转而提出是否可以在推理时,通过纯粹的采样,无需任何额外训练,从基础模型中引出可比的推理能力。受马尔可夫链蒙特卡洛(MCMC)技术用于从锐化分布中采样的启发,我们提出了一种简单的迭代采样算法,该算法利用基础模型自身的似然度。在不同的基础模型上,我们展示了我们的算法在推理方面提供了显著提升,其性能几乎与RL相当,甚至在MATH500、HumanEval和GPQA等各种单次任务上超越了RL。此外,我们的采样器避免了多样本多样性坍塌,这是强化学习后训练的典型特征。至关重要的是,我们的方法不需要训练、精心策划的数据集或验证器,这表明其具有超越易于验证领域的广泛适用性。 |
| 2025-10-16 | Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Improves Without Labels or Model Updates | null | 企业智能平台必须集成来自众多第三方供应商的日志,以执行各种下游任务。然而,在测试时,供应商文档通常不可用。它可能放错位置、不匹配、格式不佳或不完整,这使得模式映射极具挑战性。我们引入了一种强化学习智能体,它可以在没有标记示例或模型权重更新的情况下进行自我改进。在推理过程中,该智能体:1) 识别模糊的字段映射尝试。2) 生成有针对性的网络搜索查询以收集外部证据。3) 应用基于置信度的奖励来迭代地完善其映射。为了演示这一概念,我们将Microsoft Defender for Endpoint日志转换为通用模式。我们的方法在使用GPT-4o经过100次迭代后,将映射准确性从56.4%(仅限LLM)提高到72.73%(RAG),再提高到93.94%。同时,它将需要专家审查的低置信度映射数量减少了85%。这种新方法为解决未来的行业问题提供了一种证据驱动、透明的方法,为更鲁棒、负责任、可扩展、高效、灵活、适应性强和协作的解决方案铺平了道路。 |
| 2025-10-16 | SimKO: Simple Pass@K Policy Optimization | link | 可验证奖励强化学习(RLVR)提升了大语言模型(LLMs)的推理能力。然而,当前主流的RLVR方法表现出系统性地偏向利用而非探索,具体表现为pass@1性能提高但pass@K (K>1) 性能下降。为了理解这个问题,我们通过追踪词汇候选项上的词元级别概率分布来分析RLVR方法的训练动态。我们的分析揭示了一种一致的概率集中效应,即首位候选项逐渐积累概率质量并抑制了其他候选项的概率。更重要的是,更强的过度集中与更差的pass@K性能相关联。受此发现启发,我们提出了简单Pass@K优化(SimKO),这是一种旨在缓解过度集中问题,从而鼓励探索的方法。SimKO以非对称的方式运行。对于已验证的正确响应,它提升了前K个候选项的概率。对于已验证的错误响应,它对首位候选项施加更强的惩罚。我们观察到,当应用于高熵词元时,这种非对称设计在缓解过度集中方面特别有效。在各种数学和逻辑推理基准测试中,SimKO对于广泛的K值始终产生更高的pass@K,提供了一种简单的方法来改进RLVR的探索能力。 |
| 2025-10-16 | AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning | null | 多模态大语言模型(MLLMs)已从感知任务迅速发展到复杂的多步推理,然而,可验证奖励强化学习(RLVR)常常导致虚假推理,因为只奖励最终答案的正确性。为了解决这一局限性,我们提出了AutoRubric-R1V,一个通过自动收集的基于评分标准的生成式奖励将RLVR与过程级监督相结合的框架。我们的关键创新在于一种可扩展的自聚合方法,该方法从成功的轨迹中提炼出一致的推理检查点,从而实现了问题特定的评分标准构建,无需人工标注或更强大的教师模型。通过联合利用基于评分标准的奖励和结果奖励,AutoRubric-R1V在六个多模态推理基准上取得了最先进的性能,并在专门评估中显著提高了推理的忠实性。 |
| 2025-10-16 | Cognitive-Aligned Spatio-Temporal Large Language Models For Next Point-of-Interest Prediction | null | 下一个兴趣点(POI)推荐任务旨在根据用户的偏好和历史签到预测他们紧接着的下一个目的地,在基于位置的服务中具有重要价值。近年来,大语言模型(LLMs)在推荐系统中展现出巨大潜力,它们以生成式方式处理下一个POI预测。然而,这些LLMs主要在大量非结构化文本语料库上进行预训练,缺乏下一个POI预测任务所需的对结构化地理实体和序列移动模式的内在理解。此外,在工业级POI预测应用中,融入世界知识和人类认知对齐,例如季节、天气条件、节假日以及用户画像(如习惯、职业和偏好),可以提升用户体验,同时提高推荐性能。为了解决这些问题,我们提出了CoAST(认知对齐的时空大语言模型),一个以自然语言为接口的框架,允许融入世界知识、时空轨迹模式、用户画像和情境信息。具体来说,CoAST主要包含两个阶段:(1) 推荐知识获取,通过在脱敏用户的丰富化时空轨迹数据上进行持续预训练;(2) 认知对齐,通过监督微调(SFT)和随后的强化学习(RL)阶段,使用丰富化的训练数据将认知判断与人类偏好对齐。在各种真实世界数据集上进行的大量离线实验以及部署在高德地图App首页“猜你去哪”功能中的在线实验,均证明了CoAST的有效性。 |
| 2025-10-16 | An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs | null | 搜索增强赋予大型语言模型检索能力,以克服静态参数所带来的局限性。近来,强化学习利用定制化的奖励信号作为一种可行技术,提升LLM执行涉及搜索的任务。然而,现有针对搜索增强型LLM的奖励建模面临多项局限。基于规则的奖励(例如精确匹配)可验证但对表达变体脆弱,且无法应用于长篇工作负载。相比之下,生成式奖励提升了鲁棒性,但设计可验证且稳定的奖励以应对动态语料库中的长篇工作负载仍然具有挑战性,并且会带来高昂的计算成本。在本文中,我们提出了一种统一且可验证的范式——“信息点即评估标准”,它将原子信息点视为用于不同搜索增强工作负载的结构化评估标准。短篇任务对应单个评估标准,而长篇任务则扩展为与问题的所需信息对齐的多个评估标准。为支持长篇设置,我们设计了一个基于查询重写的自动评估标准构建流程,该流程能够自动检索与每个问题相关的段落,并从中提取评估标准,无论是从静态语料库还是动态在线网络内容中。此外,我们引入了Search-Gen-V,一个在我们提出的可验证范式下的40亿参数高效生成式验证器,其通过蒸馏思想和两阶段策略进行训练。实验结果表明,Search-Gen-V在不同工作负载下实现了强大的验证准确性,使其成为一个可扩展、鲁棒且高效的搜索增强型LLM可验证奖励构建器。 |
| 2025-10-14 | DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search | null | 多模态大型语言模型(MLLM)在实际应用中需要访问外部知识源,并且必须对动态且不断变化的现实世界信息保持响应,以处理信息查询和知识密集型用户请求。现有方法,例如检索增强生成(RAG)方法、搜索代理以及配备搜索功能的MLLM,常常面临管道僵化、过度搜索调用以及搜索查询构建不佳的问题,这些问题导致效率低下和次优结果。为了解决这些局限性,我们提出了DeepMMSearch-R1,这是首个能够执行按需、多轮网络搜索并为图像和文本搜索工具动态生成查询的多模态大型语言模型。具体而言,DeepMMSearch-R1可以根据输入图像中的相关裁剪区域启动网络搜索,从而使图像搜索更有效,并且可以基于检索到的信息迭代地调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于一个两阶段训练管道:一个冷启动监督微调阶段,随后是在线强化学习优化。为了训练,我们引入了DeepMMSearchVQA,这是一个通过自动化管道创建并混合了来自网络搜索工具的真实世界信息的新颖多模态VQA数据集。该数据集包含多样化的多跳查询,整合了文本和视觉信息,教导模型何时搜索、搜索什么、使用哪个搜索工具以及如何对检索到的信息进行推理。我们在涵盖一系列知识密集型基准的广泛实验中证明了我们方法的优越性。最后,我们分析了结果并提供了对推动多模态网络搜索有价值的见解。 |
| 2025-10-14 | Detect Anything via Next Point Prediction | link | 目标检测长期以来一直由传统的基于坐标回归的模型主导,例如YOLO、DETR和Grounding DINO。尽管最近的努力尝试利用多模态大语言模型(MLLM)来解决这项任务,但它们面临低召回率、重复预测、坐标未对齐等挑战。在这项工作中,我们弥合了这一差距,并提出了Rex-Omni,一个30亿参数规模的多模态大语言模型,它实现了最先进的目标感知性能。在COCO和LVIS等基准上,Rex-Omni在零样本设置下取得了与基于回归的模型(例如DINO、Grounding DINO)媲美或超越的性能。这得益于三项关键设计:1)任务形式化:我们使用特殊token来表示0到999的量化坐标,从而降低了模型的学习难度并提高了坐标预测的token效率;2)数据引擎:我们构建了多个数据引擎来生成高质量的接地、指代和指向数据,为训练提供了语义丰富的监督;3)训练流程:我们采用两阶段训练过程,将2200万数据上的监督微调与基于GRPO的强化后训练相结合。这种强化学习后训练利用几何感知的奖励,有效弥合了离散到连续坐标预测的鸿沟,提高了边界框精度,并缓解了源自初始监督微调阶段教师引导特性所导致的重复预测等不良行为。除了传统检测,Rex-Omni固有的语言理解能力使其能够实现多功能能力,例如目标指代、指向、视觉提示、GUI接地、空间指代、OCR和关键点定位,所有这些都在专用基准上进行了系统评估。我们相信Rex-Omni为开发更通用、更具语言感知能力的视觉感知系统铺平了道路。 |
| 2025-10-14 | Reflection-Based Task Adaptation for Self-Improving VLA | null | 预训练视觉-语言-动作(VLA)模型代表了通用机器人领域的一大飞跃,然而,如何有效地将它们原位适应新颖、特定任务仍然是一个重大障碍。尽管强化学习(RL)是实现这种适应的一个有前景的途径,但其过程通常效率低下,阻碍了任务的快速掌握。我们引入了反思性自适应框架,旨在实现无需人工干预的快速、自主任务适应。我们的框架建立了一个自我改进的循环,智能体通过从自身经验中学习来提升策略和执行力。我们框架的核心是一个双通路架构,解决了完整的适应生命周期。首先,一个故障驱动的反思性强化学习通路通过利用VLM的因果推理,从故障分析中自动合成有针对性的密集奖励函数,从而实现了快速学习。这提供了一个集中的学习信号,显著加速了策略探索。然而,优化此类代理奖励引入了“奖励欺骗”的潜在风险,即智能体掌握了奖励函数但未能完成实际任务。为了解决这个问题,我们的第二通路,即成功驱动的质量引导SFT,将策略建立在整体成功的基础上。它识别并有选择地模仿高质量的成功轨迹,确保智能体与最终任务目标保持一致。该通路通过一个条件课程机制得到加强,以辅助初始探索。我们在具有挑战性的操作任务中进行了实验。结果表明,与代表性基线相比,我们的框架实现了更快的收敛和更高的最终成功率。我们的工作为创建能够高效可靠地适应新环境的自我改进智能体提供了一个鲁棒的解决方案。 |
| 2025-10-14 | ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning | link | 具身智能的最新进展凸显了视觉语言模型(VLM)作为智能体在复杂环境中进行感知、推理和交互的潜力。然而,性能顶尖的系统依赖于部署成本高昂的大规模模型,而较小的VLM则缺乏成功所需的必要知识和技能。为了弥补这一差距,我们提出了具身推理智能体(ERA),这是一个整合了先验知识学习和在线强化学习(RL)的两阶段框架。第一阶段是具身先验学习,它从三种类型的数据中蒸馏基础知识:(1)轨迹增强先验,用更强模型生成的结构化推理来丰富现有轨迹数据;(2)环境锚定先验,提供环境内知识和基础监督;以及(3)外部知识先验,从环境外数据集中迁移通用知识。在第二阶段,我们开发了一个在线RL流程,该流程建立在这些先验之上,以进一步提升智能体性能。为了克服智能体RL中固有的挑战,包括长时序、稀疏奖励和训练不稳定性,我们引入了三个关键设计:用于上下文管理的自摘要、密集奖励塑形和轮次级策略优化。在高层规划(EB-ALFRED)和低层控制(EB-Manipulation)任务上进行的大量实验表明,ERA-3B超越了基于提示的大模型和先前的基于训练的基线。具体而言,相较于GPT-4o,它在EB-ALFRED上实现了8.4%的总体提升,在EB-Manipulation上实现了19.4%的总体提升,并对未见任务表现出强大的泛化能力。总的来说,ERA为可扩展的具身智能提供了一条实用路径,并为未来的具身AI系统提供了方法论上的见解。 |
| 2025-10-14 | Reasoning Pattern Matters: Learning to Reason without Human Rationales | null | 大型语言模型(LLMs)在广泛采用的SFT+RLVR范式下展现出卓越的推理能力,该范式首先对人工标注的推理轨迹(理由)进行监督微调(SFT)以建立初步的推理行为,然后应用可验证奖励强化学习(RLVR),使用可验证信号优化模型而无需黄金标准理由。然而,为SFT阶段标注高质量理由的成本仍然过高。本文研究了在不损害推理性能的情况下,何时以及如何能大幅降低理由标注成本。我们识别出一大类问题,称之为模式化推理任务,在这类任务中,推理遵循一个固定且程序化的策略,该策略在不同实例间保持一致。尽管实例在内容上有所不同,例如领域知识、事实信息或数值,但解决方案均源于应用一个共享的推理模式。我们认为SFT+RLVR在此类任务上的成功主要源于其使模型能够内化这些推理模式的能力。以数值语义匹配作为代表性任务,我们提供了因果和行为两方面的证据,表明推理模式而非理由的数量或质量是性能的关键决定因素。基于这些洞察,我们提出了模式感知型大型语言模型作为理由标注器(PARO),这是一个简单而有效的框架,它使LLMs能够生成与任务特定推理模式对齐的理由,而无需人工理由标注。实验表明,PARO生成的理由在SFT+RLVR性能上与数量是其10倍的人工理由相当。这些结果表明,大规模的人工理由标注可以被基于LLM的自动标注所取代,这种自动标注仅需对推理模式进行有限的人工监督。 |
| 2025-10-14 | Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks | null | 大语言模型在长周期智能体任务中面临挑战,因为其有限的记忆很容易被干扰性或不相关的上下文淹没。现有的工作记忆方法通常依赖于外部的、启发式的机制,这些机制与智能体的核心策略是解耦的。在这项工作中,我们重新将工作记忆管理定义为一种可学习的内在能力。我们提出了一个新颖的框架“记忆即行动”(Memory-as-Action),其中智能体通过执行显式的编辑操作作为统一策略的一部分来主动管理其工作记忆。这种表述允许通过强化学习训练的智能体在给定资源限制下,平衡记忆管理和长期任务目标。然而,这种记忆编辑行动打破了LLM交互中前缀连续增长的标准假设,导致我们称之为“轨迹断裂”的问题。这些非前缀变化破坏了标准策略梯度方法所需的因果连续性,使得这些方法不适用。为解决这个问题,我们提出了一种新算法“动态上下文策略优化”(Dynamic Context Policy Optimization),通过在记忆行动点对轨迹进行分段,并将轨迹级优势应用于由此产生的行动段,从而实现了稳定的端到端强化学习。我们的结果表明,以端到端方式联合优化任务推理和记忆管理,不仅降低了总体计算消耗,而且通过根据模型内在能力量身定制的自适应上下文管理策略,提高了任务性能。 |
| 2025-10-14 | Laminar: A Scalable Asynchronous RL Post-Training Framework | null | 强化学习(RL)对大语言模型(LLM)的后训练目前正扩展到大型集群,并长时间运行以提升模型推理性能。然而,现有RL框架的可扩展性受到限制,因为RL轨迹生成中极端的长尾偏斜导致严重的GPU利用率不足。当前的异步RL系统试图缓解此问题,但它们依赖于actor与所有rollout之间的全局权重同步,这导致了僵化的模型更新调度。这种全局同步不适用于RL训练中高度偏斜且不断变化的轨迹生成延迟分布,严重影响了训练效率。我们的关键见解是,高效扩展需要通过轨迹级别的异步来打破这种同步锁定,即独立生成和消费每个轨迹。我们提出了Laminar,一个构建于完全解耦架构之上的可扩展且鲁棒的RL后训练系统。首先,我们用充当分布式参数服务的一层中继工作者取代了全局更新。这实现了异步和细粒度的权重同步,允许rollout随时拉取最新权重而不会阻塞actor的训练循环。其次,动态重新打包机制将长尾轨迹整合到少数专用rollout上,从而最大化了生成吞吐量。完全解耦的设计还隔离了故障,确保了长时间运行作业的鲁棒性。我们在1024-GPU集群上的评估表明,Laminar相较于最先进的系统实现了高达5.48倍的训练吞吐量加速,同时减少了模型收敛时间。 |
| 2025-10-14 | $\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning | null | 主动推理要求大型语言模型(LLM)与外部来源交互并策略性地收集信息以解决问题。这一过程的核心是信念跟踪:保持对问题状态以及解决问题所需缺失信息的连贯理解。然而,由于推理能力有限,基于LLM的智能体经常遭受信念偏差:它们难以正确建模信念,失去对问题状态的跟踪,并陷入无信息或重复的行动。一旦发生这种情况,错误会累积,强化学习(RL)训练也无法正确奖励关键的探索性步骤。为解决此问题,我们提出跟踪模型信念的偏差,并开发了$\mathbf{T^3}$,这是一种简单而有效的方法,它能检测过度的信念偏差并在训练期间截断轨迹以移除无信息的尾部。通过保留对信息性前缀的奖励,$\mathbf{T^3}$系统地改进了策略优化。在5项具有挑战性的任务中,$\mathbf{T^3}$ 持续增强了训练稳定性、令牌效率和最终性能,实现了高达30%的增益,同时将推出令牌减少了约25%。这些结果强调了信念控制是开发鲁棒且可泛化的基于LLM的主动推理器的关键原则。 |
| 2025-10-14 | PromptFlow: Training Prompts Like Neural Networks | null | 大型语言模型 (LLM) 在自然语言处理 (NLP) 任务中展现出深远的影响。然而,它们在不同领域的有效部署通常需要领域特定的适应策略,因为通用模型在面对专业数据分布时可能表现不佳。最近在提示工程 (PE) 方面的进展提供了一种有前景的替代方案,通过精炼输入指令使 LLM 输出与任务目标对齐,从而避免了大量的重新训练。这种范式已成为一种快速且通用的模型微调方法。尽管其潜力巨大,手动提示设计仍然劳动密集,并且严重依赖专业知识,通常需要反复的人工努力才能获得最佳表述。为了解决这一局限性,自动化提示工程方法已被开发出来,以系统地生成任务特定的提示。然而,目前的实现主要采用静态更新规则,并且缺乏动态策略选择机制,导致对不同 NLP 任务需求的适应性不佳。此外,大多数方法在每一步都将整个提示作为一个整体进行处理和更新,而没有考虑以更细的粒度编辑提示的各个部分。最后,特别是如何在 LLM 中循环利用经验的问题仍未得到充分探索。为此,我们提出了 PromptFlow,一个受 TensorFlow 启发的模块化训练框架,它集成了元提示、算子、优化和评估器。我们的框架可以配备最新的优化方法,并通过基于梯度的元学习自主探索最佳提示精炼轨迹,仅需最少的任务特定训练数据。具体而言,我们设计了一种强化学习方法,用于在 PE 过程中为 LLM 循环利用经验。最后,我们在各种数据集上进行了广泛的实验,并证明了 PromptFlow 的有效性。 |
| 2025-10-14 | Reinforced Preference Optimization for Recommendation | link | 大语言模型(LLMs)的最新突破已将推荐系统从判别式范式根本性地转向生成式范式,其中用户行为建模通过基于历史交互生成目标物品来实现。然而,当前的生成式推荐器仍面临两个核心局限:缺乏高质量的负样本建模以及对隐式奖励的依赖。可验证奖励的强化学习(RLVR)通过实现更难负样本的在策略(on-policy)采样并将优化基于显式奖励信号,提供了一种自然解决方案。然而,将RLVR应用于生成式推荐器仍非易事。其独特的生成空间常导致无效或重复的物品,从而损害采样效率,并且由于大多数物品获得相同的零奖励,排序监督也因此变得稀疏。为解决这些挑战,我们提出了推荐强化偏好优化(ReRe),这是一种专为基于大语言模型的推荐器设计的强化范式,也是生成式推荐中的一个重要方向。ReRe结合了约束波束搜索以提高采样效率并多样化困难负样本,同时通过辅助排序奖励增强了基于规则的准确性奖励,以实现更细粒度的监督。在三个真实世界数据集上进行的大量实验表明,ReRe在排序性能方面持续优于传统推荐器和基于大语言模型的推荐器。进一步分析表明,ReRe不仅提升了基础模型和SFT(监督微调)初始化模型的性能,而且在不同的骨干架构系列和规模上都表现出鲁棒的泛化能力。除了经验性收益,我们还系统地研究了RLVR在推荐中的设计空间,涵盖生成、采样策略、奖励建模和优化算法,为未来研究提供了见解。 |
| 2025-10-10 | SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models | link | 扩散大语言模型(dLLM)因其并行解码多个词元的能力,正成为自回归模型的一种有效替代方案。然而,通过强化学习(RL)将dLLM与人类偏好或任务特定奖励对齐具有挑战性,因为其难以处理的对数似然阻碍了标准策略梯度方法的直接应用。尽管先前工作使用证据下界(ELBO)等替代品,但这些单边近似会引入显著的策略梯度偏差。为解决此问题,我们提出了夹心策略梯度(SPG),它利用了真实对数似然的上限和下限。实验表明,SPG显著优于基于ELBO或单步估计的基线方法。具体而言,SPG将dLLM上最先进RL方法的准确性在GSM8K上提高了3.6%,在MATH500上提高了2.6%,在Countdown上提高了18.4%,在Sudoku上提高了27.0%。 |
| 2025-10-10 | Multimodal Policy Internalization for Conversational Agents | link | 现代对话式智能体,如ChatGPT和Alexa+,依赖于预定义策略来指定元数据、响应风格和工具使用规则。随着这些基于LLM的系统扩展以支持多样化的业务和用户查询,此类策略(通常作为上下文提示实现)正变得日益复杂和冗长,使得忠实遵循变得困难并带来巨大的固定计算成本。随着多模态智能体的兴起,管理视觉和多模态行为的策略至关重要,但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和演示,而现有的策略对齐研究仅关注基于文本的安全规则。我们引入多模态策略内化(MPI)——一项新任务,它将推理密集型多模态策略内化到模型参数中,从而实现更强的策略遵循能力,而无需在推理期间包含策略。MPI带来了独特的数据和算法挑战。我们构建了两个数据集,涵盖合成和真实世界的决策及工具使用任务,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,然后进行监督微调,最后应用PolicyRollout——一种GRPO风格的强化学习扩展,它通过策略感知响应增强轨迹以实现有根据的探索。TriMPI在端到端准确性、泛化能力和抗遗忘性方面取得了显著提升。作为多模态策略内化方面的首项工作,我们提供了数据集、训练方案和全面的评估,以促进未来的研究。项目页面:https://mikewangwzhl.github.io/TriMPI。 |
| 2025-10-10 | HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness | null | 强化学习 (RL) 已成为增强大语言模型 (LLMs) 长链式思考 (CoT) 推理能力的关键驱动因素。然而,当任务难度超出模型能力时,GRPO 等普遍方法常常失效,导致奖励稀疏和训练效率低下。尽管现有工作试图通过使用离策略数据(例如将强化学习与监督微调 (SFT) 混合或使用提示)来缓解此问题,但它们经常误导策略更新。在这项工作中,我们确定了导致这些失败的一个核心问题,我们称之为低训练亲和度。这种情况源于外部指导与模型策略之间巨大的分布不匹配。为了诊断这一点,我们引入了亲和度,这是第一个用于监测探索效率和训练稳定性的量化指标。为了提高亲和度,我们提出了 HINT (Helping Ineffective rollouts Navigate Towards effectiveness),这是一个自适应提示框架。HINT 不提供直接答案,而是提供启发式提示,引导模型自主发现解决方案,从而保留其自主推理能力。在数学推理任务上的大量实验表明,HINT 始终优于现有方法,在各种规模的模型上取得了最先进的结果,同时还展示了显著更稳定的学习和更高的数据效率。代码已在 Github 上提供。 |
| 2025-10-10 | Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood | null | 群体相对策略优化 (GRPO) 显著提升了大型语言模型 (LLMs) 的推理能力,特别是在数学性能方面。然而,GRPO 及相关的熵正则化方法仍面临源于思维链 (CoT) 内在稀疏 token 奖励的挑战。当前方法通常依赖于无差别的 token 级别熵调整,这常导致熵坍塌或模型坍塌。在这项工作中,我们提出了 TEPO,这是一种新颖的 token 级别框架,它通过 token 级别聚合,将马尔可夫似然(序列似然)与群体级别奖励和 token 关联起来。实验表明,TEPO 在关键指标(包括 @k 和准确率)上始终优于现有基线。它不仅在数学推理任务上树立了新的最新技术水平,而且显著提升了训练稳定性。 |
| 2025-10-10 | LLP: LLM-based Product Pricing in E-commerce | null | 与B2C(企业对消费者)电商平台(例如亚马逊)不同,在C2C(消费者对消费者)平台(例如eBay)上,经验不足的个人卖家经常面临高效地为他们的二手产品定价的巨大挑战。因此,许多研究被提出用于自动化价格预测。然而,它们大多数基于静态回归模型,泛化性能差并且未能捕捉市场动态(例如,二手iPhone的价格随时间下降)。受大型语言模型(LLMs)最新突破的启发,我们引入了LLP,首个基于LLM的生成式框架用于二手产品定价。LLP首先检索相似产品以更好地适应动态市场变化。之后,它利用LLM对自由格式文本中关键定价信息的细微理解以生成准确的价格建议。为了增强LLM对检索到的产品的领域推理能力,我们采用两阶段优化:监督微调(SFT)和群体相对策略优化(GRPO),在通过双向推理构建的数据集上。此外,LLP采用基于置信度的过滤机制以拒绝不可靠的价格建议。大量实验表明,LLP显著超越了现有方法,同时对未见类别表现出良好的泛化能力。我们已在闲鱼(中国最大的二手电商平台)成功部署了LLP,显著优于之前的定价方法。在相同的30%产品覆盖率下,它将静态采纳率(SAR)从40%提高到72%,即使在90%的召回率下,仍保持47%的强劲SAR。 |
| 2025-10-10 | Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers | null | 确保大型语言模型(LLMs)符合安全要求是AI部署中的核心挑战。现有的对齐方法主要在训练阶段进行,例如通过微调或基于人类反馈的强化学习,但这些方法成本高昂且不灵活,每当有新要求出现时都需要重新训练。最近针对推理时对齐的努力缓解了其中一些局限性,但仍然假设可以访问模型内部,这既不切实际,也不适用于无法访问模型的第三方利益相关者。在这项工作中,我们提出了一种模型无关的黑盒安全对齐框架,它不需要重新训练或访问底层LLM架构。作为概念验证,我们解决了在生成安全但不提供信息的答案与有帮助但可能存在风险的答案之间进行权衡的问题。我们将这种困境表述为双人零和博弈,其最小最大均衡捕捉了安全性与有用性之间的最佳平衡。LLM智能体通过在推理时利用线性规划求解器来计算均衡策略,从而实现了这个框架。我们的结果证明了黑盒安全对齐的可行性,为包括小型组织和资源受限环境中的实体在内的利益相关者,在快速演进的LLM生态系统中强制执行安全提供了一条可扩展且易于访问的途径。 |
| 2025-10-10 | CLARity: Reasoning Consistency Alone Can Teach Reinforced Experts | link | 在数据稀缺的领域中训练专家级LLM很困难,往往依赖于选择题(MCQ)。然而,在MCQ上使用标准的基于结果的强化学习(RL)存在风险。尽管它可能提高准确性,但我们观察到它经常会降低推理质量,例如逻辑一致性。现有的监督推理的解决方案,例如大规模过程奖励模型(PRM),成本高得令人望而却步。为解决这个问题,我们提出了CLARity,这是一个经济高效的RL框架,它仅使用一个小型通用LLM即可增强推理质量。CLARity整合了一种一致性感知奖励机制与一个两阶段的“精炼-然后-监控”训练流程,以增强推理一致性,并采用一种动态数据重构策略来更好地利用有限数据。实验表明,相较于基线,CLARity将响应一致性提高了16.5%,准确性提高了7.5%。人工评估进一步证实了在连贯性和专业性方面的整体改进。因此,CLARity提供了一种通用解决方案,使得小型模型能够通过推理一致性有效地指导专家模型。我们的代码已在以下链接开源:https://github.com/Infinite-set/CLARity |
| 2025-10-10 | Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models | null | 数据污染对大语言模型(LLM)的可靠评估构成了严峻威胁。这个问题源于基准样本可能无意中出现在训练集中,从而损害了所报告性能的有效性。尽管针对预训练和监督微调阶段已经开发了检测方法,但在日益重要的强化学习(RL)后训练阶段,仍存在一个关键的研究空白。鉴于RL后训练对提升LLM推理能力至关重要,在此范式下缺乏专门的污染检测方法构成了一个严重的脆弱性。为了解决这个问题,我们首次对RL后训练场景中的数据检测进行了系统性研究,并提出了Self-Critique方法。我们的方法基于一个关键观察:在RL阶段之后,LLM的输出熵分布倾向于坍缩为高度特定和稀疏的模式。Self-Critique探究了导致这种熵减少的潜在策略坍缩,即模型收敛到狭窄的推理路径。为了促进这项研究,我们还引入了RL-MIA,这是一个旨在模拟这种特定污染场景的基准。大量实验表明,Self-Critique在多个模型和污染任务上显著优于基线方法,AUC提升高达30%。现有方法对于RL阶段的污染检测接近于随机猜测,而我们的方法使检测成为可能。 |
| 2025-10-10 | Agentic-KGR: Co-evolutionary Knowledge Graph Construction through Multi-Agent Reinforcement Learning | null | 当前知识增强型大型语言模型(LLMs)依赖于静态的、预构建的知识库,这些知识库存在覆盖范围不足和时间上的过时性,限制了它们在动态信息环境中的有效性。我们提出了Agentic-KGR,这是一种新颖的框架,通过多轮强化学习(RL)实现了LLMs和知识图谱(KGs)之间的协同演化。我们的方法引入了三个关键创新:(1) 一种动态模式扩展机制,可在训练过程中系统地扩展图本体超出预定义边界;(2) 一种检索增强型记忆系统,通过持续优化实现了模型参数和知识结构之间的协同演化;(3) 一种可学习的多尺度提示压缩方法,通过自适应序列优化在保留关键信息的同时降低了计算复杂性。实验结果表明,在知识提取任务中,我们的方法相较于监督基线和单轮RL方法有显著改进。当与GraphRAG集成时,我们的方法在下游问答(QA)任务中取得了卓越性能,与现有方法相比,在准确性和知识覆盖率两方面都有显著提升。 |
| 2025-10-10 | AdaPM: a Partial Momentum Algorithm for LLM Training | null | 在大型语言模型训练中,动量被广泛使用,并经常被证明能够显著加速。然而,存储动量通常带来内存挑战。在本文中,我们提出AdaPM,这是一种自适应训练策略,它利用部分动量来实现内存高效的优化器。为此,AdaPM采用非均匀动量设计:对于大多数块,无需完整动量即可保持优化性能。在AdaPM的动量设计中,为了减轻由部分动量引起的偏差和性能损失,我们通过偏差校正技术增强了部分动量。经验上,我们验证了我们的方法将动量内存减少了90%以上,同时在预训练从60M到1.5B的各种语言模型以及监督微调和RLHF中保持了效率和性能。AdaPM通过结合二阶统计量的内存高效技术,可以将优化器状态的内存进一步减少高达95%,为预训练GPT-2 1.5B节省了30%以上的GPU小时。 |
| 2025-10-09 | Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization | null | 扩散语言模型 (DLM) 能够实现并行、与顺序无关的生成,并进行迭代细化,为自回归大型语言模型 (LLLM) 提供了一种灵活的替代方案。然而,由于难以处理的似然性,将强化学习 (RL) 微调应用于 DLM 仍然是一个开放的挑战。像 diffu-GRPO 这样的开创性工作通过一步去掩码估计了 token 级似然。尽管计算效率高,但这种方法存在严重偏差。一个更具原则性的基础在于序列级似然性,其中证据下界 (ELBO) 作为替代。然而,尽管存在这种清晰的数学联系,但由于似然评估的成本过高,基于 ELBO 的方法应用有限。在这项工作中,我们重新审视了 ELBO 估计并分离了其方差来源。这种分解促使我们通过沿着几个关键维度进行快速、确定性积分近似来减少方差。基于这一见解,我们引入了群扩散策略优化 (GDPO),这是一种专为 DLM 量身定制的新型 RL 算法。GDPO 利用简单但有效的半确定性蒙特卡洛方案,以减轻在普通双重蒙特卡洛采样下 ELBO 估计器的方差爆炸问题,在严格的评估预算下产生一个可证明的低方差估计器。在实验中,GDPO 在预训练检查点上取得了持续的增益,并在大多数数学、推理和编码基准上优于 diffu-GRPO(一种最先进的基线)。 |
| 2025-10-09 | Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints | link | 我们提出ERA,一种新范式,通过对模型输出应用特别设计的激活函数,将采样熵约束在给定阈值之上。我们的方法在不同领域展现出广泛的有效性:1) 对于大型语言模型(LLMs),将Qwen2.5-Math-7B的AIME 2025分数提升了37.4%;2) 对于连续控制强化学习智能体,在具有挑战性的HumanoidBench上,相较于SAC等强基线,性能提升超过30%;3) 对于图像分类,将ResNet-50的ImageNet top-1准确率提高了0.69%。这些提升是在计算开销低于7%的情况下实现的。我们的工作验证了输出激活函数作为熵控制的强大工具,为设计更简单、更鲁棒的算法开辟了新方向。 |
| 2025-10-09 | MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization | link | 当前多模态大语言模型(MLLMs)在数学和逻辑等推理任务中已展现出熟练的能力,但它们在长链式反思推理方面的能力却在很大程度上尚未得到充分探索,而这正是解决复杂现实世界问题的先决条件。在这项工作中,我们首先进行了一项广泛的实证研究以评估这种能力。利用精心设计的数据合成引擎,我们构建了MM-HELIX,一个包含1,260个样本的多模态基准,涵盖42个需要迭代思维和回溯的挑战性合成任务。在此基准上的实证结果表明,现有MLLMs在长链式反思推理方面存在显著的性能缺陷。为了解决这一局限性,我们生成了后训练数据,并进一步探索了利用这些数据的学习范式。我们首先开发了“步骤启发式响应生成”(Step-Elicited Response Generation) 流水线,以创建MM-HELIX-100K,一个包含10万条高质量反思推理轨迹的大规模数据集,用于指令微调阶段。鉴于标准强化学习在复杂任务上表现不佳,原因在于稀疏的奖励信号和监督微调后的灾难性遗忘,我们提出了自适应混合策略优化(Adaptive Hybrid Policy Optimization, AHPO),一种新颖的训练策略,它将离线监督和在线优化动态地统一到一个阶段中。这种策略使模型能够在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。将我们的方法应用于Qwen2.5-VL-7B基线模型时,在MM-HELIX基准上取得了18.6%的准确率提升,并在一般数学和逻辑任务上展现出强大的泛化能力,平均性能提升了5.7%。我们的工作表明MLLMs中的反思推理可以被有效地学习和泛化,为开发更强大的MLLMs铺平了道路。 |
| 2025-10-09 | On the optimization dynamics of RLVR: Gradient gap and step size thresholds | null | 可验证奖励强化学习(RLVR)使用简单的二元反馈对大型语言模型进行后训练,并已显示出显著的经验成功。然而,对其工作原理的原理性理解一直缺乏。本文通过在完整响应(轨迹)和词元层面分析RLVR的训练过程,为其建立了理论基础。我们分析的核心是一个称为“梯度差距”(Gradient Gap)的量,它形式化了从响应空间的低奖励区域到高奖励区域的改进方向。我们证明收敛性关键取决于将更新方向与此梯度差距对齐。此外,我们推导出了一个基于梯度差距大小的精确步长阈值:低于此阈值,学习收敛,而高于此阈值,性能崩溃。我们的理论进一步预测了临界步长必须如何随响应长度和成功率缩放,从而解释了为什么长度归一化等实际启发式方法能提高稳定性,并表明在固定学习率下,成功率可能严格停滞在100%以下。我们通过受控赌博机模拟和大型语言模型实验验证了这些预测,包括使用GRPO训练Qwen2.5-7B。 |
| 2025-10-09 | SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models | link | 空间推理仍然是视觉-语言模型(VLM)面临的一个基本挑战,尽管近期有所进展,但当前方法仍难以实现稳健的性能。我们发现这一局限性源于一个关键的空白:现有方法试图直接学习空间推理,而没有建立感知和理解的层级基础。为了解决这一挑战,我们提出了一种逐步构建空间智能的全面方法。我们引入了SpatialLadder-26k,这是一个多模态数据集,包含26,610个样本,涵盖对象定位、单图像、多视角和视频空间推理任务,通过标准化流程构建,确保了跨模态的系统性覆盖。基于该数据集,我们设计了一个三阶段渐进式训练框架,该框架(1)通过对象定位建立空间感知,(2)通过多维空间任务发展空间理解,以及(3)通过带有可验证奖励的强化学习强化复杂推理。这种方法产生了SpatialLadder,一个30亿参数模型,在空间推理基准测试中实现了最先进的性能,相较于基础模型平均提高了23.4%,分别超越GPT-4o 20.8%和Gemini-2.0-Flash 10.1%。值得注意的是,SpatialLadder保持了强大的泛化能力,在域外基准测试中提高了7.2%,证明了从感知到推理的渐进式训练对于稳健的空间智能至关重要。 |
| 2025-10-09 | CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards | link | 自我进化是使基于大型语言模型(LLM)的智能体在预训练之后持续提升其能力的核心研究课题。近期研究见证了从不依赖强化学习(RL)的方法到基于强化学习的方法的转变。当前基于强化学习的方法要么依赖于密集的外部奖励信号,要么从LLM自身提取内在奖励信号。然而,这些方法偏离了人类智能中观察到的自我进化机制,在人类智能中,个体通过相互讨论和协作进行学习和提升。在这项工作中,我们引入了协同进化多智能体系统(CoMAS),这是一种新颖的框架,它使智能体能够通过从智能体间交互中学习而自主提升,无需外部监督。CoMAS从丰富的讨论动态中生成内在奖励,采用“LLM即法官”机制来制定这些奖励,并通过RL优化每个智能体的策略,从而实现去中心化和可扩展的协同进化。实验结果表明,CoMAS持续优于未训练的智能体,并在大多数评估设置中达到了最先进的性能。消融研究证实了基于交互的奖励信号的必要性,并揭示了随着智能体数量和多样性的增加而带来的有前景的可扩展性。这些发现将CoMAS确立为LLM智能体自我进化的一种新颖而有效的范式。 |
| 2025-10-09 | Which Heads Matter for Reasoning? RL-Guided KV Cache Compression | null | 推理大语言模型通过扩展的思维链生成展现出复杂的推理行为,这在解码阶段造成了前所未有的键值(KV)缓存开销。现有KV缓存压缩方法在推理模型上表现不佳:词元丢弃方法通过丢弃关键信息破坏了推理完整性,而注意力头重分配方法则错误地压缩了对推理至关重要的注意力头,因为它们是为检索任务设计的,导致随着压缩率的增加性能显著下降。我们假设KV头在推理模型中表现出功能异质性——一些头对思维链的一致性至关重要,而其他头则可被压缩。为了验证和利用这一见解,我们提出了RLKV,一个新颖的推理关键头识别框架,它使用强化学习直接优化每个头的缓存使用量与推理质量之间的关系。由于RLKV在训练过程中从实际生成的样本中产生奖励,它自然地识别出与推理行为相关的头。然后我们将完整的KV缓存分配给这些头,同时对其他头应用压缩的恒定KV缓存,以实现高效推理。我们的实验表明,只有一小部分注意力头对推理至关重要,这使得我们的KV压缩方法优于基线方法,同时实现了20-50%的缓存缩减,与未压缩结果相比性能接近无损。 |
| 2025-10-09 | Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools | null | 多模态大语言模型(MLLMs)在连接视觉和文本推理方面展现出显著潜力,然而,它们对以文本为中心的先验知识的依赖常常限制了其在开放词汇场景中解耦语义相似动作的能力。为解决此问题,我们提出了Video-STAR,一个将上下文子动作分解与工具增强强化学习相结合以实现开放词汇动作识别(OVAR)的框架。与将动作视为单一实体的现有方法不同,我们的方法创新性地将动作分解为判别性子动作以进行细粒度匹配,同时动态调用领域特定工具进行跨模态交织,从而实现了类别特定的推理能力并减少了跨模态幻觉。此外,通过设计一个平衡工具使用效率、子动作相关性以及推理中结构连贯性的分层奖励,我们的方法无需明确监督即可自主利用外部工具来优先考虑子动作模式,从而实现了从以文本为中心的推理到视觉接地推理的转变。在HMDB-51、UCF-101、SSv2、Kinetics-400和Kinetics-600数据集上的广泛评估证明了我们最先进的性能,在区分细粒度动作和处理跨模态幻觉方面优于现有方法,验证了我们出色的鲁棒性和泛化能力。 |
| 2025-10-09 | xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning | link | 现代LLM部署面临日益扩大的成本-性能范围:高级模型提供强大的推理能力但昂贵,而轻量级模型经济但在复杂任务上表现脆弱。静态升级规则和关键词启发式方法未能充分利用这一范围,也无法适应不同任务类型。我们提出了xRouter,一个基于工具调用的路由系统,其中一个学习型路由器可以直接回答或调用一个或多个外部模型。该路由器通过强化学习进行端到端训练,使用编码了成本-性能权衡的明确的、成本感知的奖励,从而消除了对人工设计路由规则的需求。我们的实现涵盖了完整的强化学习框架,包括奖励和成本核算,以及部署和评估流程。在各种基准测试中,xRouter实现了强大的成本-性能权衡(例如,在相近的任务完成率下大幅降低成本),并提供了关于什么能可靠地帮助学习型路由以及什么不能的实证见解,范围从模型可训练性到在小型开源模型中引发复杂编排行为的难度。我们希望这些发现和我们的开源实现能成为一个实用的基础,以推进学习型、成本感知LLM编排。 |
| 2025-10-09 | Reinforcing Diffusion Models by Direct Group Preference Optimization | link | 强化学习方法(如群组相对偏好优化,GRPO)已显著提升大型语言模型,但将其应用于扩散模型仍具挑战。特别是,GRPO需要随机策略,然而最具成本效益的扩散采样器基于确定性常微分方程(ODE)。近期工作通过使用低效的基于随机微分方程(SDE)的采样器引入随机性来解决此问题,但这种对模型无关的高斯噪声的依赖导致收敛缓慢。为解决这一冲突,我们提出了直接群组偏好优化(DGPO),这是一种新型在线强化学习算法,它完全摒弃了策略梯度框架。DGPO直接从群组级偏好中学习,这些偏好利用组内样本的相对信息。这种设计消除了对低效随机策略的需求,从而可以利用高效的确定性ODE采样器并实现更快的训练。大量实验结果表明,DGPO的训练速度比现有最先进方法快约20倍,并且在域内和域外奖励指标上均取得了卓越性能。代码可在https://github.com/Luo-Yihong/DGPO获取。 |
| 2025-10-07 | Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents | null | 大语言模型(LLM)智能体在解决复杂的多步骤问题时越来越依赖搜索引擎等外部工具,而强化学习(RL)已成为训练这些智能体的关键范式。然而,搜索智能体的轨迹是结构异质的,搜索调用的次数、位置和结果的变化导致了根本不同的答案方向和奖励分布。使用单一全局基线的标准策略梯度方法存在我们发现并形式化为跨层偏置的问题——即对异质轨迹进行“橘子与苹果”式的比较。这种跨层偏置扭曲了信用分配,阻碍了对复杂多步骤搜索策略的探索。为了解决这个问题,我们提出了分层GRPO,其核心组件分层优势归一化(SAN)根据轨迹的结构特性将其划分为同质层,并在每个层内局部计算优势。这确保了轨迹只与其真正的同类进行评估。我们的分析证明,SAN消除了跨层偏置,在每个层内产生了条件无偏的单位方差估计,并保留了标准归一化所具有的全局无偏性和单位方差特性,从而产生了更纯净、尺度稳定的学习信号。为了提高有限样本情况下的实际稳定性,我们进一步将SAN与全局估计器进行线性融合。对多样化的单跳和多跳问答基准进行的广泛实验表明,分层GRPO持续且显著优于GRPO,性能提升高达11.3个百分点,实现了更高的训练奖励、更大的训练稳定性和更有效的搜索策略。这些结果确立了分层作为大语言模型搜索智能体强化学习中结构异质性的一种原则性补救措施。 |
| 2025-10-07 | Peeking inside the Black-Box: Reinforcement Learning for Explainable and Accurate Relation Extraction | null | 本文提出了一个用于关系抽取(RE)的框架,旨在提高准确性和可解释性。该框架包含两个关键组件:(i) 一个推理机制,将关系抽取表述为一系列受认知科学启发的文本处理步骤;(ii) 一个由强化学习(RL)驱动的优化过程,采用新颖的奖励函数,旨在同时提高任务准确性和解释质量。我们将我们的方法称为CogRE。我们的框架通过促进包含重要关系关键词的输出来解决传统RE中缺乏基于语言解释监督的问题。这些关键词来源于一个使用大型语言模型(LLM)自动构建的高质量词典。我们使用两个LLM和两个RE数据集对我们的方法在单次关系抽取(one-shot RE)任务上进行了评估。我们的实验表明,CogRE通过解决单次RE中的两个常见失败模式(即注意力集中不足和单次学习能力有限)提高了解释质量。例如,我们使用Qwen2.5-15B-Instruct在One-shot NYT29上进行的认知结构化推理达到了24.65%的F1分数,超越了先前的基于推理的设计。使用我们的奖励函数通过RL优化此方法使性能进一步提高了+23.46%(绝对值)。最后,人工评估表明,我们的最佳模型生成的关系关键词与黄金标签高度一致,将人工解释质量评分提高了54%(相对值)。 |
| 2025-10-07 | The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives | null | 大型语言模型(LLM)隐式优化的目标仍然危险地不透明,这使得可信对齐和审计成为一个巨大挑战。虽然逆向强化学习(IRL)可以从行为中推断奖励函数,但现有方法要么产生单一、过度自信的奖励估计,要么未能解决任务的根本模糊性(不可辨识性)。本文引入了一种原则性的审计框架,将奖励推断从一个简单的估计任务重新定义为一个全面的验证过程。我们的框架利用贝叶斯逆向强化学习,不仅能够恢复目标分布,还能实现三项关键审计能力:(i) 通过展示连续多轮证据的后验收缩,量化并系统性地减少不可辨识性;(ii) 提供可操作的、不确定性感知的诊断,揭示虚假捷径并识别推断目标不可信的分布外提示;以及 (iii) 通过表明精炼的、低不确定性奖励可以直接用于RLHF,以实现与真实对齐过程相当的训练动态和毒性降低,从而验证策略层面的效用。经验上,我们的框架成功审计了一个解毒LLM,产生了一个良好校准且可解释的目标,强化了对齐保证。总而言之,这项工作为审计人员、安全团队和监管机构提供了一个实用工具包,以验证LLM真正试图实现什么,推动我们走向更值得信赖和负责任的人工智能。 |
| 2025-10-07 | Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL | null | 人类反馈强化学习 (RLHF) 使大型语言模型 (LLM) 与人类偏好对齐,然而它们内化的潜在奖励信号仍然是隐藏的,这对可解释性和安全性构成了严峻挑战。现有方法尝试使用逆强化学习 (IRL) 提取这些潜在激励,但它们平等对待所有偏好对,常常忽略信息最丰富的信号:即提取的奖励模型误分类或赋分几乎相等的示例,我们称之为“失败”。我们引入了一种新颖的“失败感知”IRL算法,该算法侧重于误分类或困难的示例,以恢复定义模型行为的潜在奖励。通过从这些失败中学习,我们的失败感知IRL提取的奖励函数能更好地反映RLHF背后的真实目标。我们证明,在应用于LLM去毒时,失败感知IRL在多个指标上优于现有IRL基线,且无需外部分类器或监督。至关重要的是,失败感知IRL产生的奖励能更好地捕捉RLHF期间学习到的真实激励,从而实现比标准IRL更有效的再RLHF训练。这将失败感知IRL确立为一种鲁棒、可扩展的方法,用于审计模型对齐并减少IRL过程中的歧义。 |
| 2025-10-07 | ASPO: Asymmetric Importance Sampling Policy Optimization | null | 近期的大语言模型(LLM)后训练方法在强化学习(RL)过程中依赖于词元级裁剪机制。然而,我们发现这种结果监督强化学习(OSRL)范式存在一个根本性缺陷:正优势词元的重要性采样(IS)比率不匹配,导致正负词元的加权不平衡。这种不匹配抑制了低概率词元的更新,同时过度放大了已是高概率的词元。为解决此问题,我们提出了非对称重要性采样策略优化(ASPO),它采用一种简单而有效的策略,翻转正优势词元的IS比率,使其更新方向与负词元的学习动态对齐。AIS进一步引入了一种软双重裁剪机制,以稳定极端更新并保持梯度流。在编码和数学推理基准上的全面实验表明,ASPO显著缓解了过早收敛,提高了训练稳定性,并相较于强大的基于GRPO的基线增强了最终性能。我们的分析为OSRL中词元级加权的作用提供了新见解,并强调了在LLM强化学习中纠正IS的关键重要性。ASPO的代码和模型可在https://github.com/wizard-III/Archer2.0获取。 |
| 2025-10-07 | VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization | link | 借助多模态大语言模型(MM-LLM)理解长达一小时的视频,丰富了以人为中心的AI应用领域。然而,对于使用大语言模型进行端到端视频理解而言,随着视频长度的增加,均匀采样视频帧会导致大语言模型被大量无关信息淹没。现有的分层关键帧提取方法提高了视频理解的准确性,但仍面临两个关键挑战。1) 如何减轻长视频中大量冗余信息的干扰?2) 模型如何动态适应复杂的层级结构,同时准确识别关键帧?为解决这些问题,我们提出了VideoMiner,它迭代地对长视频进行分割、标注和聚类,形成一个分层树结构。所提出的VideoMiner从长视频到事件再到帧逐步推进,同时保持时间连贯性,有效地解决了第一个挑战。为了精确地定位关键帧,我们引入了T-GRPO,这是一种基于树的群组相对策略优化强化学习方法,用于指导VideoMiner的探索。所提出的T-GRPO专为树结构设计,在事件层面整合时空信息,同时受问题引导,从而解决了第二个挑战。我们在所有长视频理解任务中都取得了卓越的性能,并发现了几个有趣的见解。我们提出的T-GRPO令人惊讶地促使模型自发生成推理链。此外,设计的树生长素动态调整扩展深度,从而提高了准确性和效率。代码已公开,网址为https://github.com/caoxinye/VideoMiner。 |
| 2025-10-07 | EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models | null | 强化学习(RL)已成为大语言模型(LLM)后训练的关键组成部分,而智能体式强化学习(agentic RL)则通过多轮交互和工具使用将此范式扩展为智能体操作。扩展此类系统会暴露两个实际瓶颈:(1)训练期间上下文长度快速增长,导致内存使用和延迟增加,并触发内存不足(OOM)故障;(2)中间张量随上下文长度累积,使跨设备数据移动成为主要的系统瓶颈。我们提出了EARL,一个用于高效智能体式强化学习的可扩展系统。EARL设计了一个并行度选择器,可根据序列长度和系统负载动态调整跨RL阶段的模型并行度和训练并行度,以及一个数据调度器,可执行布局感知、去中心化的中间数据批次交换。这些组件共同作用,提高了吞吐量,减少了长上下文故障,并实现了智能体式LLM的稳定大规模训练,而不依赖于上下文长度的硬性限制或惩罚。 |
| 2025-10-07 | Prompt reinforcing for long-term planning of large language models | null | 大型语言模型(LLMs)在广泛的自然语言处理任务中取得了显著成功,并可通过提示进行适配。然而,在多轮交互中,它们仍表现不佳,常常依赖不正确的早期假设,且未能随时间推移跟踪用户目标,这使得此类任务特别具有挑战性。对话系统中的先前工作表明,长期规划对于处理交互式任务至关重要。在这项工作中,我们提出了一个受强化学习启发的提示优化框架,该框架通过仅修改基于LLM的智能体的任务指令提示来实现上述规划。通过生成逐轮反馈并利用经验回放进行提示重写,我们提出的方法在文本到SQL和面向任务的对话等多轮任务中显示出显著改进。此外,它可以在不同的基于LLM的智能体之间泛化,并能利用各种LLM作为元提示智能体。这为未来在受强化学习启发的无参数优化方法方面的研究提供了依据。 |
| 2025-10-07 | EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget | null | 在LLMs的可验证奖励强化学习(RLVR)中,平衡探索与利用仍然是一个核心挑战。当前的RLVR方法往往过度强调利用,导致熵坍缩、探索能力下降,并最终限制了性能提升。尽管增加策略随机性的技术可以促进探索,但它们却常常无法摆脱主导行为模式。这形成了一个自我强化的循环——即反复采样并奖励主导模式——从而进一步侵蚀了探索能力。我们引入了探索增强策略优化(EEPO),这是一个通过结合自适应遗忘的两阶段采样来促进探索的框架。在第一阶段,模型生成一半的轨迹;然后它经历一个轻量级的遗忘步骤,以暂时抑制这些已采样的响应,从而迫使第二阶段探索输出空间的不同区域。这种先采样后遗忘的机制打破了自我强化的循环,并在采样过程中促进了更广泛的探索。在五个推理基准测试中,EEPO优于GRPO,在Qwen2.5-3B上实现了24.3%的平均相对增益,在Llama3.2-3B-Instruct上实现了33.0%,在Qwen3-8B-Base上实现了10.4%。 |
| 2025-10-07 | EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS | null | 近期基于大型语言模型(LLM)的文本到语音(TTS)系统实现了强大的语音质量和零样本能力,但由于其依赖离散语音tokens,缺乏细粒度的情感控制。现有方法要么将情感限制为分类标签,要么无法泛化到基于LLM的架构。我们提出了EMORL-TTS(基于强化学习的细粒度情感可控TTS),这是一个统一了VAD空间中的全局强度控制与局部强调调节的框架。我们的方法结合了有监督微调与由针对情感类别、强度和强调的任务特定奖励指导的强化学习。此外,我们进一步研究了强调位置如何调节细粒度情感强度。实验表明,EMORL-TTS提高了情感准确性、强度区分度和强调清晰度,同时保持了与强大的基于LLM的基线相当的合成质量。 |
| 2025-10-03 | Reward Models are Metrics in a Trench Coat | null | 强化学习在大语言模型后训练中的兴起,引发了对奖励模型的广泛兴趣。奖励模型评估采样模型输出的质量,以生成训练信号。评估指标也执行此任务,它们监控AI模型的性能。我们发现这两个研究领域大部分是分离的,导致术语冗余和重复的陷阱。常见的挑战包括易受虚假相关性影响、对下游奖励劫持的冲击、提高数据质量的方法以及元评估方法。我们的立场论文认为,这两个领域之间更紧密的协作有助于克服这些问题。为此,我们展示了指标在特定任务上如何优于奖励模型,并对这两个领域进行了广泛综述。基于这项综述,我们指出了多个研究主题,在这些主题中,更紧密的协同可以改进奖励模型和指标,例如偏好启发方法、避免虚假相关性和奖励劫持,以及校准感知的元评估。 |
| 2025-10-03 | Self-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignment | null | 大型语言模型(LLMs)在解决复杂推理任务时,基于提示的方法提供了一种轻量级的替代方案,以取代微调和强化学习。然而,随着推理链条的延长,关键的中间步骤和原始提示会被上下文淹没,导致关注度不足并引发错误。在本文中,我们提出了一种名为Self-Anchor的新颖流程,它利用推理的内在结构来引导LLM的注意力。Self-Anchor将推理轨迹分解为结构化规划,并自动将模型的注意力对齐到最相关的推理步骤,从而使模型在整个生成过程中保持专注。我们的实验表明,Self-Anchor在六个基准测试中均优于最先进的提示方法。值得注意的是,Self-Anchor显著缩小了“非推理”模型与专门推理模型之间的性能差距,有望使大多数LLMs无需重新训练即可处理复杂的推理任务。 |
| 2025-10-03 | Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward | null | 可验证奖励强化学习(RLVR)推动了大型语言模型在复杂推理方面的发展,然而,其可扩展性常受训练瓶颈的阻碍,即随着策略熵的坍缩,性能趋于平稳,这预示着探索能力的丧失。先前方法通常通过维持高策略熵来解决此问题,然而,控制有意义探索的精确机制仍未得到充分探索。我们的分析表明,不加选择地关注熵可能会放大不相关的标记并使训练不稳定。本文研究了RLVR中的探索动态,并识别出一个关键问题:有价值的低概率探索性标记(我们称之为“推理火花”)的逐步消除。我们发现,尽管这些火花在预训练模型中大量存在,但在RLVR过程中,由于过度惩罚,它们被系统性地消除,导致探索能力的退化。为解决此问题,我们引入了低概率正则化(Lp-Reg)。其核心机制是将策略正则化至一个启发式代理分布。该代理通过过滤掉推定的噪声标记并对剩余候选的分布进行重新归一化来构建。结果是一个噪声更小的代理,其中“推理火花”的概率被放大,然后作为软正则化目标,通过KL散度保护这些有价值的标记不被消除。实验表明,Lp-Reg能够实现约1000步的稳定在轨策略训练,在此范围内,基线熵控制方法会崩溃。这种持续的探索带来了最先进的性能,在五个数学基准测试中取得了60.17%的平均准确率,比先前方法提高了2.66%。代码可在https://github.com/CarlanLark/Lp-Reg获取。 |
| 2025-10-03 | MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning | null | 视觉导航策略因其模仿人类使用以自我为中心的视觉观测进行导航而被广泛认为是一个有前景的方向。然而,视觉观测的光学信息难以像激光雷达点云或深度图那样被明确建模,这随后需要智能模型和大规模数据。为此,我们提出利用视觉-语言-动作(VLA)模型的智能,以教师-学生的方式从合成的专家数据中学习多样化的导航能力。具体来说,我们将VLA模型MM-Nav实现为一个多视角VLA(具有360度观测),该模型基于预训练的大型语言模型和视觉基础模型。对于大规模导航数据,我们从三个强化学习(RL)专家那里收集专家数据,这些专家在三个具有挑战性的定制环境中,使用特权深度信息进行训练,以学习不同的导航能力:到达、挤压和避障。我们迭代地训练我们的VLA模型,使用从RL专家在线收集的数据,其中训练比例根据在各个能力上的表现进行动态平衡。通过在合成环境中进行广泛实验,我们证明我们的模型实现了强大的泛化能力。此外,我们发现我们的学生VLA模型优于RL教师,证明了整合多种能力的协同效应。广泛的真实世界实验进一步证实了我们方法的有效性。 |
| 2025-10-03 | Self-Reflective Generation at Test Time | null | 大语言模型(LLM)越来越多地通过长链式思维解决复杂推理任务,但其前向自回归生成过程是脆弱的;早期词元错误会级联,这明确表明需要自我反思机制。然而,现有的自我反思要么是对完整草稿进行修订,要么是通过昂贵的训练学习自我修正,两者本质上都是被动且低效的。为了解决这个问题,我们提出了测试时自反思生成(SRGen),这是一个轻量级的测试时框架,它在不确定点生成之前进行反思。在词元生成过程中,SRGen利用动态熵阈值来识别高不确定性词元。对于每个识别出的词元,它训练一个特定的修正向量,该向量充分利用已生成的上下文进行自我反思生成,以修正词元概率分布。通过回溯性分析部分输出,这种自我反思能够实现更可靠的决策,从而显著降低高度不确定点出现错误的概率。在具有挑战性的数学推理基准和多样化的大语言模型上进行评估,SRGen能够持续增强模型推理能力:单次通过质量的提升也转化为更强的自洽性投票。特别是在AIME2024数据集上,使用DeepSeek-R1-Distill-Qwen-7B模型时,SRGen在Pass@1上产生了+12.0%的绝对提升,在Cons@5上产生了+13.3%的绝对提升。此外,我们的研究结果表明SRGen是一种即插即用的方法,它将反思整合到生成过程中,以实现可靠的LLM推理,在有限开销下获得持续增益,并与其他的训练时(例如RLHF)和测试时(例如SLOT)技术具有广泛的可组合性。 |
| 2025-10-03 | RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning | null | 强化学习(RL)对提升大语言模型(LLMs)的推理能力至关重要,但通常需要真实奖励。测试时强化学习(TTRL)通过使用多数投票奖励消除了这一需求,但它依赖于大量的在线强化学习并产生高昂的计算成本。我们提出了RoiRL:一种利用离线迭代强化学习进行推理的方法,这是一系列轻量级离线学习替代方案,能够实现相同的正则化最优策略。与TTRL不同,RoiRL消除了维护参考模型的需要,转而优化加权对数似然目标,从而在显著降低内存和计算需求的情况下实现稳定训练。实验结果表明,RoiRL训练速度快2.5倍,并在推理基准上持续优于TTRL,为实现无需标签的自改进大语言模型开辟了一条可扩展的路径。 |
| 2025-10-03 | Reward Model Routing in Alignment | null | 人类或AI反馈强化学习(RLHF / RLAIF)已成为对齐大语言模型(LLMs)的标准范式。然而,大多数流程依赖于单一奖励模型(RM),这限制了对齐质量并存在过拟合风险。近期工作探索了奖励模型路由——从候选池中动态选择一个奖励模型以利用互补优势,同时维持 $O(1)$ 次奖励模型调用——但现有方法存在冷启动和探索不足的问题。我们提出了BayesianRouter,一个混合路由框架,它结合了离线奖励模型优势学习和在线贝叶斯选择。在离线阶段,一个多任务路由器基于偏好数据进行训练,以估计每个奖励模型的可靠性。在在线阶段,一个贝叶斯汤普森采样路由器执行每查询奖励模型选择,使用离线嵌入作为高斯先验来初始化奖励模型特定的权重向量,并利用在线奖励自适应地更新它们的后验,以适应不断演变的策略分布。在指令遵循(AlpacaEval-2、Arena-Hard、MT-Bench)和推理(GSM8K、MMLU)基准测试上进行的大量实验表明,BayesianRouter始终优于单个奖励模型、奖励模型集成和现有路由方法。 |
| 2025-10-03 | The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback | null | 强化学习 (RL) 在增强大型语言模型 (LLM) 的推理能力方面已展现出潜力,但此类训练通常需要大量的数据创建和标注工作。在这项工作中,我们探索通过最少数据利用强化学习来改进LLM。我们的方法是让LLM交替进行任务提出和尝试解决任务。为了最小化对数据的依赖,我们引入了两种基于自我意识的新机制:(1) 自我意识难度预测,模型学习评估任务相对于自身能力的难度,并优先处理具有挑战性但可解决的任务,以及 (2) 自我意识突破极限,模型识别出任务超出自身能力边界时,主动请求外部数据以突破该极限。在九个基准测试上进行的广泛实验表明,在额外数据少于1.2%的情况下,相对改进达到53.8%,这证明了自我意识强化学习的有效性,并强调了自我进化智能体训练的广阔前景。 |
| 2025-10-03 | Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval | null | DeepSeek-R1的成功展示了使用强化学习(RL)来增强大型语言模型(LLMs)推理能力的巨大潜力。本文介绍了Retrv-R1,这是第一个R1风格的多模态大型语言模型(MLLM),专为多模态通用检索设计,通过采用逐步推理来产生更准确的检索结果,从而实现更高的性能。我们发现将DeepSeek-R1的方法直接应用于检索任务并不可行,这主要是由于(1) 带有推理过程的多个候选需要大量token消耗导致的高计算成本,以及(2) 直接应用强化学习训练检索任务时存在的不稳定性和次优结果。为了解决这些问题,Retrv-R1引入了一个带有细节检查机制的信息压缩模块,该模块通过减少token数量来提高计算效率,同时确保保留了挑战性候选的关键信息。此外,本文提出了一种新的训练范式,包括一个使用为检索量身定制的合成CoT数据集进行激活的阶段,以实现更有效的优化,随后是采用新颖课程奖励的强化学习,以提高性能和效率。结合这些新颖设计,Retrv-R1在多项基准和任务的实验中展示了最先进(SOTA)的性能、高效率和强大的泛化能力。 |
| 2025-10-02 | On the Role of Temperature Sampling in Test-Time Scaling | null | 大语言模型(LLM)可以通过测试时缩放(TTS)在推理时提高推理能力,其中生成多个推理轨迹并选择最佳的一个。先前工作表明,增加样本数量 K 可以持续提高准确性。在本文中,我们证明了这种趋势并非无限期成立:在 K 值较大时,进一步的缩放不会带来收益,并且无论轨迹数量多少,某些难题仍未解决。有趣的是,我们发现不同的采样温度解决了不同子集的问题,这暗示着单一温度缩放仅探索了模型潜力的一部分。因此,我们提出沿温度维度进行缩放,这扩大了 LLM 的推理边界。在通义千问3(0.6B、1.7B、4B、8B)和五个代表性推理基准(AIME 2024/2025、MATH500、LiveCodeBench、Hi-ToM)上的平均结果显示,温度缩放比单一温度的 TTS 额外提高了 7.3 分。温度缩放还使基础模型能够达到与经过强化学习(RL)训练的对应模型相当的性能,而无需额外的后训练。我们进一步对这种现象进行了全面分析,并设计了一种多温度投票方法,以降低温度缩放的开销。总的来说,我们的发现表明 TTS 比之前认为的更强大,并且温度缩放提供了一种简单有效的方法来释放基础模型的潜在潜力。 |
| 2025-10-02 | Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks | null | 尽管人工智能安全领域近期取得了快速进展,但当前大型语言模型在多轮交互设置中仍然容易受到对抗性攻击,在这些设置中,攻击者在会话轮次中策略性地调整其提示,构成了一个更关键也更现实的挑战。现有发现安全漏洞的方法要么依赖人类专家进行手动红队测试,要么采用使用预定义模板和人工策划攻击数据的自动化方法,其中大多数侧重于单轮攻击。然而,这些方法并未探索多轮攻击的广阔可能性空间,未能考虑由复杂对话动态和策略性会话规划所产生的新型攻击路径。这一差距尤为关键,鉴于近期研究发现大型语言模型(LLMs)对多轮攻击的脆弱性显著高于单轮攻击。我们提出了DialTree-RPO,这是一个结合了树搜索的在策略强化学习框架,它通过将对话视为一个序列决策问题,自主发现多样化的多轮攻击策略,从而无需人工策划数据即可实现系统探索。通过广泛实验,我们的方法与以往最先进的方法相比,在10个目标模型上实现了超过25.9%的攻击成功率(ASR)提升,而且通过学习最优对话策略,有效地揭示了新的攻击策略,这些策略能在多轮交互中最大化攻击成功率。 |
| 2025-10-02 | VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL | null | 随着AI生成视频的快速发展,迫切需要有效的检测工具来减轻虚假信息和声誉损害等社会风险。除了准确分类之外,检测模型提供可解释的解释以确保监管机构和最终用户的透明度也至关重要。为应对这些挑战,我们提出了VidGuard-R1,这是首个通过群体相对策略优化(GRPO)微调多模态大语言模型(MLLM)的视频真实性检测器。我们的模型能够提供高度准确的判断和富有洞察力的推理。我们构建了一个包含14万个由最先进生成模型产生的真实和AI生成视频的挑战性数据集,并精心设计了生成过程以最大化判别难度。随后,我们使用GRPO和两个分别针对时序伪影和生成复杂性的专门奖励模型对Qwen-VL进行了微调。大量实验表明,VidGuard-R1在现有基准上实现了最先进的零样本性能,并通过额外训练将准确率提升至95%以上。案例研究进一步表明,VidGuard-R1能够为其预测提供精确且可解释的依据。代码已公开,网址为https://VidGuard-R1.github.io。 |
| 2025-10-02 | ExGRPO: Learning to Reason from Experience | null | 可验证奖励强化学习(RLVR)是一种新兴范式,用于提升大型语言模型的推理能力。然而,标准的在策略训练在单次更新后会丢弃采样经验,导致计算效率低下和不稳定性。尽管之前的强化学习工作强调了重用过去经验的好处,但经验特征在塑造大型推理模型学习动态中的作用仍未得到充分探索。在本文中,我们首次研究了是什么使得推理经验有价值,并将采样正确性和熵确定为经验价值的有效指标。基于这些洞察,我们提出了ExGRPO(经验分组相对策略优化),这是一个组织和优先处理有价值经验的框架,并采用混合策略目标以平衡探索和经验利用。在五种主干模型(1.5B-8B参数)上的实验表明,ExGRPO持续提升了在数学/通用基准上的推理性能,相较于在策略RLVR,平均提升了+3.5/7.6个点。此外,ExGRPO稳定了训练,在更强和更弱的模型上表现良好,而这些模型上在策略方法会失败。这些结果强调了有原则的经验管理是实现高效和可扩展RLVR的关键要素。 |
| 2025-10-02 | RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning | link | 细粒度视觉推理仍然是多模态大语言模型(MLLM)的核心挑战。最近提出的ReasonMap通过展示即使是先进的MLLM在交通地图等结构化和信息丰富的场景中也难以进行空间推理,凸显了这一差距,而这是一项具有明确实践和科学重要性的任务。然而,在这类任务上,标准强化学习(RL)受到稀疏奖励和不稳定优化的阻碍。为了解决这个问题,我们首先构建了ReasonMap-Plus,这是一个扩展数据集,通过视觉问答(VQA)任务引入密集奖励信号,从而实现了细粒度视觉理解技能的有效冷启动训练。接下来,我们提出了RewardMap,一个多阶段RL框架,旨在提高MLLM的视觉理解和推理能力。RewardMap融合了两个关键设计。首先,我们引入了一种难度感知奖励设计,该设计融入了细节奖励,直接解决了稀疏奖励问题,同时提供了更丰富的监督。其次,我们提出了一种多阶段RL方案,该方案从简单的感知任务引导训练到复杂的推理任务,与传统监督微调(SFT)相比,提供了一种更有效的冷启动策略。在ReasonMap和ReasonMap-Plus上的实验表明,RewardMap的每个组件都带来了持续的性能提升,而它们的结合产生了最佳结果。此外,使用RewardMap训练的模型在涵盖空间推理、细粒度视觉推理和交通地图之外的通用任务的6个基准上实现了平均3.47%的性能提升,强调了其增强的视觉理解和推理能力。 |
| 2025-10-02 | The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models | null | 可验证奖励强化学习(RLVR)已成为提升大型语言模型推理能力的关键方法,然而,近期证据表明它可能矛盾地缩小而非扩大推理边界。本文通过分析RLVR的学习动态来研究其缩小问题,并揭示了两个解释这一失败的关键现象。首先,我们揭示了RLVR中的负面干扰,即学习解决某些训练问题会主动降低解决其他问题的正确解的可能性,导致Pass@ $k$性能下降,Pass@$k$指的是在$k$次尝试中生成正确解的概率。其次,我们揭示了赢者通吃现象:RLVR不成比例地强化了基础模型下具有高可能性正确解的问题,同时抑制了其他初始可能性较低的问题。通过对多个数学推理基准进行广泛的理论和实证分析,我们表明这种效应源于标准强化学习目标中固有的在策略采样,导致模型收敛到狭窄的解决方案策略。基于这些见解,我们提出了一种简单而有效的数据管理算法,该算法将RLVR学习集中在低可能性问题上,显著提高了Pass@$k$ 性能。我们的代码可在https://github.com/mail-research/SELF-llm-interference获取。 |
| 2025-10-02 | More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration | link | 可验证奖励强化学习 (RLVR) 是一种有前景的范式,用于增强大语言模型 (LLMs) 的推理能力。然而,当前主流方法主要依赖于自我探索或单一离策略教师模型来引出长链式思考 (LongCoT) 推理,这可能引入固有的模型偏差并限制探索,最终限制了推理的多样性和性能。借鉴知识蒸馏中的多教师策略,我们引入了自适应多指导策略优化 (AMPO),这是一种新颖的框架,它仅当在线策略模型未能生成正确解决方案时,才自适应地利用来自多个熟练教师模型的指导。这种“按需指导”方法扩展了探索,同时保留了自我发现的价值。此外,AMPO 结合了一种基于理解的选择机制,促使学生从其最有可能理解的推理路径中学习,从而平衡了广泛探索和有效利用。大量实验表明,AMPO 显著优于强大的基线 (GRPO),在数学推理任务上提升了 4.3%,在分布外任务上提升了 12.2%,同时显著提升了 Pass@k 性能并实现了更多样化的探索。值得注意的是,我们的方法使用四个规模相当的教师模型,取得了与利用单一、更强大的教师模型(例如 DeepSeek-R1)并拥有更多数据的方法可比的结果。这些结果表明了一条实现卓越推理能力和泛化能力的更高效、更具扩展性的路径。我们的代码可在 https://github.com/SII-Enigma/AMPO 获取。 |
| 2025-10-02 | DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning | null | 我们提出DiFFPO(扩散快速激进策略优化),这是一个统一框架,用于训练掩码扩散大语言模型(dLLMs),使其通过强化学习(RL)不仅能更好地(激进地)推理,而且推理速度更快。首先,我们通过提出离策略强化学习来训练替代策略,其似然作为真实dLLM策略的近似更易处理,从而统一了现有基线方法(例如d1)。这自然促使我们结合重要性采样校正,提出更准确、信息更丰富的两阶段似然近似,从而产生具有更好样本效率和卓越任务性能的广义RL算法。其次,我们提出了联合训练dLLM策略高效采样器/控制器的新方向。通过RL,我们激励dLLM的自然多令牌预测能力,让模型学习为每个提示自适应地分配推理阈值。通过联合训练采样器,与仅训练模型相比,我们以更少的函数评估次数(NFEs)获得了更好的准确性,在改善dLLM推理时计算的帕累托前沿方面取得了最佳性能。我们通过在基准数学和规划任务上训练开源大型扩散语言模型,展示了我们流水线的有效性。 |
| 2025-10-02 | GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning | null | 逆向强化学习旨在从专家演示中恢复奖励模型,但传统方法产生的“黑箱”模型难以解释和调试。在这项工作中,我们引入了GRACE(Generating Rewards As CodE),一种利用大型语言模型在进化搜索中直接从专家轨迹中逆向工程生成可解释的、基于代码的奖励函数的方法。所产生的奖励函数是可执行代码,可以被检查和验证。我们通过在BabyAI和AndroidWorld基准测试上进行经验验证,GRACE即使在复杂的多任务设置中也能高效学习到高精度的奖励。此外,我们证明了与竞争性的模仿学习以及使用真实奖励的在线强化学习方法相比,所产生的奖励能够带来强大的策略。最后,我们展示了GRACE能够在多任务设置中构建复杂的奖励API。 |
| 2025-10-02 | Learning to Reason for Hallucination Span Detection | null | 大语言模型(LLMs)经常产生幻觉——即缺乏事实支持并损害可靠性的内容。虽然大多数现有工作将幻觉检测视为一个二元任务,但许多实际应用需要识别幻觉片段,这是一个多步骤的决策过程。这自然引出了一个问题:显式推理是否能帮助完成检测幻觉片段这一复杂任务。为了回答这个问题,我们首先评估了采用和不采用思维链(CoT)推理的预训练模型,并表明CoT推理在多次采样时有潜力生成至少一个正确答案。受此启发,我们提出了RL4HS,一个使用片段级奖励函数激励推理的强化学习框架。RL4HS基于群体相对策略优化,并引入了类别感知策略优化以缓解奖励不平衡问题。在RAGTruth基准(包括摘要生成、问答和数据到文本任务)上的实验表明,RL4HS超越了预训练推理模型和监督微调,证明了采用片段级奖励的强化学习对于检测幻觉片段的必要性。 |
| 2025-10-02 | Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning | null | 大语言模型(LLM)的事实核查最近引起了广泛关注,这得益于它们相比传统只提供答案的判断所展现出的卓越推理能力和透明的验证路径。在线事实核查需要迭代的证据检索和推理,然而现有方法主要依赖于提示工程或预设的推理工作流,未能提供统一的训练范式来提升所需技能。因此,我们引入了Veri-R1,这是一个在线强化学习(RL)框架,它使大语言模型能够与搜索引擎交互,并接收奖励信号,这些信号明确地塑造其规划、检索和推理行为。模型与检索系统之间的动态交互更准确地反映了真实世界的事实核查场景,并培养了全面的核查技能。实验结果表明,Veri-R1将联合准确率提高了多达30%,使证据分数翻倍,并且常常超越规模更大的同类模型。消融研究进一步揭示了奖励组成部分的影响以及输出logit与标签准确性之间的联系。我们的结果突出了在线强化学习在精确和忠实的事实核查中的有效性,并为未来的研究奠定了基础。我们发布了代码,以支持社区在LLM赋能的事实核查领域的进展。 |
| 2025-09-30 | Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models | null | 强化学习(RL)在提升大语言模型(LLMs)的推理能力方面取得了显著成功。相比基于结果的强化学习,过程监督强化学习(PSRL)已成为一种更有效的范式。然而,现有的PSRL方法在分支位置和采样方面都存在探索效率有限的问题。在本文中,我们提出了一种新颖的PSRL框架(AttnRL),它能为推理模型实现高效探索。受初步观察的启发,即表现出高注意力分数(attention scores)的步骤与推理行为相关,我们提出从高价值位置进行分支。此外,我们开发了一种自适应采样策略,该策略考虑了问题难度和历史批次大小,确保整个训练批次保持非零优势值(advantage values)。为了进一步提高采样效率,我们为PSRL设计了一种单步离策略训练流程。在多项具有挑战性的数学推理基准上进行的广泛实验表明,我们的方法在性能以及采样和训练效率方面始终优于先前的方法。 |
| 2025-09-30 | Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models | null | 测试时扩展方法通过增加推理过程中用于进行预测的计算量来提升大语言模型(LLMs)的能力。推理时计算可以并行扩展,通过选择多个独立解决方案实现;也可以顺序扩展,通过自我完善实现。我们提出了递归自聚合(RSA),这是一种受进化方法启发的测试时扩展方法,它结合了并行和顺序扩展的优势。RSA的每一步通过子集的聚合来细化一组候选推理链,从而产生一组改进的解决方案,这些解决方案随后被用作下一轮迭代的候选池。RSA利用了蕴含在推理链中的丰富信息——不仅仅是最终答案——并能够从不同思维链中部分正确的中间步骤进行自举。经验上,随着计算预算的增加,RSA在不同任务、模型系列和规模上都带来了显著的性能提升。值得注意的是,RSA使Qwen3-4B-Instruct-2507能够与更大的推理模型(包括DeepSeek-R1和o3-mini (high))达到有竞争力的性能,同时在AIME-25、HMMT-25、Reasoning Gym、LiveCodeBench-v6和SuperGPQA等基准测试中优于纯粹的并行和顺序扩展策略。我们进一步证明,通过一种新颖的聚合感知强化学习方法训练模型来结合解决方案,可带来显著的性能提升。代码可在https://github.com/HyperPotatoNeo/RSA获取。 |
| 2025-09-30 | MENLO: From Preferences to Proficiency – Evaluating and Modeling Native-like Quality Across 47 Languages | null | 确保大语言模型(LLM)响应在多种语言中达到地道性质量具有挑战性。为解决此问题,我们引入了MENLO,一个基于受众设计启发机制将地道性响应质量评估操作化的框架。利用MENLO,我们创建了一个包含6,423个人工标注的提示-响应偏好对的数据集,该数据集涵盖四个质量维度,在47种语言变体中具有较高的标注者间一致性。我们的评估表明,零样本LLM判断器显著受益于成对评估和我们结构化的标注标准,然而它们在我们的数据集上仍不如人类标注者。我们通过使用强化学习、奖励塑形和多任务学习方法进行微调,展示了显著的改进。此外,我们表明经过强化学习训练的判断器可以作为生成式奖励模型,以增强LLM的多语言能力,尽管与人类判断仍存在差异。我们的发现为可扩展的多语言评估和偏好对齐提供了有前景的方向。我们发布了我们的数据集和评估框架,以支持多语言LLM评估领域的进一步研究。 |
| 2025-09-30 | Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning | null | 过程奖励模型(PRM)已成为一种有前景的方法,通过引导大型语言模型(LLM)的分步推理趋向最终答案来增强其推理能力。然而,现有的PRM要么孤立地处理每个推理步骤,未能捕获步骤间的依赖关系,要么难以将过程奖励与最终结果对齐。因此,奖励信号未能遵循序列推理中的时序因果关系,并面临模糊的信用分配问题。这些局限性使下游模型容易受到奖励欺骗并导致次优性能。在这项工作中,我们提出了条件奖励建模(CRM),它将LLM推理框架化为一个最终导向正确答案的时序过程。每个推理步骤的奖励不仅取决于前面的步骤,而且明确地与推理轨迹的最终结果相关联。通过强制执行条件概率规则,我们的设计捕获了推理步骤之间的因果关系,与结果的关联使得每个中间步骤能够被精确归因,从而解决了信用分配的模糊性。此外,通过这种一致的概率建模,CRM产生的奖励能够实现更可靠的跨样本比较。在Best-of-N采样、集束搜索和强化学习方面的实验表明,CRM持续优于现有奖励模型,为增强LLM推理提供了一个原则性的框架。特别是,CRM对奖励欺骗更具鲁棒性,并带来了稳定的下游改进,而不依赖于从真实值导出的可验证奖励。 |
| 2025-09-30 | Efficient and Transferable Agentic Knowledge Graph RAG via Reinforcement Learning | null | 知识图谱检索增强生成(KG-RAG)将大语言模型(LLMs)与结构化、可验证的知识图谱(KGs)结合,以减少幻觉并揭示推理路径。然而,许多KG-RAG系统包含多个LLM模块(例如规划、推理和响应),这增加了推理成本,并将行为绑定到特定的目标知识图谱。为此,我们引入了KG-R1,一个基于强化学习(RL)的智能体式知识图谱检索增强生成(KG-RAG)框架。KG-R1利用单个智能体,将知识图谱作为其环境进行交互,学习在每一步进行检索,并将检索到的信息整合到其推理和生成中。该过程通过端到端强化学习进行优化。在知识图谱问答(KGQA)基准测试的受控实验中,我们的方法展现出效率和可迁移性:使用Qwen-2.5-3B,KG-R1在生成更少token的情况下提高了答案准确性,优于使用更大基础模型或微调模型的先前多模块工作流方法。此外,KG-R1实现了即插即用:训练后,它在新的知识图谱上无需修改即可保持高准确性。这些特性使KG-R1成为一个有前景的、适用于实际部署的KG-RAG框架。我们的代码已公开发布在https://github.com/Jinyeop3110/KG-R1。 |
| 2025-09-30 | EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing | null | 最近,我们见证了自然语言指令图像编辑方面的巨大进步。几个闭源模型,如GPT-Image-1、Seedream和Google-Nano-Banana,已展现出非常有前景的进展。然而,开源模型仍然滞后。主要瓶颈在于缺乏可靠的奖励模型来扩展高质量的合成训练数据。为解决这一关键瓶颈,我们构建了\mname,它使用我们新的大规模人类偏好数据集进行训练,该数据集由训练有素的专家遵循严格协议精心标注,包含超过20万个偏好对。\mname在指令引导的图像编辑任务中展现出与人类偏好卓越的一致性。实验表明,\mname在GenAI-Bench、AURORA-Bench、ImagenHub以及我们新的\benchname等已有的基准测试中,在人类相关性方面达到了最先进水平,优于广泛的VLM-as-judge模型。此外,我们使用\mname从现有的嘈杂的ShareGPT-4o-Image数据集中选择了一个高质量子集。我们在所选子集上训练了Step1X-Edit,这相比在完整数据集上训练显示出显著的改进。这证明了\mname能够作为奖励模型来扩展用于图像编辑的高质量训练数据。此外,其强大的对齐性预示着其在基于强化学习的后训练和图像编辑模型的测试时扩展等高级应用中的潜力。\mname及其训练数据集将被发布,以帮助社区构建更多高质量的图像编辑训练数据集。 |
| 2025-09-30 | One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient | null | 监督微调 (SFT) 是适应大型语言模型 (LLM) 的主要方法,但与强化学习 (RL) 相比,它在泛化能力上常常表现不佳。在这项工作中,我们认为这种性能差异不仅源于损失函数,更源于一个根本性区别:SFT 从固定的、预先收集的数据集中学习,而 RL 则利用从当前策略中采样的在策略数据。基于这一假设,我们引入了单令牌回滚 (OTR),这是一种新颖的微调算法,它使用策略梯度方法指导 SFT。OTR 通过将每个令牌生成视为一个单步强化学习轨迹来重新构建自回归学习过程。在每一步中,它通过从当前策略的分布中采样多个候选令牌来执行蒙特卡洛“回滚”。然后,利用监督数据中的真实令牌为这些样本提供奖励信号。在策略梯度的指导下,我们的算法将静态的、离策略的监督数据转化为令牌级别的动态、在策略信号,从而捕获了在策略学习的泛化优势,同时避免了完整句子生成的高昂开销。通过在涵盖数学推理、代码生成和通用领域推理的各种挑战性基准上进行的大量实验,我们证明了 OTR 始终优于标准 SFT。我们的研究结果确立了 OTR 作为微调 LLM 的强大且实用的替代方案,并提供了令人信服的证据,表明数据的在策略性质是泛化的关键驱动因素,为 LLM 的微调提供了一个有前景的新方向。 |
| 2025-09-30 | Interactive Learning for LLM Reasoning | null | 现有的多智能体学习方法已开发出交互式训练环境,以明确促进多个大型语言模型(LLM)之间的协作,从而构建更强大的多智能体系统(MAS)。然而,在推理过程中,它们需要重新执行MAS才能获得最终解决方案,这与人类认知相悖,即个体可以通过与他人互动来增强其推理能力并在未来独立解决问题。为了探究多智能体交互是否能增强LLM的独立问题解决能力,我们引入了ILR,这是一个新颖的MAS协同学习框架,集成了两个关键组件:动态交互(Dynamic Interaction)和感知校准(Perception Calibration)。具体而言,动态交互首先根据问题难度和模型能力自适应地选择协作或竞争策略。LLM随后通过Idea3(思想共享、思想分析和思想融合)交换信息,这是一种旨在模仿人类讨论的创新交互范式,然后得出各自的最终答案。在感知校准中,ILR采用组相对策略优化(GRPO)来训练LLM,同时将一个LLM的奖励分布特征整合到另一个LLM的奖励函数中,从而增强多智能体交互的凝聚力。我们在分属两个不同规模模型家族的三个LLM上验证了ILR,并在五个数学基准和一个编码基准上评估了性能。实验结果表明,ILR始终优于单智能体学习,相比最强的基线,性能提升高达5%。我们进一步发现,Idea3可以在多智能体推理过程中增强更强大的LLM的鲁棒性,并且与纯协作或纯竞争策略相比,动态交互类型可以促进多智能体学习。 |
| 2025-09-30 | PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection | null | 合成媒体的迅速兴起使得深度伪造检测成为网络安全和信任的关键挑战。进展仍受限于大规模、高质量数据集的稀缺性。尽管多模态大语言模型(LLMs)展现出强大的推理能力,但它们在深度伪造检测上的表现不佳,经常产生与视觉证据不符或幻觉式的解释。为了解决这一局限性,我们引入了一个用于深度伪造检测的推理标注数据集,并提出了段落级相对策略优化(PRPO),这是一种在段落级别上将LLM推理与图像内容对齐的强化学习算法。实验表明,PRPO大幅提升了检测准确性,并获得了4.55/5.0的最高推理分数。消融研究进一步证明,在测试时条件下,PRPO显著优于GRPO。这些结果强调了将多模态推理建立在视觉证据之上的重要性,以实现更可靠和可解释的深度伪造检测。 |
| 2025-09-30 | Diversity-Incentivized Exploration for Versatile Reasoning | null | 可验证奖励强化学习 (RLVR) 已成为激励大型语言模型 (LLM) 推理能力的关键范式。由于推理任务中状态-动作空间巨大和奖励稀疏,现有方法常面临探索不足和样本效率低下的问题。本文提出了 DIVER(多样性激励的多功能推理探索),这是一个创新框架,强调了全局序列级多样性在激励多功能推理深度探索中的关键作用。我们首先进行了一项初步的实证研究,揭示了全局多样性与推理能力之间存在强烈的正相关性。基于这一洞察,我们引入了全局多样性激励作为一种内在奖励,以促进在语义结构化空间中的深度探索。结合内在奖励,我们开发了一种基于势函数的奖励整形机制以保持最优策略不变性,并设计了简单的启发式方法来减轻可能的奖励作弊问题。实验结果表明,DIVER 在域内和域外任务上均优于采用各种探索策略的竞争性 RLVR 基线,并在 Pass@1 和 Pass@k 评估中均表现出色。我们的代码可在 https://github.com/NJU-RL/DIVER 获取。 |
| 2025-09-26 | CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning | link | 图像字幕生成是一项连接视觉和语言领域的基本任务,在预训练大型视觉-语言模型(LVLMs)中扮演着关键角色。当前最先进的字幕生成模型通常通过有监督微调(SFT)进行训练,这种范式依赖于由人类或专有模型标注的昂贵且不可扩展的数据。这种方法经常导致模型记忆特定的真实答案,限制了它们的泛化能力以及生成多样化、创意性描述的能力。为了克服SFT的局限性,我们提出将可验证奖励强化学习(RLVR)范式应用于开放式图像字幕生成任务。然而,一个主要挑战是为构成“好”字幕的固有主观性设计一个客观的奖励函数。我们引入了字幕强化学习(CapRL),这是一种新颖的训练框架,通过其效用重新定义字幕质量:一个高质量的字幕应该使非视觉语言模型能够准确回答关于对应图像的问题。CapRL采用解耦的两阶段流程,其中一个LVLM生成字幕,客观奖励则来源于一个独立的、无视觉的LLM仅基于该字幕回答多项选择题的准确性。作为首次将RLVR应用于主观图像字幕生成任务的研究,我们证明CapRL显著提升了多种设置下的性能。在由CapRL-3B标注的CapRL-5M字幕数据集上进行预训练,在12个基准测试中带来了显著的提升。此外,在用于字幕质量评估的Prism框架内,CapRL取得了与Qwen2.5-VL-72B相当的性能,同时平均超越基线8.4%。代码可在此处获取:https://github.com/InternLM/CapRL。 |
| 2025-09-26 | WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning | null | 基于大型语言模型(LLM)的智能体系统在仓库级别的代码生成任务上展现了令人印象深刻的性能。然而,对于诸如网站代码库生成这类严重依赖视觉效果和用户交互反馈的任务,当前的代码智能体仅依赖简单的代码执行进行反馈和验证。这种方法未能捕捉到所生成代码的实际质量。在本文中,我们提出了WebGen-Agent,这是一种新颖的网站生成智能体,它利用全面且多层次的视觉反馈来迭代地生成和完善网站代码库。视觉语言模型(VLM)会生成关于网站屏幕截图和GUI智能体测试的详细且富有表达力的文本描述和建议,并提供量化其质量的分数。屏幕截图和GUI智能体分数进一步与回溯和择优机制相结合,从而提升了智能体的性能。利用WebGen-Agent工作流程中固有的准确视觉分数,我们进一步引入了带有屏幕截图和GUI智能体反馈的Step-GRPO,以提高LLM作为WebGen-Agent推理引擎的能力。通过将每一步的屏幕截图和GUI智能体分数作为Step-GRPO中的奖励,我们提供了一个密集且可靠的过程监督信号,这有效地提高了模型的网站生成能力。在WebGen-Bench数据集上,WebGen-Agent将Claude-3.5-Sonnet的准确率从26.4%提高到51.9%,并将其外观分数从3.0提高到3.9,超过了此前最先进的智能体系统。此外,我们的Step-GRPO训练方法将Qwen2.5-Coder-7B-Instruct的准确率从38.9%提高到45.4%,并将外观分数从3.4提高到3.7。 |
| 2025-09-26 | Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback | null | 人类反馈强化学习 (RLHF) 通过从人类偏好数据中学习奖励模型,然后优化策略以偏好期望的响应,已成为使大型语言模型 (LLM) 与人类偏好对齐的核心范式。在本文中,我们研究了在线RLHF的探索原则,其目标是以数据高效的方式自适应地收集新的偏好数据,以改进奖励模型和策略。通过检查现有的基于乐观主义的探索算法,我们发现其采样协议存在一个缺陷:它们倾向于收集未能减少奖励差异中最具信息量的不确定性的比较,并且我们证明了下界,表明此类方法在指数级长的周期内可能导致线性遗憾。受此启发,我们提出了一种新的探索方案,该方案将偏好查询导向减少与策略改进最相关的奖励差异中的不确定性。在RLHF的多臂老虎机模型下,我们建立了阶数为 $T^{(\beta+1)/(\beta+2)}$ 的遗憾界,其中 $\beta>0$ 是一个用于平衡奖励最大化与减轻分布漂移的超参数。据我们所知,这是第一个遗憾随所有模型参数呈多项式增长的在线RLHF算法。 |
| 2025-09-26 | UML-CoT: Structured Reasoning and Planning with Unified Modeling Language for Robotic Room Cleaning | null | 思维链 (CoT) 提示可提升大型语言模型 (LLMs) 的推理能力,但其对非结构化文本的依赖限制了在具身任务中的可解释性和可执行性。先前工作探索了使用场景图或逻辑图的结构化思维链,但这些方法仍存在根本性限制:它们仅建模低阶关系,缺乏继承或行为抽象等构造,并且未提供序列式或条件式规划的标准化语义。我们提出了 UML-CoT,一个结构化推理与规划框架,它利用统一建模语言 (UML) 来生成符号化思维链和可执行动作规划。UML 类图捕获组合式对象语义,而活动图建模过程控制流。我们的三阶段训练流程结合了监督微调与群体相对策略优化 (GRPO),包括从仅含答案的数据中进行奖励学习。我们在 MRoom-30k 上评估了 UML-CoT,这是一个新的杂乱房间清理场景基准。UML-CoT 在可解释性、规划连贯性和执行成功率方面均优于非结构化思维链,突出了 UML 作为一种更具表现力且更具可操作性的结构化推理形式化。 |
| 2025-09-26 | SPARK: Synergistic Policy And Reward Co-Evolving Framework | link | 近年来,大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)越来越多地采用强化学习(RL)进行预训练后微调,例如针对客观任务的可验证奖励强化学习(RLVR)和针对主观任务的人类反馈强化学习(RLHF)。然而,RLHF由于依赖人类偏好而导致成本高昂且可能存在奖励-策略不匹配问题,而RLVR在每次更新后都会丢弃轨迹和正确性信号,从而浪费了监督信息。为应对这些挑战,我们引入了协同策略与奖励协同进化框架(SPARK),这是一种基于RLVR的高效、在线策略且稳定的方法。SPARK没有丢弃轨迹和正确性数据,而是回收这些有价值的信息,同时训练模型本身作为一个生成式奖励模型。这种辅助训练采用了多种目标,例如逐点奖励分数、成对比较以及基于进一步反思响应的评估,以教授模型评估和改进自身响应的能力。我们的方法消除了对独立奖励模型和昂贵的人类偏好数据的需求。SPARK创建了一个积极的协同进化反馈循环:改进的奖励准确性产生更好的策略梯度,这反过来又生成更高质量的轨迹,进一步完善奖励模型。我们的统一框架支持通过自反思进行测试时扩展,无需外部奖励模型及其相关成本。我们表明SPARK在多个LLM和LVLM模型以及多个推理、奖励模型和通用基准测试上取得了显著的性能提升。例如,SPARK-VL-7B在7个推理基准测试上平均实现了9.7%的提升,在2个奖励基准测试上实现了12.1%的提升,在8个通用基准测试上实现了1.5%的提升,相较于基线模型,这展示了其鲁棒性和广泛的泛化能力。 |
| 2025-09-26 | Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective | null | 最近的强化学习(RL)方法大幅提升了大语言模型(LLMs)的规划能力,然而其有效性的理论基础仍然难以捉摸。在这项工作中,我们通过一种易于处理的基于图的抽象来研究RL的优点和局限性,重点关注策略梯度(PG)和Q-学习方法。我们的理论分析表明,有监督微调(SFT)可能会引入基于共现的虚假解,而RL主要通过探索实现正确的规划,强调了探索在实现更好泛化能力中的作用。然而,我们也表明PG存在多样性崩溃问题,即在训练过程中输出多样性下降,即使在达到完美准确度后仍然存在。相比之下,Q-学习提供了两个关键优势:离策略学习和收敛时的多样性保持。我们进一步证明,精心设计的奖励对于防止Q-学习中的奖励作弊是必要的。最后,将我们的框架应用于真实世界规划基准Blocksworld,我们证实这些行为在实践中也表现出来。 |
| 2025-09-26 | Quantile Advantage Estimation for Entropy-Safe Reasoning | link | 可验证奖励强化学习(RLVR)能增强大型语言模型(LLM)的推理能力,但其训练过程常在熵塌缩和熵爆炸之间振荡。我们将这两种风险归因于无价值强化学习(如GRPO和DAPO)中使用的均值基线,该基线在奖励异常值下会不当地惩罚负优势样本。我们提出了分位数优势估计(QAE),用组内K分位数基线取代了均值基线。QAE引入了一个响应级别的双机制门控:对于困难查询(p <= 1 - K),它强化罕见的成功案例;对于简单查询(p > 1 - K),它针对剩余的失败案例。在一阶softmax更新下,我们证明了双边熵安全性,给出了单步熵变化的下限和上限,从而遏制了熵爆炸并防止了熵塌缩。经验上,这一微小修改稳定了熵,稀疏化了信用分配(在调整后的K值下,大约80%的响应获得了零优势),并在AIME 2024/2025和AMC 2023数据集上,为Qwen3-8B/14B-Base模型带来了持续的pass@1性能提升。这些结果表明,基线设计——而非token级别的启发式方法——是扩展RLVR的主要机制。 |
| 2025-09-26 | Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning | null | 强化学习(RL)是提升大语言模型(LLMs)在长周期、稀疏奖励智能体任务中战略性工具使用能力的主导范式,但它面临着探索-利用困境这一根本性挑战。现有研究通过策略熵来促进探索,但这种机械式的熵最大化由于多轮分布偏移,容易导致RL训练不稳定。在本文中,我们旨在智能体自身经验的指导下实现渐进式探索-利用平衡,避免陷入熵崩溃或失控发散。我们提出SPEAR,一种基于课程的自我模仿学习(SIL)方法,用于训练智能体大语言模型。它扩展了香草版SIL框架,在该框架中,经验回放缓冲区存储自我生成的有前景轨迹用于离策略更新,通过在不同阶段逐步将策略演化引导至一个良好平衡的熵范围。具体而言,我们的方法引入了一个课程来管理探索过程,利用内在奖励培养技能层面探索,并通过SIL促进动作层面探索。最初,辅助工具调用奖励在工具使用技能的积累中扮演关键角色,使得智能体能够广泛接触环境反馈的陌生分布,并呈现出熵上升趋势。随着训练的进行,自我模仿得到强化,利用回放经验中现有的成功模式进行比较性的动作层面探索,从而加速解决方案迭代,同时避免无限熵增长。为了进一步稳定训练,我们重新校准了经验回放缓冲区中经验的优势值,以解决潜在的策略漂移问题。我们引入了正则化,例如对概率与优势之间具有高协方差的token进行裁剪,以进行轨迹层面的熵控制,从而抑制过度自信。 |
| 2025-09-26 | EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning | null | 在稀疏奖励的多轮交互环境中训练大语言模型智能体,其中完成单个任务在一个回合内需要30多个交互轮次,这对强化学习提出了一个基本挑战。我们识别出该设置特有的一个关键失效模式:探索-利用级联失效。这种级联始于早期策略过早收敛,即稀疏反馈导致智能体采纳有缺陷的低熵策略。随后,智能体进入晚期策略崩溃,此时传统的熵正则化变得适得其反,促进了混乱的探索,从而破坏了训练的稳定性。我们提出了熵正则化策略优化 (EPO),这是一个通过三种协同机制打破这种失效循环的通用框架:(1) 在多轮设置中采用熵正则化以增强探索,(2) 一种熵平滑正则化器,它将策略熵限制在历史平均值范围内以防止突然波动,以及 (3) 一种自适应的基于阶段的权重分配,它在整个训练过程中平衡了探索与利用。我们的分析证明,EPO保证了熵方差的单调递减,同时保持了收敛性。EPO在ScienceWorld上实现了高达152%的性能提升,在ALFWorld上实现了高达19.8%的性能提升。我们的工作表明,多轮稀疏奖励设置需要与传统强化学习根本不同的熵控制,这对大语言模型智能体训练具有广泛影响。 |
| 2025-09-26 | StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models | link | 大语言模型(LLMs)在解决运筹学(OR)问题方面展现出巨大的潜力。尽管强化学习是LLM在运筹学问题训练上的强大范式,但现有工作普遍面临两个主要局限。首先,结果奖励存在信用分配问题,即正确的最终答案可能会强化有缺陷的推理。其次,传统的判别式过程监督是短视的,未能整体评估运筹学建模中相互依赖的步骤。为此,我们引入了StepORLM,这是一种采用生成式过程监督的新颖自演化框架。StepORLM的核心是一个协同演化循环,其中策略模型和生成式过程奖励模型(GenPRM)相互迭代改进。该循环由双重反馈机制驱动:来自外部求解器的明确的、基于结果的验证,以及来自GenPRM的细致入微的、整体的过程评估。组合信号用于通过加权直接偏好优化(W-DPO)来校准策略,并同时改进GenPRM。我们得到的80亿参数StepORLM在六个基准测试中建立了新的最先进水平,显著超越了规模大得多的通用模型、智能体方法和专用基线。此外,协同演化的GenPRM能够作为一个强大且普适的过程验证器,大幅提升了我们自己的模型以及其他现有LLM的推理扩展性能。 |
| 2025-09-25 | SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines | null | 我们提出了一个科学推理基础模型,它将自然语言与异构科学表示对齐。该模型在包含2060亿个词元的语料库上进行预训练,涵盖科学文本、纯序列和序列-文本对,然后通过在4000万条指令上进行SFT(监督微调)、采用退火冷启动自举法以引出长格式思维链,以及使用带有任务特定奖励塑形的强化学习进行对齐,从而灌输审慎的科学推理能力。它支持四大能力族,涵盖跨工作流的103项任务:(i) 文本与科学格式之间的忠实翻译,(ii) 文本/知识提取,(iii) 属性预测,(iv) 属性分类,(v) 无条件和有条件的序列生成与设计。与专业系统相比,我们的方法拓宽了指令覆盖范围,提高了跨领域泛化能力,并增强了保真度。我们详细介绍了数据整理和训练过程,并表明跨学科学习能增强迁移能力和下游可靠性。该模型、指令微调数据集和评估代码已开源,位于 https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。 |
| 2025-09-25 | RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards | null | 人类反馈强化学习 (RLHF) 和可验证奖励强化学习 (RLVR) 是大语言模型后训练中使用的主要强化学习范式,各具优势。然而,RLHF在可解释性和奖励作弊方面面临挑战,因为它依赖通常缺乏明确标准的人类判断;而RLVR的适用范围受到限制,因为它侧重于基于正确性的验证器。我们提出了二元灵活反馈强化学习 (RLBFF),它结合了人类驱动偏好的多功能性与基于规则验证的精确性,使奖励模型能够捕获响应质量超越单纯正确性的细微方面。RLBFF从自然语言反馈中提取可以以二元方式回答的原则 (例如,信息准确性:是,或代码可读性:否)。这些原则随后可用于将奖励模型训练转化为蕴含任务 (即,响应是否满足任意原则)。我们展示了以这种方式训练的奖励模型在数据匹配的情况下可以超越Bradley-Terry模型,并在RM-Bench (86.2%) 和 JudgeBench (81.4%,截至2025年9月24日位列排行榜第一) 上取得了顶尖性能。此外,与Bradley-Terry模型不同,用户可以在推理时指定感兴趣的原则,以定制我们奖励模型的关注点。最后,我们提出了一个完全开源的方案 (包括数据),使用RLBFF和我们的奖励模型对Qwen3-32B进行对齐,以匹配或超越o3-mini和DeepSeek R1在MT-Bench、WildBench和Arena Hard v2等通用对齐基准上的性能 (推理成本低于5%)。 |
| 2025-09-25 | It’s Not You, It’s Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL | null | 使用PPO和GRPO等强化学习(RL)方法训练大语言模型(LLM)通常依赖于比例裁剪来稳定更新。尽管裁剪能有效防止不稳定,但它会丢弃信息并引入梯度不连续性。我们提出了概率平滑策略优化(PSPO),它在计算重要性比率之前,将当前策略的概率向旧(行为)策略进行平滑,类似于标签平滑。与裁剪不同,PSPO保留了梯度信号,而向旧策略的插值创建了一个软信任区域,从而阻止了大规模、不稳定的更新,并提供了形式化保证。我们在GRPO中实例化了PSPO(GR-PSPO),并在GSM8K上微调了Qwen2.5-0.5B和Qwen2.5-1.5B模型,评估了它们在GSM8K测试集上的性能以及在SVAMP、ASDiv和MATH-500上的跨数据集泛化能力。相对于未裁剪的GRPO(单次迭代;无数据重用,比例始终为1),GR-PSPO取得了相似的性能,但改进了推理能力,从而产生了更清晰、更简洁且更具逻辑性的响应。与裁剪的GRPO相比,GR-PSPO显著提升了0.5B和1.5B模型的性能,在GSM8K上提升了20%以上(0.5B模型从17.6%提升到39.7%,1.5B模型从37.8%提升到59.4%)。 |
| 2025-09-25 | Tree Search for LLM Agent Reinforcement Learning | link | 强化学习(RL)的最新进展显著增强了大型语言模型(LLM)的智能体能力。在长期和多轮智能体任务中,现有仅由结果奖励驱动的方法常常面临稀疏监督问题。为了解决这一挑战,我们提出了基于树的组相对策略优化(Tree-GRPO),这是一种基于树搜索的分组智能体强化学习方法,其中每个树节点代表完整的智能体交互步骤。通过共享共同前缀,树搜索采样在固定令牌或工具调用预算内增加了可实现的轨迹数量。此外,我们发现树状结构轨迹即使仅使用结果奖励,也能自然地构建逐步过程监督信号。基于此,Tree-GRPO在树内和树间两个层面估计了分组相对优势。通过理论分析,我们证明了树内层面组相对策略优化的目标等价于步级直接偏好学习的目标。在11个数据集和3种问答任务上的实验证明了所提出的基于树的强化学习方法相较于基于链的强化学习方法的优越性。 |
| 2025-09-25 | GRPO is Secretly a Process Reward Model | link | 我们理论上证明,在关于跨补全的token序列组内重叠的某些假设下,GRPO强化学习算法会诱导一个非平凡的过程奖励模型(PRM)。然后我们经验性地表明,这些假设在真实世界条件下得到满足:GRPO确实诱导了一个非平凡的PRM。利用“GRPO即PRM”的框架,我们发现了GRPO目标函数中的一个缺陷:非均匀分布的过程步骤在不同条件下会阻碍探索和利用。我们提出了一个简单的算法修改来缓解这一缺陷( $\lambda$-GRPO),并表明使用$\lambda$ -GRPO训练的大语言模型比使用标准GRPO训练的模型在验证准确率和下游推理任务表现上更高,并且更快地达到峰值性能。我们的结果质疑了昂贵、显式定义的PRM对GRPO的优势:我们展示了可以转而利用原始GRPO算法中隐藏的、内置的PRM结构来提升模型性能,同时对训练时间和成本的影响可忽略不计。 |
| 2025-09-25 | ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective | null | 大语言模型(LLM)已被用于在复杂场景中做出决策,这些场景要求模型进行深入思考、逻辑推理和明智决策。许多现有研究仅关注社交任务或模拟环境中的多轮对话,而忽略了不同类型的决策及其相互依赖性。当前的强化学习方法在训练过程中难以考虑其他个体的策略。为解决这些问题,我们首先定义了一个包含两种类型决策及其时间依赖性的战略决策问题。此外,我们提出了心智理论策略优化(ToMPO)算法,以优化对其他个体策略和博弈局势趋势的感知。与群体相对策略优化(GRPO)算法相比,ToMPO主要通过以下方式增强了LLM的战略决策能力:1) 基于对其他个体策略的推理生成轨迹,2) 在图级别和样本级别估计优势,以及3) 平衡全局和局部奖励。ToMPO算法在模型输出符合度和合作结果方面比GRPO方法高出35%。此外,与参数规模大100倍的模型相比,其性能提升了18%。这表明ToMPO算法在增强模型战略决策能力方面的有效性。 |
| 2025-09-25 | RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs | null | 大语言模型 (LLMs) 通常通过带可验证奖励的强化学习 (RLVR) 和基于推理轨迹的监督微调 (SFT) 进行训练,以提高其推理能力。然而,这些方法如何塑造推理能力仍然很大程度上不清楚。本文超越了仅基于准确性来调查这两个组件如何塑造推理过程的方法,引入了一种新颖的分析框架,该框架量化了推理路径并捕捉了它们在每种训练过程下(使用在数学领域拥有1.5B、7B和14B参数的模型)的定性变化。具体而言,我们从两个粒度级别研究推理过程:轨迹级别,该级别检查完整的推理输出;以及步骤级别,该级别分析推理图,其节点对应于单个推理步骤。值得注意的是,对独特推理轨迹的聚类显示出互补效应:RL压缩了不正确的轨迹,而SFT扩展了正确的轨迹。步骤级别分析表明,RL使推理图中节点访问频率、度数和中介中心性分布的衰减率变得更陡峭(约2.5倍),而SFT则使其趋于平坦(减少到约三分之一)。这表明RL将推理功能集中到一小部分步骤中,而SFT则将其均匀分布到许多步骤中。此外,通过从多个角度评估推理图的拓扑结构,我们描绘了RL和SFT的共享和独特特征。我们的工作提出了一种新颖的推理路径视角,解释了为什么当前SFT后接RL的两阶段训练最佳实践是成功的,并为数据构建和更有效的学习方法提供了实际启示。 |
| 2025-09-25 | Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning | null | 在线强化学习在复杂任务中耗时巨大,因为需要大量的交互步骤来学习最优Q函数。视觉-语言动作(VLA)策略代表了解决各种任务的一个有前景的方向;然而,它们在低层控制上的性能仍然有限,并且有效的部署通常需要任务特定的专家演示来进行微调。在本文中,我们提出了VARL(VLM作为在线强化学习的动作建议者),一个利用视觉-语言模型(VLM)领域知识为强化学习智能体提供动作建议的框架。与以往方法不同,VARL提供动作建议而非设计启发式奖励,从而保证了最优性和收敛性不变。这些建议动作增加了样本多样性,最终提高了样本效率,尤其是在稀疏奖励任务中。为了验证VARL的有效性,我们在各种环境和智能体设置中对其进行了评估。结果表明,VARL大幅提高了样本效率,而没有引入显著的计算开销。这些优势使得VARL成为一个用于在线强化学习的通用框架,并使其能够将强化学习从零开始直接应用于真实世界环境。 |
| 2025-09-25 | Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns | null | 大型推理模型在具有挑战性的数学推理方面的最新进展得益于强化学习(RL)。在中期训练中融入长链式思考(CoT)数据,也被证明能够大幅提升推理深度。然而,当前方法常常不加区分地使用CoT数据,这使得哪种数据类型能最有效地增强模型推理能力这一关键问题悬而未决。在本文中,我们首次将基础模型的推理潜力定义为正确回答问题所需的独立尝试次数的倒数,这与最终模型性能密切相关。随后,我们提出利用富含高价值推理模式的多样化数据来扩展推理潜力。具体而言,我们从CoT序列中抽象出以通用性和归纳能力为特征的原子推理模式,并利用它们构建了一个富含宝贵推理模式的核心参考集。此外,我们提出了一种涉及推理模式链和token熵的双粒度算法,以有效从与核心集对齐的数据池中选择高价值CoT数据(CoTP),从而训练模型有效掌握推理。仅100亿token的CoTP数据使85A6B专家混合(MoE)模型在具有挑战性的AIME 2024和2025上提升了9.58%,并将下游RL性能的上限提高了7.81%。 |
| 2025-09-25 | MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning | null | 视频推理已成为多模态大语言模型(MLLMs)的一项关键能力,要求模型超越静态感知,实现对复杂场景中时间动态性的连贯理解。然而,现有MLLMs常表现出过程不一致性,即便是最终答案正确,中间推理也可能偏离视频动态,从而损害了可解释性和鲁棒性。为解决此问题,我们引入了MOSS-ChatV,一个采用基于动态时间规整(DTW)的过程奖励的强化学习框架。这种基于规则的奖励将推理轨迹与时间上基础的参考对齐,从而无需辅助奖励模型即可实现高效的过程监督。我们进一步将动态状态预测确定为视频推理的关键衡量标准,并构建了MOSS-Video,这是一个带有标注推理轨迹的基准数据集,其中训练集用于微调MOSS-ChatV,预留集用于评估。MOSS-ChatV在MOSS-Video(测试集)上取得了87.2%的成绩,并提高了在MVBench和MMVU等通用视频基准上的性能。该框架在Qwen2.5-VL和Phi-2等不同架构上持续取得增益,证实了其广泛适用性。使用GPT-4o作为评判者的评估进一步表明,MOSS-ChatV生成了更一致和稳定的推理轨迹。 |
| 2025-09-23 | Reinforcement Learning on Pre-Training Data | link | 计算资源的指数级扩展与高质量文本数据的有限增长之间日益扩大的差距,目前限制了大型语言模型(LLMs)的传统扩展方法。为了应对这一挑战,我们引入了预训练数据上的强化学习(RLPT),这是一种用于优化LLMs的新型训练时扩展范式。与以往主要通过监督学习扩展训练的方法不同,RLPT使策略能够自主探索有意义的轨迹,从而从预训练数据中学习并通过强化学习(RL)提高其能力。尽管现有的强化学习策略,例如基于人类反馈的强化学习(RLHF)和可验证奖励的强化学习(RLVR),依赖人工标注来构建奖励,但RLPT通过直接从预训练数据中获取奖励信号消除了这种依赖。具体而言,它采用了一种下一片段推理目标,奖励策略基于前文语境准确预测后续文本片段。这种表述使得强化学习可以在预训练数据上进行扩展,鼓励在更广泛的语境中探索更丰富的轨迹,从而培养更具泛化性的推理能力。在通用领域和数学推理基准上对多个模型进行的大量实验验证了RLPT的有效性。例如,当应用于Qwen3-4B-Base时,RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24和AIME25上分别带来了3.0、5.1、8.1、6.0、6.6和5.3的绝对提升。结果进一步表明了良好的扩展行为,预示着在更多计算资源下有持续提升的巨大潜力。此外,RLPT提供了一个坚实的基础,扩展了LLMs的推理边界并增强了RLVR的性能。 |
| 2025-09-23 | Online Process Reward Leanring for Agentic Reinforcement Learning | null | 大型语言模型 (LLM) 越来越多地通过强化学习 (RL) 进行训练,成为在交互式环境中进行长期推理和行动的自主智能体。然而,稀疏且有时不可验证的奖励使得时间信用分配极具挑战性。最近的工作尝试将过程监督整合到智能体学习中,但存在标注偏差、奖励欺骗、过细粒度信号导致的高方差,或在状态重叠罕见时失效等问题。因此,我们引入了在线过程奖励学习 (OPRL),这是一种通用的智能体强化学习信用分配策略,它与标准在轨策略算法无缝集成,无需额外回溯或显式步骤标签。在 OPRL 中,我们通过基于轨迹的 DPO 目标,交替优化隐式过程奖励模型 (PRM) 和智能体策略,将轨迹偏好转换为隐式步骤奖励。这些步骤奖励随后被用于计算步骤级优势,并与来自结果奖励的回合级优势相结合以更新策略,从而形成一个自我强化的循环。理论研究结果保证所学到的步骤奖励与轨迹偏好一致,并作为基于势函数的塑形奖励,提供有界梯度以稳定训练。在实证方面,我们在三个不同的智能体基准上评估了 OPRL,包括 WebShop 和 VisualSokoban,以及 SOTOPIA 中具有不可验证奖励的开放式社交互动。至关重要的是,OPRL 在各个领域都表现出优于前沿大型语言模型和强大的强化学习基线模型的性能,以更高的样本效率和更低的训练方差实现了最先进的结果。进一步分析还表明,OPRL 使用更少的动作实现了高效探索,这突显了其在现实世界场景中进行智能体学习的潜力。 |
| 2025-09-23 | Soft Tokens, Hard Truths | link | 在推理大型语言模型(LLMs)的思维链(CoT)阶段使用连续而非离散的token近来受到关注,其直觉是离散token的连续混合可以同时模拟多个推理路径的叠加。理论结果已正式证明连续token具有更强的表达能力,并能更高效地解决特定问题。然而,连续token的实际应用受限于强大的训练难度:之前的工作要么仅在推理时将连续token应用于预训练的离散token模型,要么必须从真实离散CoT中蒸馏出连续CoT,并面临计算成本,使得CoT仅限于极少数token。这是首次引入一种可扩展方法,通过强化学习(RL)来学习连续CoT,无需从参考离散CoT中进行蒸馏。我们使用“软”token:token的混合以及输入嵌入上的噪声,以提供RL探索。计算开销最小,使我们能够学习包含数百个token的连续CoT。在高达8B参数的Llama和Qwen模型上的数学推理基准测试中,使用连续CoT进行训练,在pass@1指标上与离散token CoT持平,并在pass@32指标上超越它们,表明CoT的多样性更强。在系统比较中,表现最佳的场景是使用连续CoT token进行训练,然后在推理时使用离散token,这意味着“软”模型可以以标准方式部署。最后,我们展示了连续CoT强化学习训练能更好地保留基础模型在域外任务上的预测,从而为基础模型提供了更温和的干预。 |
| 2025-09-23 | PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generatio | null | 强化学习 (RL) 正越来越多地被用于增强大语言模型 (LLM) 的推理能力。然而,有效扩展这些RL方法面临显著挑战,这主要是因为在不生成损害常见RL算法的陈旧离策略数据的前提下,难以维持高AI加速器利用率。本文介绍了一种名为PipelineRL的方法,旨在为LLM训练实现硬件效率和数据在策略性之间的卓越权衡。PipelineRL采用并发异步数据生成和模型训练,其特点是新颖的飞行中权重更新。这种机制允许LLM生成引擎在生成token序列期间以最小中断接收更新的模型权重,从而最大化加速器利用率和训练数据的新鲜度。使用128个H100 GPU在长文本推理任务上进行的实验表明,与传统RL基线相比,PipelineRL实现了大约2倍的学习速度提升,同时保持了高度在策略的训练数据。作为一项关键贡献,PipelineRL的一个可扩展且模块化的开源实现也已发布。 |
| 2025-09-23 | DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment | link | 人类反馈强化学习(RLHF)对于使大语言模型(LLM)与人类意图对齐至关重要。然而,现有离线RLHF方法存在过度优化问题,即模型对奖励误设定过拟合,并偏离训练中观察到的偏好行为。我们引入了DRO-REBEL,这是一个统一的鲁棒REBEL更新族,包含 $p$型Wasserstein、KL和$\chi^2$模糊集。利用Fenchel对偶性,每个更新都简化为简单的相对奖励回归,从而保持可扩展性并避免PPO风格的裁剪或辅助价值网络。在标准线性奖励和对数线性策略类以及数据覆盖条件下,我们建立了$O(n^{-1/4})$的估计界限,其常数比先前的DRO-DPO方法更紧密,并通过局部Rademacher复杂度分析恢复了极小极大最优的$O(n^{-1/2})$速率。同样的分析弥补了Wasserstein-DPO和KL-DPO的差距,表明两者也达到了最优参数速率。我们为所有三种散度推导了实用的SGD算法:梯度正则化(Wasserstein)、重要性采样(KL)和快速一维对偶求解($\chi^2$)。在情感对齐、大规模ArmoRM多目标基准和HH对齐上的实验证明了在未见偏好混合、模型规模和数据规模下强大的最坏情况鲁棒性,其中$\chi^2$-REBEL持续显示出强大的经验性能。一项受控的半径-覆盖率研究验证了“没有免费午餐”的权衡:比经验散度集中速率收缩更快的半径能够达到极小极大最优参数速率但牺牲了覆盖率,而保证覆盖率的半径则会导致$O(n^{-1/4})$ 的速率。 |
| 2025-09-23 | Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards | link | 思维链推理在大语言模型中取得了显著成功,但其在视觉-语言推理中的应用仍然是一个开放性挑战,且最佳实践尚不明确。现有尝试通常采用粗粒度推理链,这难以执行细粒度结构化推理,更重要的是,难以评估中间推理的奖励和质量。在这项工作中,我们深入研究了视觉-语言模型的步骤链推理,从而能够精确评估推理步骤质量,并利用细粒度奖励实现有效的强化学习和推理时扩展。我们提出了一个简单、有效且完全透明的框架,包括步骤级推理数据、过程奖励模型(PRM)和强化学习训练。凭借所提出的方法,我们的模型在具有挑战性的视觉-语言基准上建立了强大的基线,并取得了持续改进。更重要的是,我们进行了彻底的实证分析和消融研究,揭示了每个组件的影响以及推理时扩展的一些有趣特性。我们相信本文可作为视觉-语言模型的基线,并为更复杂的多模态推理提供见解。我们的数据集、PRM和代码将可在https://github.com/baaivision/CoS获取。 |
| 2025-09-23 | Conf-Profile: A Confidence-Driven Reasoning Paradigm for Label-Free User Profiling | null | 用户画像作为用户理解的核心技术,旨在从用户信息中推断结构化属性。大语言模型(LLMs)为用户画像提供了有前景的途径,然而,进展受到缺乏全面基准的阻碍。为了弥补这一空白,我们提出了ProfileBench,这是一个源自真实世界视频平台的工业基准,它包含异构用户数据和结构良好的画像分类体系。然而,由于难以收集大规模真实标签,以及异构且嘈杂的用户信息可能会损害LLMs的可靠性,画像任务仍然具有挑战性。为了实现无标签且可靠的用户画像,我们提出了一个置信度驱动的画像推理框架Conf-Profile,它采用两阶段范式。我们首先利用带有置信度提示的先进LLMs合成高质量标签,接着通过置信度加权投票提高准确性,并通过置信度校准实现平衡分布。多个画像结果、理由和置信度分数被聚合并蒸馏到一个轻量级LLM中。我们通过置信度引导的无监督强化学习进一步增强了推理能力,该学习利用置信度进行难度过滤、准真实标签投票和奖励加权。实验结果表明,Conf-Profile通过两阶段训练提供了显著的性能,在Qwen3-8B上将F1提高了13.97。 |
| 2025-09-23 | NGRPO: Negative-enhanced Group Relative Policy Optimization | null | RLVR增强了大语言模型(LLMs)在各种任务中的推理能力。然而,作为一种代表性的RLVR算法,GRPO存在一个关键局限:当一个组内的所有响应要么完全正确,要么完全不正确时,模型无法从这些同质响应中学习。这对于同质不正确组尤其成问题,因为GRPO的优势函数会产生零值,导致零梯度并丢失有价值的学习信号。为了克服这个问题,我们提出了NGRPO(负增强组相对策略优化),这是一种旨在将同质错误转化为鲁棒学习信号的算法。首先,NGRPO引入了优势校准。该机制假设在优势计算过程中存在一个虚拟的最大奖励样本,从而改变组内奖励的均值和方差,并确保同质不正确样本的优势不再为零。其次,NGRPO采用了非对称裁剪,该方法放宽了对正样本的更新幅度,同时对负样本施加了更严格的约束。这有助于稳定由优势校准引入的探索压力。我们在Qwen2.5-Math-7B上的实验表明,NGRPO在MATH500、AMC23和AIME2025等数学基准测试中显著优于PPO、GRPO、DAPO和PSR-NSR等基线方法。这些结果验证了NGRPO从同质错误中学习的能力,从而在数学推理方面带来稳定且显著的改进。我们的代码可在https://github.com/nangongrui-ngr/NGRPO获取。 |
| 2025-09-23 | MAPO: Mixed Advantage Policy Optimization | link | 针对基础模型的强化学习(例如组相对策略优化GRPO)的最新进展,显著提升了基础模型在推理任务上的性能。值得注意的是,优势函数在GRPO中作为对轨迹重要性进行排序的核心机制。然而,现有探索遇到了优势反转和优势镜像问题,这阻碍了在不同查询样本之间进行合理的优势分配。在这项工作中,我们提出了一种简单但有效的GRPO策略:混合优势策略优化 (MAPO)。我们揭示了轨迹以不同的确定性出现,并针对高确定性轨迹的样本提出了优势百分比偏差。此外,我们动态地重新加权具有不同轨迹确定性的样本的优势函数,从而自适应地配置优势函数以考虑样本特有特性。与相关最先进方法的比较,以及针对不同优势变体的消融研究,验证了我们方法的有效性。 |
| 2025-09-23 | Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions | null | 工具增强型大型语言模型(LLM)通常通过监督模仿学习或优化单次工具调用的粗粒度强化学习进行训练。当前的自我反思实践依赖于启发式提示或单向推理:模型被敦促“多思考”,而不是学习错误诊断和修复。这在多轮交互中是脆弱的;在失败后,模型往往会重复相同的错误。我们提出了结构化反思,它将从错误到修复的路径转化为一个显式、可控且可训练的动作。智能体生成一个简短而精确的反思:它利用前一步的证据诊断故障,然后提出一个正确且可执行的后续调用。为了进行训练,我们将DAPO和GSPO目标与针对工具使用定制的奖励机制相结合,优化“反思-调用-结束”的逐步策略。为了评估,我们引入了Tool-Reflection-Bench,这是一个轻量级基准,它通过编程方式检查结构有效性、可执行性、参数正确性和结果一致性。任务被构建为错误调用、反思和纠正调用的微型轨迹,具有不相交的训练集和测试集划分。在BFCL v3和Tool-Reflection-Bench上的实验表明,多轮工具调用成功率和错误恢复能力显著提高,并且冗余调用减少。这些结果表明,使反思显式化并直接优化它,可以提高工具交互的可靠性,并为智能体从失败中学习提供了可复现的路径。 |
| 2025-09-19 | Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning | null | 设计有效的奖励函数仍然是强化学习(RL)中的一个主要挑战,通常需要大量人类专业知识和迭代优化。最近的进展利用大语言模型(LLMs)进行自动化奖励设计,但这些方法受限于幻觉、对人类反馈的依赖以及处理复杂多步骤任务的挑战。在这项工作中,我们引入了基于思绪图的奖励演化(RE-GoT),这是一个新颖的双层框架,它通过结构化图基推理增强LLMs,并集成视觉语言模型(VLMs)以进行自动化轨迹评估。RE-GoT首先将任务分解为文本属性图,从而实现全面分析和奖励函数生成,然后利用来自VLMs的视觉反馈迭代优化奖励,无需人工干预。在10个RoboGen任务和4个ManiSkill2任务上进行的大量实验表明,RE-GoT持续优于现有的基于LLM的基线。在RoboGen上,我们的方法将平均任务成功率提高了32.25%,在复杂多步骤任务上取得了显著提升。在ManiSkill2上,RE-GoT在四个多样化操作任务中实现了93.73%的平均成功率,显著超越了先前的基于LLM的方法,甚至超过了专家设计的奖励。我们的结果表明,将LLMs和VLMs与思绪图推理相结合,为RL中的自主奖励演化提供了一种可扩展且有效的解决方案。 |
| 2025-09-19 | BaseReward: A Strong Baseline for Multimodal Reward Model | null | 多模态大语言模型(MLLMs)的快速发展使得使其与人类偏好对齐成为一个严峻挑战。奖励模型(RMs)是实现此目标的核心技术,然而,目前学术界和工业界都缺乏构建最先进多模态奖励模型(MRMs)的系统性指南。本文旨在通过详尽的实验分析,为构建高性能MRMs提供一个清晰的“秘籍”。我们系统性地研究了MRM开发流程中的每个关键组成部分,包括奖励建模范式(例如,朴素-RM、基于评论员的RM和生成式RM)、奖励头架构、训练策略、数据筛选(涵盖十余个多模态和纯文本偏好数据集)、主干模型和模型规模以及集成方法。基于这些实验见解,我们引入了BaseReward,一个强大而高效的多模态奖励建模基线。BaseReward采用了一种简单而有效的架构,它建立在Qwen2.5-VL主干之上,具有优化的两层奖励头,并在一组精心筛选的高质量多模态和纯文本偏好数据混合上进行训练。我们的结果表明,BaseReward在MM-RLHF-奖励基准、VL-奖励基准和多模态奖励基准等主要基准上建立了新的SOTA,优于以往模型。此外,为了验证其超越静态基准的实际效用,我们将BaseReward集成到一个真实的强化学习流程中,成功提升了MLLM在各种感知、推理和对话任务中的性能。这项工作不仅交付了一个顶级的MRM,更重要的是,为社区提供了一个清晰、有经验支持的指南,用于开发下一代MLLMs的稳健奖励模型。 |
| 2025-09-19 | Rethinking Molecule Synthesizability with Chain-of-Reaction | null | 分子生成模型的一个众所周知的不足是它们不能保证生成可合成的分子。尽管已为此问题进行了大量尝试,但鉴于可合成分子指数级大的组合空间,现有方法在空间覆盖率和分子优化性能方面表现不佳。为解决这些问题,我们引入了ReaSyn,这是一个用于可合成投影的生成框架,模型通过生成能产生可合成类似物的路径,来探索给定分子在可合成空间中的邻域。为了充分利用合成路径中包含的化学知识,我们提出了一种新颖的视角,将合成路径类比于大语言模型(LLM)中的推理路径。具体而言,受LLM中思维链(CoT)推理的启发,我们引入了反应链(CoR)表示法,该表示法明确说明了路径中每一步的反应物、反应类型和中间产物。借助CoR表示法,ReaSyn可以在每个反应步骤中获得密集监督,从而在监督训练期间明确学习化学反应规则并执行逐步推理。此外,为了进一步增强ReaSyn的推理能力,我们提出了基于强化学习(RL)的微调和专为可合成投影定制的目标导向测试时计算扩展。ReaSyn在可合成分子重建中实现了最高的重建率和路径多样性,在可合成目标导向分子优化中实现了最高的优化性能,并在可合成命中扩展方面显著优于先前的可合成投影方法。这些结果突出了ReaSyn在探索组合学上巨大的可合成化学空间方面的卓越能力。 |
| 2025-09-19 | AI Methods for Permutation Circuit Synthesis Across Generic Topologies | null | 本文研究了用于在通用拓扑结构上合成和转译置换电路的人工智能 (AI) 方法。我们的方法采用强化学习 (RL) 技术,实现了多达 25 量子比特置换电路的近乎最优合成。我们没有为单个拓扑结构开发专用模型,而是在通用矩形格子上训练了一个基础模型,并采用掩码机制在合成过程中动态选择拓扑结构的子集。这使得置换电路能够在任何可嵌入矩形格子的拓扑结构上进行合成,而无需重新训练模型。本文展示了 5x5 格子的结果,并将其与之前面向拓扑的AI模型和经典方法进行比较,结果表明它们优于经典启发式方法,与之前的专用AI模型性能相当,甚至能够对训练中未见过的拓扑结构进行合成。我们进一步表明,该模型可以通过微调来增强对特定感兴趣拓扑结构的性能。这种方法使得单一训练模型能够高效地在不同拓扑结构上合成电路,从而使其能够实际集成到转译工作流程中。 |
| 2025-09-19 | Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search | null | 自动出价是广告主提升广告效果的重要工具。最新进展表明,AI生成式出价 (AIGB) 将自动出价建模为轨迹生成任务,并在离线数据上训练基于条件扩散模型的规划器,相比于典型的基于离线强化学习 (RL) 的自动出价方法,取得了卓越且稳定的性能。然而,现有的AIGB方法由于忽视了细粒度的生成质量评估以及无法探索静态数据集之外的内容,仍然面临性能瓶颈。为解决此问题,我们提出了AIGB-Pearl (意为通过RL进行评估器引导的规划),这是一种融合了生成式规划和策略优化的新颖方法。AIGB-Pearl的关键在于构建一个非自举的轨迹评估器,用于分配奖励并指导策略搜索,从而使规划器能够通过交互迭代地优化其生成质量。此外,为提升离线设置中轨迹评估器的准确性,我们引入了三项关键技术:(i) 基于大语言模型 (LLM) 的架构以获得更好的表示能力,(ii) 混合点式和对式损失以获得更好的分数学习,以及 (iii) 专家反馈的自适应集成以获得更好的泛化能力。在模拟和真实世界的广告系统上进行的大量实验证明了我们方法的最先进性能。 |
| 2025-09-19 | Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds | null | 尽管从零开始的强化学习在利用高效模拟器解决序列决策任务方面取得了令人瞩目的成果,但现实世界中交互成本高昂的应用需要更具样本效率的智能体。基础模型(FM)因其广泛的知识和推理能力,自然成为提高样本效率的候选者,但目前尚不清楚如何有效地将它们整合到强化学习框架中。在本文中,我们预测并(最重要的是)评估了两种有前景的策略。首先,我们考虑使用基础世界模型(FWM),它们利用FM的先验知识,从而能够通过模拟交互来训练和评估智能体。其次,我们考虑使用基础智能体(FA),它们利用FM的推理能力进行决策。我们在一系列适合当前一代大型语言模型(LLM)的网格世界环境中凭经验评估了这两种方法。我们的结果表明,LLM的改进已经转化为更好的FWM和FA;基于当前LLM的FA已经能够为足够简单的环境提供优秀的策略;并且FWM与强化学习智能体的结合对于具有部分可观察性和随机元素的更复杂环境非常有前景。 |
| 2025-09-19 | CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair | null | C++编译错误的自动化修复是一个重大挑战,其解决对于提高开发者生产力至关重要。该领域的进展受两个主要因素的限制:大规模、高保真数据集的稀缺性,以及传统监督方法的局限性,这些方法往往无法生成语义正确的补丁。本文通过引入一个具有三个核心贡献的综合框架来解决这些空白。首先,我们提出了CCrepair,这是一个通过精密生成与验证流程构建的新颖、大规模C++编译错误数据集。其次,我们提出了一种由混合奖励信号引导的强化学习(RL)范式,将重点从仅仅是可编译性转移到修复的语义质量。最后,我们建立了一个提供此信号的鲁棒两阶段评估系统,其核心是一个“LLM作为判官”的模型,该模型的可靠性已根据人类专家小组的集体判断进行了严格验证。这种集成方法使训练目标与生成高质量、非平凡且语法和语义都正确的补丁相一致。我们的方法通过实验证明了其有效性。我们经过RL训练的Qwen2.5-1.5B-Instruct模型达到了与Qwen2.5-14B-Instruct模型相当的性能,验证了我们训练范式的效率。我们的工作为研究社区提供了一个有价值的新数据集和一种更有效的训练与评估鲁棒编译修复模型的范式,为开发更实用和可靠的自动化编程助手铺平了道路。 |
| 2025-09-19 | PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models | null | 基于偏好的强化学习 (PbRL) 已成为一种无需奖励工程即可教会机器人复杂行为的有前景的范式。然而,其有效性常受限于两个关键挑战:对大量人类输入的依赖以及在奖励学习过程中解决查询歧义和信用分配的固有困难。本文引入 PRIMT,一个旨在通过利用基础模型 (FMs) 进行多模态合成反馈和轨迹合成来克服这些挑战的 PbRL 框架。与以往依赖单模态基础模型评估的方法不同,PRIMT 采用一种分层神经符号融合策略,整合了大语言模型和视觉语言模型在评估机器人行为方面的互补优势,以获得更可靠、更全面的反馈。PRIMT 还结合了预见性轨迹生成,通过用引导样本预热轨迹缓冲区来减少早期查询歧义;以及回溯性轨迹增强,它结合因果辅助损失实现了反事实推理,以改进信用分配。我们在各种基准上对 PRIMT 进行了 2 个运动任务和 6 个操作任务的评估,证明了其性能优于基于基础模型和脚本的基线。 |
| 2025-09-19 | BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent | null | 在AI驱动的人机图形界面交互自动化领域,尽管多模态大语言模型和强化微调技术的快速发展取得了显著进步,但一个根本挑战依然存在:它们的交互逻辑显著偏离了自然的人机图形界面通信模式。为了弥补这一空白,我们提出了“闪视-思考-连接”(Blink-Think-Link,简称BTL)框架,这是一个受大脑启发的、模仿用户与图形界面之间人类认知过程的人机图形界面交互框架。该系统将交互分解为三个生物学上合理的阶段:(1)闪视(Blink)——快速检测并关注相关屏幕区域,类似于眼跳运动;(2)思考(Think)——高级推理和决策,映射认知规划;(3)连接(Link)——生成用于精确运动控制的可执行命令,模拟人类的行动选择机制。此外,我们为BTL框架引入了两项关键技术创新:(1)闪视数据生成(Blink Data Generation)——一个专门为闪视数据优化的自动化标注流程,以及(2)BTL奖励(BTL Reward)——首个基于规则的奖励机制,能够驱动由过程和结果共同决定的强化学习。基于此框架,我们开发了一个名为BTL-UI的图形界面智能体模型,该模型在综合基准测试中,于静态GUI理解和动态交互任务中均展示了持续的最先进性能。这些结果为该框架在开发高级GUI智能体方面的有效性提供了确凿的经验验证。 |
| 2025-09-19 | Reward Hacking Mitigation using Verifiable Composite Rewards | link | 可验证奖励强化学习(RLVR)最近表明,大型语言模型(LLMs)无需直接监督即可发展出自己的推理能力。然而,在医疗领域的应用,特别是问答任务中,推理阶段容易受到严重的奖励欺骗。我们的工作解决了这种行为的两种主要形式:一是提供最终答案而无前置推理,二是采用非标准推理格式来利用奖励机制。为了缓解这些问题,我们引入了一种复合奖励函数,对这些行为施加了特定的惩罚。我们的实验表明,将RLVR与我们提出的奖励模型结合,能够产生格式更规范的推理,减少了奖励欺骗,并与基线相比具有良好的准确性。这种方法标志着向减少奖励欺骗和增强利用RLVR的模型的可靠性迈进了一步。 |
| 2025-09-18 | Generalizable Geometric Image Caption Synthesis | null | 多模态大语言模型拥有各种要求强大推理能力的实际应用。尽管最近取得了进展,这些模型在解决复杂几何问题方面仍然面临挑战。一个关键挑战源于缺乏用于理解几何图像的高质量图像-文本对数据集。此外,大多数基于模板的数据合成管道通常无法泛化到超出其预定义模板的问题。在本文中,我们通过将可验证奖励强化学习 (RLVR) 这一互补过程引入数据生成管道来弥补这一空白。通过采用RLVR来细化从50种基本几何关系合成的几何图像的描述,并利用源自数学问题解决任务的奖励信号,我们的管道成功捕捉了几何问题解决的关键特征。这使得任务泛化能力得到提升,并带来了显著改进。此外,即使在分布外场景中,所生成的数据集也增强了多模态大语言模型的通用推理能力,在MathVista和MathVerse数据集中针对非几何输入图像的统计、算术、代数和数值任务中,准确率提高了2.8%-4.8%,同时在MMMU的艺术、设计、技术和工程任务中也实现了2.4%-3.9%的改进。 |
| 2025-09-18 | FlowRL: Matching Reward Distributions for LLM Reasoning | null | 我们提出FlowRL:在大语言模型(LLM)强化学习(RL)中,通过流平衡来匹配完整的奖励分布,而非最大化奖励。近期的先进推理模型采用奖励最大化方法(例如,PPO和GRPO),这些方法倾向于过度优化主导奖励信号,同时忽视不那么频繁但有效的推理路径,从而降低了多样性。相比之下,我们将标量奖励转换为使用可学习配分函数的归一化目标分布,然后最小化策略与目标分布之间的逆KL散度。我们将这一思想实现为一种流平衡优化方法,该方法促进多样化探索和可泛化的推理轨迹。我们在数学和代码推理任务上进行了实验:FlowRL在数学基准测试中,相较于GRPO平均实现了10.0%的显著提升,相较于PPO平均实现了5.1%的显著提升,并在代码推理任务上表现持续更好。这些结果突出表明,奖励分布匹配是迈向LLM强化学习中高效探索和多样化推理的关键一步。 |
| 2025-09-18 | Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation | link | 大型语言模型(LLM)正越来越多地通过基于可验证奖励的强化学习(RLVR)进行训练,然而,实际部署需要模型能够在没有标签或外部评判的情况下进行自我改进。现有的无标签方法,如置信度最小化、自我一致性或多数投票目标,能稳定学习但会逐渐减少探索,导致熵坍塌:生成内容变得更短、多样性降低且脆弱。与先前方法(例如测试时强化学习(TTRL),其主要使模型适应当前的无标签数据集)不同,我们的目标更广阔:在不牺牲模型固有的探索能力和泛化能力(即进化)的情况下实现普遍改进。我们形式化了这个问题,并提出了面向进化的无标签强化学习(EVOL-RL),它是一种在无标签设置下将稳定性与变异性相结合的简单规则。EVOL-RL将多数投票答案作为稳定锚点(选择),同时添加了新颖性感知奖励,该奖励偏好推理与已生成内容不同(变异)的响应,并在语义空间中进行衡量。EVOL-RL使用GRPO实现,还利用非对称裁剪来保留强信号和熵正则化器来维持探索。这种多数选择+新颖变异的设计可以防止坍塌,保持更长、信息量更大的思维链,并提高pass@1和pass@n。EVOL-RL持续优于仅基于多数投票的TTRL基线;例如,在无标签AIME24上训练,将Qwen3-4B-Base模型在AIME25上的pass@1从TTRL的4.6%提升到16.4%,pass@16从18.5%提升到37.9%。EVOL-RL不仅防止了多样性坍塌,还实现了更强的跨领域泛化能力(例如,GPQA)。此外,我们证明EVOL-RL在RLVR设置中也能提升性能,突显了其广泛适用性。 |
| 2025-09-18 | Self-Improving Embodied Foundation Models | link | 基于海量网络数据训练的基础模型彻底改变了机器人技术,但其在低级控制中的应用仍主要局限于行为克隆。借鉴大型语言模型微调中强化学习阶段的成功经验,我们提出了一种用于机器人的两阶段后训练方法。第一阶段为监督微调(SFT),它利用行为克隆和剩余步数预测目标来微调预训练的基础模型。在第二阶段,即自我改进阶段,剩余步数预测使得能够提取形态良好的奖励函数和鲁棒的成功检测器,从而使机器人集群能够在最少人工监督下自主练习下游任务。通过在真实世界和模拟机器人实体上进行的大量实验,我们新颖的后训练方案在具身基础模型上取得了显著成果。首先,我们证明了SFT和自我改进的结合比扩展监督学习的模仿数据收集效率显著更高,并能带来成功率显著提升的策略。进一步的消融实验强调,海量网络预训练和自我改进的结合是实现这种样本效率的关键。其次,我们证明了我们提出的组合独特地解锁了一种当前方法无法实现的能力:自主练习和获取新技能,这些技能的泛化能力远超训练中使用的模仿学习数据集中观察到的行为。这些发现突出了将预训练基础模型与在线自我改进相结合,以实现在机器人技术中自主技能获取的变革性潜力。我们的项目网站可在 https://self-improving-efms.github.io 找到。 |
| 2025-09-18 | Stochastic Bilevel Optimization with Heavy-Tailed Noise | null | 本论文研究了平滑双层优化问题,其中下层问题是强凸的,上层问题可能为非凸。我们关注随机设置,即算法可以访问带有重尾噪声的无偏随机梯度评估,这在许多机器学习应用中普遍存在,例如训练大型语言模型和强化学习。我们提出了一种嵌套循环归一化随机双层近似(N $^2$SBA)算法,用于找到一个$\epsilon$-驻点,其随机一阶预言机(SFO)复杂度为$\tilde{\mathcal{O}}\big(\kappa^{\frac{7p-3}{p-1}} \sigma^{\frac{p}{p-1}} \epsilon^{-\frac{4 p - 2}{p-1}}\big)$,其中$\kappa$是条件数,$p\in(1,2]$是噪声中心矩的阶数,$\sigma$是噪声水平。此外,我们将我们的思想专门应用于求解非凸-强凹极小极大优化问题,实现了$\epsilon$-驻点,其SFO复杂度为$\tilde{\mathcal O}\big(\kappa^{\frac{2p-1}{p-1}} \sigma^{\frac{p}{p-1}} \epsilon^{-\frac{3p-2}{p-1}}\big)$。上述所有上限在有界方差设置的特殊情况(即$p=2$ )下均与已知最佳结果相匹配。 |
| 2025-09-18 | Empathy-R1: A Chain-of-Empathy and Reinforcement Learning Framework for Long-Form Mental Health Support | null | 同理心对于有效的心理健康支持至关重要,尤其是在处理长篇咨询文本(LCTs)时。然而,现有的大型语言模型(LLMs)通常生成的回复在语义上很流畅,但缺乏真正心理支持所需的结构化推理能力,尤其是在中文语境下。为了弥合这一鸿沟,我们引入了Empathy-R1,这是一个新颖的框架,它将同理心链(CoE)推理过程与强化学习(RL)相结合,以提升LCTs的回复质量。受认知行为疗法的启发,我们的CoE范式引导模型顺序推理求助者的情绪、原因和意图,使其思维过程既透明又可解释。我们的框架得益于一个新的大规模中文数据集Empathy-QA和两阶段训练过程。首先,监督微调灌输了CoE的推理结构。随后,在专用奖励模型的指导下,强化学习优化了最终回复的治疗相关性和上下文适宜性。实验表明,Empathy-R1在关键自动指标上取得了强大性能。更重要的是,人工评估证实了其优越性,显示出对强大基线的明显偏好,并在我们的新基准上实现了44.30%的Win@1比率。通过实现可解释且上下文细致入微的回复,Empathy-R1代表了在开发负责任且真正有益于心理健康支持的人工智能方面的一项重大进展。 |
| 2025-09-18 | ToolSample: Dual Dynamic Sampling Methods with Curriculum Learning for RL-based Tool Learning | null | 虽然强化学习(RL)越来越多地用于基于LLM的工具学习,但其效率常受到过多的简单样本的阻碍,这些样本随着训练的进行提供的学习价值逐渐递减。现有的动态采样技术不适用于工具学习固有的多任务结构和细粒度奖励机制。本文提出了带有课程学习的动态采样(DSCL)框架,该框架专门设计用于解决这一挑战,通过针对工具学习的独特特点:其多个相互依赖的子任务和多值奖励函数。DSCL包含两个核心组件:基于奖励的动态采样,它利用多维奖励统计数据(均值和方差)来优先处理有价值的数据;以及基于任务的动态课程学习,它自适应地将训练重点放在掌握程度较低的子任务上。通过广泛的实验,我们证明DSCL相较于强大的基线方法显著提升了训练效率和模型性能,在BFCLv3基准上取得了3.29%的提升。我们的方法提供了一种定制的解决方案,有效利用了工具学习中复杂的奖励信号和子任务动态,以取得卓越的成果。 |
| 2025-09-18 | RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning | null | 日志构成了表明软件系统运行状态的一种证据形式。自动化日志异常检测对于确保现代软件系统的可靠性至关重要。然而,现有方法面临显著局限性:传统深度学习模型缺乏可解释性和泛化能力,而利用大型语言模型的方法常常因不可靠性和事实不准确性而受阻。为解决这些问题,我们提出了RationAnomaly,一个新颖的框架,它通过协同思维链(CoT)微调与强化学习来增强日志异常检测。我们的方法首先使用CoT引导的监督微调灌输专家级的推理模式,该微调基于通过严格的专家驱动过程校正的高质量数据集。随后,一个采用多方面奖励函数的强化学习阶段优化了准确性和逻辑一致性,有效缓解了幻觉现象。实验结果表明,RationAnomaly优于最先进的基线,在关键基准测试中实现了更高的F1分数,同时提供透明、分步的分析输出。我们已发布相应的资源,包括代码和数据集。 |
| 2025-09-18 | LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning | null | 多智能体强化学习(MARL)在复杂环境中的智能决策方面具有巨大的潜力。然而,随着智能体数量的增加,它面临着协调性和可扩展性瓶颈。为了解决这些问题,我们提出了用于多智能体强化学习的基于大型语言模型赋能的专家演示框架(LEED)。LEED由两个组件组成:一个演示生成(DG)模块和一个策略优化(PO)模块。具体而言,DG模块利用大型语言模型生成与环境交互的指令,从而产生高质量的演示。PO模块采用去中心化训练范式,其中每个智能体利用生成的演示来构建专家策略损失,并将其与自身的策略损失相结合。这使得每个智能体能够基于专家知识和个体经验有效地个性化和优化其局部策略。实验结果表明,与最先进的基线相比,LEED在样本效率、时间效率和鲁棒的可扩展性方面表现出卓越的性能。 |
| 2025-09-17 | Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents | null | 有效的交互式工具使用要求智能体掌握工具集成推理(TIR):这是一个涉及多轮规划和长上下文对话管理的复杂过程。为了训练智能体应对这一动态过程,特别是在多模态场景中,我们引入了一个支持交错语音-文本推演的强化学习(RL)沙盒环境。我们的核心策略,轮次级裁决强化学习(TARL),通过采用大型语言模型(LLM)作为评判者提供轮次级评估,解决了长周期任务中信用分配的挑战。为了增强探索,我们将混合任务训练课程与数学推理问题相结合。这种统一方法使基于文本的 $\tau$ -bench 上的任务通过率比强大的强化学习基线提高了6%以上。关键的是,我们展示了我们的框架适用于为智能体任务微调多模态基础模型。通过在交错语音-文本推演上训练基础多模态LLM,我们赋予其工具使用能力,为更自然、语音驱动的交互式智能体铺平了道路。 |
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-26 | Agentsway – Software Development Methodology for AI Agents-based Teams | null | 智能体AI的兴起正在从根本上改变软件的设计、开发和维护方式。敏捷、看板、ShapeUp等传统软件开发方法论最初是为以人为中心的团队设计的,在自主AI智能体参与规划、编码、测试和持续学习的环境中越来越显得不足。为解决这一方法论上的空白,我们提出了“Agentsway”——一种新颖的软件开发框架,专为AI智能体作为一流协作者运行的生态系统而设计。Agentsway引入了一个结构化的生命周期,该生命周期以人类编排为中心,并实现了专业AI智能体之间的隐私保护协作。该框架定义了规划、提示、编码、测试和微调智能体的不同角色,每个角色都在整个开发过程中为迭代改进和自适应学习做出贡献。通过整合微调的大型语言模型(LLMs),利用来自不同智能体在整个开发周期中的输出和反馈作为回顾性学习过程的一部分,Agentsway增强了整个软件开发生命周期中的领域特定推理和可解释决策制定能力。负责任的AI原则通过协调使用多个微调的LLMs和高级推理模型进一步嵌入到智能体中,确保了平衡、透明和负责任的决策。这项工作通过形式化以智能体为中心的协作、整合设计即隐私原则以及定义可衡量的生产力和信任指标,推动了软件工程的发展。Agentsway代表着迈向下一代AI原生、自改进软件开发方法论的基础性一步。据我们所知,这是首个明确为基于AI智能体的软件工程团队引入专门方法论的研究工作。 |
| 2025-10-27 | ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models | null | 大规模音频语言模型(LALMs)将音频感知与大语言模型(LLMs)相结合,以从音频中提取和理解多样化信息,引起了学术界和工业界的广泛关注。然而,现有LALMs对指令的措辞方式高度敏感,影响了(i)指令遵循率和(ii)任务性能。目前尚无现有基准能对这种敏感性进行系统而全面的评估。我们引入了ISA-Bench,这是一个动态基准,用于沿三个维度评估LALMs的指令敏感性:指令描述、输出格式和任务构成。我们使用ISA-Bench评估了最近的开源和专有LALMs,分析了在受控指令变化下的遵循度和准确性。实验结果表明,即使是最先进的LALMs也存在显著的指令敏感性,导致在基础音频理解任务上性能下降。为了缓解这个问题,我们在Qwen2-Audio上使用专门构建的复杂指令变体数据集进行了微调,在指令遵循性能方面取得了显著改进。然而,这也会引发不可忽略的灾难性遗忘:模型在面对新的指令风格时,会失去一些之前掌握的任务能力。我们的基准为评估和改进LALMs的指令敏感性提供了一个标准化的基础,强调了在实际应用流程中对指令鲁棒的音频理解的需求。 |
| 2025-10-27 | AQCat25: Unlocking spin-aware, high-fidelity machine learning potentials for heterogeneous catalysis | null | 大规模数据集使得高精度的机器学习原子间势(MLIPs)能够用于通用多相催化建模。然而,由于底层训练数据中的空白,这些势能所能处理的范围存在一些局限性。为了扩展这些能力,我们引入了AQCat25,一个包含1350万个密度泛函理论(DFT)单点计算的互补数据集,旨在改进对自旋极化和/或更高保真度至关重要的系统的处理。我们还探索了将AQCat25等新数据集与更广泛的Open Catalyst 2020 (OC20)数据集整合的方法,以创建自旋感知模型而不牺牲泛化能力。我们发现,直接在AQCat25上微调通用模型会导致对原始数据集知识的灾难性遗忘。相反地,联合训练策略被证明能有效提高新数据上的准确性,同时不牺牲通用性能。这种联合方法引入了一个挑战,因为模型必须从一个包含混合保真度计算和混合物理(自旋极化与非极化)的数据集中学习。我们表明,通过明确地利用系统特定的元数据对模型进行条件化,例如使用特征感知线性调制(FiLM),可以成功解决这一挑战并进一步提高模型准确性。最终,我们的工作建立了一个有效的协议,用于弥合DFT保真度领域,以提升催化领域基础模型的预测能力。 |
| 2025-10-28 | Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining | null | 持续学习(CL)对于使自演化大型语言模型(LLMs)在知识快速增长的情况下适应并保持有效性至关重要。然而,尽管其重要性,在CL下为LLMs建立统计可靠性保证,特别是在持续领域预训练(CDP)的背景下,却鲜有关注。保形预测(CP)在为LLMs提供正确性保证方面展现出前景,但它在CDP中面临主要挑战:测试数据通常源于未知或变化的领域分布,在此情况下,CP可能无法再提供有效保证。此外,当需要高覆盖率时,CP可能为无法回答的查询产生过大的预测集,从而降低了信息量。为解决这些挑战,我们引入了一个自适应拒绝和非可交换的保形预测框架。我们的方法首先使用基于Transformer的聚类估计测试集中跨领域问题的分布,然后相应地重新加权或重采样校准数据。在此基础上,自适应拒绝保形预测允许LLM在置信度或能力发生显著变化时选择性地拒绝回答。大量实验表明,我们的框架在CDP情景下增强了CP的有效性和可靠性。我们的代码可在以下网址获取:https://anonymous.4open.science/r/CPCL-8C12/ |
| 2025-10-26 | Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks | null | 本文提出了一种名为Sentra-Guard的实时模块化防御系统。该系统检测并缓解针对大型语言模型(LLM)的越狱和提示注入攻击。该框架采用混合架构,结合了FAISS索引的SBERT嵌入表示(用于捕获提示的语义含义)和微调的Transformer分类器(一种专门用于区分良性和对抗性语言输入的机器学习模型)。它能识别直接和混淆攻击向量中的对抗性提示。一项核心创新是分类器-检索器融合模块,该模块根据提示的内容和上下文动态计算上下文感知风险分数,以估计提示为对抗性的可能性。该框架通过语言无关预处理层确保多语言弹性,该组件自动将非英语提示翻译成英语进行语义评估,从而实现在100多种语言中的一致检测。该系统包含一个人在环路(HITL)反馈机制,其中自动化系统做出的决策由人类专家审查,以便在对抗压力下进行持续学习和快速适应。Sentra-Guard维护一个不断演进的良性和恶意提示双标签知识库,从而提高检测可靠性并减少误报。评估结果显示,其检测率高达99.96%(AUC = 1.00,F1 = 1.00),攻击成功率(ASR)仅为0.004%。这优于LlamaGuard-2(1.3%)和OpenAI Moderation(3.7%)等领先基线。与黑盒方法不同,Sentra-Guard是透明的、可微调的,并与各种LLM后端兼容。其模块化设计支持在商业和开源环境中的可扩展部署。该系统确立了对抗性LLM防御领域的新最先进水平。 |
| 2025-10-26 | OFFSIDE: Benchmarking Unlearning Misinformation in Multimodal Large Language Models | null | 多模态大语言模型(MLLM)的进展加剧了对数据隐私的担忧,使得机器遗忘(MU),即选择性地移除已学习的信息,成为一项至关重要的需求。然而,现有针对MLLM的MU基准受限于图像多样性不足、潜在的不准确性以及评估场景不充分,未能捕捉真实世界应用的复杂性。为了促进MLLM遗忘技术的发展并缓解上述局限性,我们引入了OFFSIDE,一个基于足球转会传闻的评估MLLM中错误信息遗忘的新型基准。这个手动整理的数据集包含80名球员的15.68K条记录,提供了一个全面的框架,包含四个测试集来评估遗忘效果、泛化能力、实用性和鲁棒性。OFFSIDE支持选择性遗忘和纠正性再学习等高级设置,更重要的是,还支持单模态遗忘(仅遗忘文本数据)。我们对多个基线的广泛评估揭示了关键发现:(1) 单模态方法(擦除基于文本的知识)在多模态传闻上失败;(2) 遗忘效果主要受灾难性遗忘驱动;(3) 所有方法都难以处理“视觉传闻”(传闻出现在图像中);(4) 已遗忘的传闻可以轻易被恢复;(5) 所有方法都容易受到提示攻击。这些结果揭示了当前方法的显著脆弱性,强调了对更鲁棒的多模态遗忘解决方案的需求。代码可在https://github.com/zh121800/OFFSIDE获取。 |
| 2025-10-23 | Preventing Catastrophic Forgetting: Behavior-Aware Sampling for Safer Language Model Fine-Tuning | null | 大语言模型在良性数据上进行微调时,通常会失去之前对齐的安全行为,这是一种被称为灾难性遗忘的现象。先前工作表明,添加随机安全示例可以缓解这种影响,但目前尚不清楚哪些示例最有效。我们提出了一种行为感知采样框架,该框架根据两个互补因素选择安全示例:指令-响应行为(例如,拒绝与服从)和跨危害类别的语义多样性。系统评估表明,这种方法显著减少了有害输出,同时保持了有用性,仅使用了0.5%的额外训练数据就实现了有害性降低高达41%。这些结果凸显了目标数据选择如何能够提高大规模微调的安全性与效率。 |
| 2025-10-24 | PLAN: Proactive Low-Rank Allocation for Continual Learning | null | 持续学习 (CL) 要求模型持续适应新任务,同时不遗忘过往知识。在这项工作中,我们提出了主动低秩分配 (PLAN),这是一个扩展了低秩适应 (LoRA) 的框架,旨在实现CL设置中大型预训练模型的高效且干扰感知的微调。PLAN通过为每个任务引入正交基向量,并采用一种基于扰动的策略对其进行优化,从而主动管理任务特定子空间的分配,该策略旨在最大程度地减少与先前学习参数的冲突。此外,PLAN还整合了一种新颖的选择机制,该机制识别并分配对干扰敏感度最小的基向量,从而降低了退化过往知识的风险,同时保持对新任务的有效适应。在标准CL基准上的实验结果表明,PLAN始终优于现有方法,为使用基础模型的持续学习建立了新的最先进水平。 |
| 2025-10-24 | Memory-Free Continual Learning with Null Space Adaptation for Zero-Shot Vision-Language Models | null | 预训练视觉-语言模型(VLMs),如CLIP,展现出卓越的零样本泛化能力,使其无需额外的任务特定训练即可部署到广泛的现实世界任务中。然而,在实际部署场景中,随着环境的变化或新类别的出现,这些模型不可避免地会面临分布偏移和新任务。在这种背景下,静态的零样本能力是不足的,并且对允许模型随着时间进行适应同时避免灾难性遗忘的持续学习方法的需求日益增长。我们引入了NuSA-CL(用于持续学习的零空间适应),这是一个旨在解决这一挑战的轻量级、无内存的持续学习框架。NuSA-CL采用低秩适应,并将任务特定的权重更新限制在模型当前参数的近似零空间内。这种策略最大限度地减少了对先前习得知识的干扰,有效地保留了原始模型的零样本能力。与依赖于重放缓冲区或昂贵蒸馏的方法不同,NuSA-CL施加了最小的计算和内存开销,使其在资源受限的现实世界持续学习环境中具有部署的实用性。实验表明,我们的框架不仅有效保留了零样本迁移能力,而且在持续学习基准上取得了极具竞争力的表现。这些结果将NuSA-CL定位为在现实世界应用中持续进化的零样本VLM的一种实用且可扩展的解决方案。 |
| 2025-10-23 | RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging | null | 我们揭示了大语言模型(LLM)的内部表征可作为所学知识的可靠代理,并提出了RECALL,一个新颖的、表征感知的模型合并框架,用于无需访问历史数据的持续学习。RECALL通过聚类的典型样本上的层级隐藏表征计算模型间相似性,并执行自适应的、分层的参数融合以对齐模型间的知识。这种设计使得在浅层中保留域通用特征,同时在深层中实现任务特定适应。与以往需要任务标签或带来性能权衡的方法不同,RECALL实现了无缝的多领域集成和强大的抗灾难性遗忘能力。跨越五个自然语言处理(NLP)任务和多个持续学习场景的大量实验表明,RECALL在知识保留和泛化方面均优于基线,为不断发展的大语言模型提供了一种可扩展且无需数据的解决方案。 |
| 2025-10-22 | LLM-Augmented Symbolic NLU System for More Reliable Continuous Causal Statement Interpretation | null | 尽管大语言模型(LLM)具有广泛的适用性,但它们对概率推理的依赖使其容易出现错误,例如生成事实中的幻觉以及自然语言理解(NLU)任务中输出结构的不一致。相比之下,符号NLU系统提供基于精心策划的词典、语义资源以及句法和语义解释规则的可解释理解,它们生成的关系表示可用于精确推理和规划,以及增量可调试学习。然而,符号NLU系统在覆盖范围上往往比LLM更受限,并且需要稀缺的知识表示和语言学技能才能扩展和维护。本文探索了一种混合方法,该方法将LLM的广泛覆盖语言处理与符号NLU生成结构化关系表示的能力相结合,以期兼具两种方法的优点。我们使用LLM进行复述和文本简化以提供广泛覆盖,并将其作为信息来源以更自动化地填补知识空白。我们使用符号NLU生成可用于推理和增量学习的表示。我们通过从常识科学文本中提取和解释数量及因果定律的任务,以及仅使用符号方法和仅使用LLM的管道来评估这种方法。我们的结果表明,我们的混合方法显著优于仅使用符号方法的管道。 |
| 2025-10-22 | GaLLoP: Gradient-based Sparse Learning on Low-Magnitude Parameters | null | 稀疏微调技术通过仅调整模型参数的稀疏子集,使大型语言模型(LLMs)适应下游任务。然而,稀疏适应的有效性取决于最优选择待微调的模型参数。在这项工作中,我们引入了一种新颖的稀疏微调技术,命名为GaLLoP:基于梯度的低幅度参数稀疏学习,它仅微调那些在下游任务上具有最大梯度幅度和最小预训练幅度的模型参数,直观上优先考虑那些与任务高度相关但对预训练知识干扰最小的参数。我们以LLaMA3 8B和Gemma 2B作为基础模型的实验表明,GaLLoP持续改进或媲美通过使用其他领先的参数高效微调技术(包括LoRA、DoRA和SAFT)获得的分布内以及分布外性能。我们的分析表明,GaLLoP减轻了灾难性遗忘和任务数据的记忆化,因为重要的预训练参数保持不变,并相对于其他微调技术稳定了性能,在大多数随机种子下均能稳健泛化。 |
| 2025-10-22 | Conditions for Catastrophic Forgetting in Multilingual Translation | null | 多语言基础模型在特定语言上进行微调时,通常会导致灾难性遗忘,从而降低模型在微调中未见语言上的性能。尽管这种现象已被广泛记录,但现有文献关于遗忘何时发生的结果却零散不一。为解决这种模糊性,我们以机器翻译作为试验平台,进行了一项系统的实证研究,旨在识别在多语言微调中触发灾难性遗忘的条件。通过针对不同模型架构、数据规模和微调方法的受控实验,我们发现模型与数据规模之间的相对比例是遗忘的主要决定因素。此外,我们证明模型的指令遵循能力对于保留多语言知识而言更为关键,而非其架构。与假设相反,参数高效微调在缓解遗忘方面并未比全量微调展现出明显的优势。最后,我们表明跨语言对齐可以缓解遗忘,同时促进对未见目标语言的正向迁移。 |
| 2025-10-22 | KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints | null | 大规模多模态模型在其预训练权重中编码了大量的事实知识。然而,其知识是静态且有限的,无法跟上现实世界的发展,这阻碍了持续的知识获取。因此,有效的知识注入变得至关重要,涉及两个目标:知识适应(注入新知识)和知识保留(保存旧知识)。现有方法往往难以学习新知识并遭受灾难性遗忘。为解决这一问题,我们提出了 KORE,一种知识导向的增强与约束的协同方法,用于将新知识注入大规模多模态模型同时保留旧知识。与一般的文本或图像数据增强不同,KORE 自动将单个知识项转化为结构化和全面的知识,以确保模型准确学习新知识,从而实现精确适应。同时,KORE 将先前的知识存储在 LMM 线性层激活的协方差矩阵中,并通过将原始权重投影到该矩阵的零空间来初始化适配器,定义了一个最小化对先前知识干扰的微调方向,从而实现了强大的保留能力。在包括 LLaVA-v1.5-7B、LLaVA-v1.5-13B 和 Qwen2.5-VL-7B 在内的各种大规模多模态模型上进行的广泛实验表明,KORE 实现了卓越的新知识注入性能并有效缓解了灾难性遗忘。 |
| 2025-10-21 | Prior-informed optimization of treatment recommendation via bandit algorithms trained on large language model-processed historical records | null | 当前医疗实践依赖于标准化的治疗框架和经验性方法,这些方法忽视了个体患者差异,从而导致次优的健康结果。我们开发了一个综合系统,该系统整合了大语言模型(LLMs)、条件表格生成对抗网络(CTGAN)、T-学习器反事实模型以及上下文多臂老虎机方法,以提供定制化的、数据驱动的临床建议。该方法利用LLMs将非结构化医疗叙述处理成结构化数据集(准确率达93.2%),使用CTGANs生成逼真的合成患者数据(通过双样本验证准确率为55%),部署T-学习器预测患者特定的治疗反应(准确率达84.3%),并整合了先验信息驱动的上下文多臂老虎机,通过有效平衡新可能性的探索与现有知识的利用来增强在线治疗选择。在III期结肠癌数据集上的测试表明,我们的KernelUCB方法在5,000轮中获得了0.60-0.61的平均奖励分数,超越了其他参考方法。这个综合系统克服了在线学习环境中的冷启动限制,提高了计算效率,并构成了迈向适应特定患者特征的个性化医疗的显著进展。 |
| 2025-10-21 | Bayesian Low-Rank Factorization for Robust Model Adaptation | null | 大型语音基础模型在许多领域取得了强大的性能,但它们通常需要进行适应性调整以处理本地需求,例如语码转换(即说话者在同一话语中混合使用多种语言)。直接微调这些模型有过拟合目标域并覆盖基础模型广泛能力的风险。为了解决这一挑战,我们探索了用于语音基础模型的贝叶斯因子化适配器,该适配器将先验设置为接近零,以实现更稀疏的适应矩阵,从而在适应特定领域的同时保留通用性能。我们将我们的方法应用于 Whisper 模型,并在不同的多语言语码转换场景中进行了评估。我们的结果表明,该方法仅导致最小的适应损失,同时显著减少了基础模型的灾难性遗忘。与 LoRA 相比,我们的方法实现了 54% 的回溯增益,而新域上的性能仅下降了 4%。这些发现强调了贝叶斯适应在微调语音基础模型时不牺牲泛化能力的有效性。 |
| 2025-10-21 | A Compositional Paradigm for Foundation Models: Towards Smarter Robotic Agents | null | 基础模型的诞生在从语言到视觉再到机器人控制等广泛任务中带来了前所未有的成果。这些模型能够处理海量数据,并能提取和发展出丰富的表征,这些表征可应用于不同领域和模态。然而,它们在不从头开始重新训练整个模型的情况下,适应动态的现实世界场景时仍然存在问题。在这项工作中,我们提出了持续学习和组合性原则的应用,以促进开发更灵活、高效和智能的人工智能解决方案。 |
| 2025-10-22 | PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits | null | 大型语言模型(LLMs)正以惊人的速度发展。随着智能体工作流的出现,多轮对话已成为LLM完成长而复杂任务的事实上的交互模式。尽管LLM的能力持续提升,但它们仍然越来越容易受到越狱攻击,尤其是在多轮场景中,恶意意图可以通过对话巧妙地植入以产生恶意结果。虽然单轮攻击已被广泛探索,但适应性、效率和有效性仍然是其多轮对应物的关键挑战。为了解决这些不足,我们提出了PLAGUE,一个受终身学习智能体启发的新颖即插即用框架,用于设计多轮攻击。PLAGUE将多轮攻击的生命周期分解为三个精心设计的阶段(启动器、规划器和终结器),这使得对多轮攻击家族能够进行系统性且信息丰富的探索。评估结果表明,使用PLAGUE设计的红队智能体实现了最先进的越狱结果,在更少或相当的查询预算下,将主流模型的攻击成功率(ASR)提高了30%以上。特别是,PLAGUE使得OpenAI的o3上(基于StrongReject)的ASR达到81.4%,在Claude的Opus 4.1上达到67.3%,这两款模型在安全文献中被认为对越狱具有高度抵抗力。我们的工作提供了工具和见解,以理解计划初始化、上下文优化和终身学习在构建多轮攻击中的重要性,从而进行全面的模型漏洞评估。 |
| 2025-10-20 | PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits | null | 大语言模型 (LLM) 正以惊人的速度不断发展。随着智能体工作流的出现,多轮对话已成为与LLM交互以完成漫长而复杂任务的事实标准模式。尽管LLM的能力持续提升,但它们也越来越容易受到越狱攻击,尤其是在多轮场景中,恶意意图可以通过对话巧妙地注入,从而产生有害结果。虽然单轮攻击已得到广泛探索,但其多轮对应攻击的适应性、效率和有效性仍是主要挑战。为了弥补这些不足,我们提出了PLAGUE,一个受终身学习智能体启发、用于设计多轮攻击的新颖即插即用框架。PLAGUE将多轮攻击的生命周期分解为三个精心设计的阶段(引导阶段、规划阶段和完成阶段),从而能够对多轮攻击家族进行系统化且信息丰富的探索。评估结果表明,使用PLAGUE设计的红队智能体取得了最先进的越狱结果,在更少或相当的查询预算下,将主流模型的攻击成功率 (ASR) 提高了30%以上。特别地,PLAGUE使得对OpenAI的o3模型和Claude的Opus 4.1模型(这两种模型在安全文献中被认为对越狱具有高度抵抗力)的ASR(基于StrongReject指标)分别达到81.4%和67.3%。我们的工作提供了工具和见解,以理解计划初始化、上下文优化和终身学习在构建多轮攻击以进行全面模型漏洞评估方面的重要性。 |
| 2025-10-20 | Efficient Toxicity Detection in Gaming Chats: A Comparative Study of Embeddings, Fine-Tuned Transformers and LLMs | null | 本文对在线游戏聊天中自动有害内容检测的自然语言处理(NLP)方法进行了全面的比较分析。对带有嵌入的传统机器学习模型、采用零样本和少样本提示的大型语言模型(LLMs)、微调的Transformer模型以及检索增强生成(RAG)方法进行了评估。评估框架从分类准确率、处理速度和计算成本三个关键维度进行评估。本文提出了一种混合审核系统架构,该架构通过自动化检测优化人工审核员的工作量,并融入了持续学习机制。实验结果表明,不同方法之间存在显著的性能差异,其中微调后的DistilBERT在准确率-成本权衡方面实现了最优表现。这些发现为在动态在线游戏环境中部署经济高效、高效率的内容审核系统提供了经验证据。 |
| 2025-10-20 | Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models | null | 大语言模型(LLMs)具备出色的泛化能力,但在多任务适应方面存在困难,尤其是在平衡知识保留与任务特定专业化方面。传统的微调方法面临灾难性遗忘和大量的资源消耗,而现有的参数高效方法在复杂多任务场景中表现不佳。为了解决这个问题,我们提出了上下文注意力调制(CAM),这是一种新颖的机制,能够动态调制LLMs中自注意力模块的表示。CAM在增强任务特定特征的同时保留了通用知识,从而促进了更有效和高效的适应。为了实现有效的多任务适应,我们将CAM整合到我们的混合上下文注意力调制(HyCAM)框架中,该框架结合了一个共享的、全参数的CAM模块与多个专门的、轻量级的CAM模块,并通过动态路由策略进行增强,以实现自适应的知识融合。在异构任务上进行的广泛实验,包括问答、代码生成和逻辑推理,表明我们的方法显著优于现有方法,平均性能提升了3.65%。实现的代码和数据已公开,以便于复现,网址为https://github.com/Applied-Machine-Learning-Lab/HyCAM。 |
| 2025-10-20 | MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems | null | 扩大数据、参数和测试时计算一直是改进大型语言模型系统(LLMsys)的主流方法,但由于高质量数据逐渐枯竭以及更多计算资源消耗带来的边际收益递减,它们的上限几乎已达到。受人类和传统人工智能系统从实践中学习能力的启发,为LLMsys构建记忆和持续学习框架已成为近期文献中一个重要且热门的研究方向。然而,现有的大型语言模型记忆基准往往侧重于评估系统在具有长篇输入的同质阅读理解任务上的表现,而非测试其在服务时间内从累积的用户反馈中学习的能力。因此,我们提出了一个用户反馈模拟框架和一个涵盖多个领域、语言和任务类型的全面基准,以评估LLMsys的持续学习能力。实验表明,最先进基线的有效性和效率远不能令人满意,我们希望该基准能为未来关于大型语言模型记忆和优化算法的研究铺平道路。 |
| 2025-10-19 | Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization | null | 利用模型之前的响应来指导每次新迭代的迭代越狱方法,即反复重写并输入提示到大型语言模型 (LLMs) 以诱导有害输出,已被证明是一种高效的攻击策略。尽管这是一种针对LLMs及其安全机制的有效攻击策略,但现有防御措施未能主动打破这种动态试错循环。在本研究中,我们提出了一种新颖的框架,能够通过在线学习动态更新其防御策略,以响应迭代越狱方法中的每个新提示。利用有害越狱生成提示与典型无害提示之间的区别,我们引入了一种基于强化学习的方法,该方法优化提示以确保对无害任务给出适当响应,同时明确拒绝有害提示。此外,为了抑制在攻击过程中探索的狭窄范围的部分输入重写所导致的过拟合,我们引入了过去方向梯度阻尼 (PDGD)。在三个LLMs上进行的实验表明,我们的方法在对抗五种迭代越狱方法方面显著优于五种现有防御方法。此外,我们的结果表明,我们的提示优化策略同时提高了无害任务的响应质量。 |
| 2025-10-18 | RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning | null | 广告视频违规检测对于确保平台合规性至关重要,但现有方法在精确时间定位、噪声标注和有限泛化能力方面面临挑战。我们提出了RAVEN,这是一种新颖的框架,它将课程强化学习与多模态大语言模型(MLLMs)相结合,以增强违规检测的推理和认知能力。RAVEN采用渐进式训练策略,结合了精确标注和粗略标注数据,并利用群组相对策略优化(GRPO)来发展出涌现的推理能力,而无需显式的推理标注。多层级复杂的奖励机制确保了精确的时间定位和一致的类别预测。在工业数据集和公共基准上的实验表明,RAVEN在违规类别准确性和时间区间定位方面取得了卓越的性能。我们还设计了一个流水线将RAVEN部署到在线广告服务中,在线A/B测试进一步验证了其实用性,并在精确率和召回率方面取得了显著提升。RAVEN还展示出强大的泛化能力,缓解了与监督微调相关的灾难性遗忘问题。 |
| 2025-10-17 | PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction | null | 大语言模型(LLMs)正超越静态用途,开始赋能能够在与外部环境交互过程中持续学习的智能体。例如,智能体可以在浏览网页或切换新工具时学习可复用技能。然而,现有的技能学习方法往往会创建过度专注于单一网站且难以泛化的技能。我们引入了PolySkill,这是一个新框架,使智能体能够学习可泛化和可组合的技能。其核心思想受软件工程中多态性的启发,即将技能的抽象目标(它完成什么)与其具体实现(它如何执行)解耦。实验表明,我们的方法(1)在已知网站上将技能复用率提高了1.7倍,(2)在Mind2Web上将成功率提高了9.4%,在未知网站上提高了13.9%,同时将步骤减少了20%以上。(3)在没有指定任务的自我探索设置中,我们的框架提高了提出任务的质量,并使智能体能够学习适用于不同站点的泛化技能。通过使智能体能够识别和完善自身目标,PolySkill增强了智能体学习更优课程的能力,从而相比基线方法获得了更具泛化性的技能。这项工作为构建能够在自适应环境中持续学习的智能体提供了一条实用路径。我们的研究结果表明,将技能的目标与其执行分离是迈向开发能够在开放网络中持续学习和泛化的自主智能体的一个关键步骤。 |
| 2025-10-17 | Paper2Web: Let’s Make Your Paper Alive! | null | 学术项目网站在清晰呈现核心内容并实现直观导航和交互时,能更有效地传播研究成果。然而,当前的方法,如大型语言模型(LLM)直接生成、模板或直接HTML转换,难以生成布局感知且具有交互性的网站,并且缺乏针对此任务的全面评估套件。在本文中,我们引入了Paper2Web,这是一个用于评估学术网页生成的基准数据集和多维度评估框架。它整合了基于规则的指标,如连通性、完整性,以及经过人工验证的“LLM即法官”评估方法(涵盖交互性、美观性和信息量),以及PaperQuiz,用于衡量论文级知识保留度。我们进一步提出了PWAgent,这是一个自主流程,能将科学论文转换为交互式且富含多媒体的学术主页。该代理通过旨在增强强调、平衡和呈现质量的MCP工具,迭代地优化内容和布局。我们的实验表明,PWAgent在保持低成本的同时,始终以显著优势优于基于模板的网页和arXiv/alphaXiv版本等端到端基线,并在学术网页生成领域达到了帕累托前沿。 |
| 2025-10-15 | VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models | null | 大规模视觉-语言模型(VLM)在通用视觉推理任务中表现出色,但当应用于与预训练数据存在显著分布偏移的新领域时,其性能会急剧下降。现有的域适应方法通常微调VLM的不同组件,但这却常导致有限的域特定特征学习或对先前能力的灾难性遗忘。为解决这些问题,我们引入了视觉上下文探测(VisCoP),它通过一组紧凑的可学习视觉探针来增强VLM的视觉编码器。这些探针实现了高效的域特定适应,同时对预训练参数的修改最小。我们在三种具有挑战性的域适应设置上评估了VisCoP:跨视角(从外视角到自我视角)、跨模态(从RGB到深度)和跨任务(从人类理解到机器人控制)。实验表明,VisCoP始终优于现有的适应策略,在目标域上实现了卓越的性能,同时有效保留了源域知识。 |
| 2025-10-16 | ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG | null | 知识图谱(KGs)凭借其结构化表示能力,为增强检索增强生成(RAG)系统提供了有前景的途径,从而促成了KG-RAG系统的发展。然而,现有方法往往难以在系统有效性和成本效率之间实现有效协同,导致要么性能不尽如人意,要么LLM提示词和推理时间过长。为此,本文提出了REMINDRAG,它采用LLM引导的图遍历,该遍历具有节点探索、节点利用,以及最重要的是记忆回放功能,以提高系统有效性和成本效率。具体而言,REMINDRAG将遍历经验记忆在知识图谱的边嵌入中,这类似于LLM在其参数中“记忆”世界知识的方式,但以一种免训练的方式实现。我们从理论和实验上证实了REMINDRAG的有效性,证明了其在各种基准数据集和LLM骨干网络上优于现有基线方法。我们的代码可在https://github.com/kilgrims/ReMindRAG获取。 |
| 2025-10-14 | OPLoRA: Orthogonal Projection LoRA Prevents Catastrophic Forgetting during Parameter-Efficient Fine-Tuning | null | 低秩适配(LoRA)实现了大语言模型的高效微调,但当学习到的更新干扰到编码了重要预训练知识的主导奇异方向时,会存在灾难性遗忘问题。我们提出正交投影LoRA (OPLoRA),这是一种有理论基础的方法,旨在通过双边正交投影防止这种干扰。通过SVD分解冻结权重,OPLoRA使用投影 $P_L = I - U_k U_k^\top$和$P_R = I - V_k V_k^\top$将LoRA更新限制在完全位于前k个奇异子空间的正交补空间内。我们证明这种构造精确地保留了前k个奇异三元组,为知识保留提供了数学保证。为了量化子空间干扰,我们引入了$\rho_k$ ,一个衡量更新与主导方向对齐程度的指标。在常识推理、数学和代码生成任务上的广泛实验证明,OPLoRA在LLaMA-2 7B和Qwen2.5 7B模型上显著减少了遗忘,同时保持了有竞争力的任务特定性能,确立了正交投影作为参数高效微调中知识保留的有效机制。 |
| 2025-10-14 | CoRA: Covariate-Aware Adaptation of Time Series Foundation Models | null | 时间序列基础模型(TSFM)凭借其模型容量、可扩展性和零样本泛化能力展现出显著影响。然而,由于变量间依赖关系的异质性以及主干网络在大规模多变量数据集上的可扩展性问题,大多数TSFM通常在单变量时间序列上进行预训练。这一局限性使得它们在现实世界的预测任务中无法感知来自多样化协变量的关键信息。为了进一步提升TSFM的性能,我们提出了一种通用的协变量感知适应(CoRA)框架。它利用基础模型的预训练主干网络,同时有效整合来自时间序列、语言和图像等不同模态的外部协变量,以提高预测质量。在技术上,CoRA在适应过程中保持了初始化等效性和参数一致性。在将基础模型的预留主干网络作为冻结的特征提取器后,经验证明来自基础模型的输出嵌入比原始数据更具信息量。此外,CoRA采用一种新颖的格兰杰因果嵌入(GCE)来自动评估协变量相对于目标变量的因果可预测性。我们将这些加权嵌入与零初始化条件注入机制相结合,避免了预训练基础模型的灾难性遗忘,并逐步整合外部信息。大量实验表明,TSFM的CoRA在全量或少量样本训练下,超越了最先进的协变量感知深度预测器,并在协变量感知预测上实现了31.1%的MSE降低。与其他适应方法相比,CoRA对各种先进TSFM表现出强大的兼容性,并将协变量的范围扩展到其他模态,为TSFM的应用提供了一个实用的范式。 |
| 2025-10-14 | MoRA: On-the-fly Molecule-aware Low-Rank Adaptation Framework for LLM-based Multi-Modal Molecular Assistant | null | 将分子图结构与大语言模型(LLMs)有效整合是药物发现中的一个关键挑战。大多数现有的多模态对齐方法通常通过同时微调LLM或添加静态适配器来处理这些结构。然而,这些方法有两个主要局限性:(1)它们优化了所有分子输入共享的参数空间,限制了模型捕获实例特定结构特征的能力;(2)为分子任务微调LLM可能导致灾难性遗忘,损害其通用推理能力。在本文中,我们没有采用静态的面向任务的适配,而是提出了一种针对每个分子即时进行的实例特定参数空间对齐方法。为此,我们引入了分子感知低秩适配(MoRA),它为每个输入分子图生成一组独特的低秩适配权重。这些权重随后被动态注入到一个冻结的LLM中,使模型能够根据每个分子输入的结构调整其推理,同时保留了LLM的核心知识。大量实验表明,在化学反应预测和分子描述生成等关键分子任务上,MoRA的实例特定动态适配优于静态适配的基线方法,包括在反应预测精确匹配方面相对提高了14.1%,以及在量子性质预测方面错误率降低了22%。代码可在https://github.com/jk-sounds/MoRA获取。 |
| 2025-10-13 | $How^{2}$: How to learn from procedural How-to questions | null | 智能体在面对规划问题时,可以利用“如何做”问题的答案来减少不确定性并填补知识空白,从而帮助其解决当前和未来的任务。然而,这类问题开放式的特性——“我如何做X?”的有效答案范围从可执行动作到X的子目标的高级描述——使得AI智能体难以提出,也使AI专家难以回答,从而难以支持高效规划。我们引入了$How^{2}$,一个记忆智能体框架,它使智能体能够提出“如何做”问题、存储答案,并在交互式环境中重复利用它们进行终身学习。我们在Plancraft(一个Minecraft合成环境,智能体必须通过操纵库存物品来完成装配任务)中评估了我们的方法。通过使用在不同抽象级别(从可执行动作序列到高级子目标描述)提供答案的教师模型,我们表明终身学习智能体从抽象且与当前状态解耦的答案中获益最大。$How^{2}$ 为基于大型语言模型(LLM)的智能体提供了一种通过在交互式环境中提问来随时间提高其规划能力的方法。 |
| 2025-10-11 | ADEPT: Continual Pretraining via Adaptive Expansion and Dynamic Decoupled Tuning | null | 传统用于大语言模型 (LLM) 领域适应的持续预训练 (CPT) 通常面临灾难性遗忘和有限领域容量的问题。现有策略采用层扩展,引入额外的可训练参数以适应新知识。然而,统一的扩展和更新仍然纠缠了通用学习和领域学习,损害了其有效性。我们的初步研究表明,LLM 表现出功能特化,其中层和单元差异化地编码了对通用领域至关重要的能力,这表明参数扩展和优化应是功能感知的。我们因此提出了 ADEPT,即用于持续预训练的自适应扩展和动态解耦微调,这是一个用于领域适应性 CPT 的两阶段框架。ADEPT 首先执行通用能力引导的选择性层扩展,复制对通用领域最不重要的层,以增加表示能力,同时最大限度地减少对通用知识的干扰。然后它应用自适应单元级解耦微调,根据其通用领域重要性解耦扩展层内的参数单元,并分配不对称的学习率以平衡知识注入和保留。在数学和医学基准上的实验表明,ADEPT 在通用领域和目标领域分别比全参数 CPT 性能高出 5.76% 和 5.58%,而仅需调整 15% 的参数,且训练时间不到 50%。消融研究、理论分析和扩展调查进一步证明了目标性扩展和解耦优化的必要性,为高效且鲁棒的领域适应性 CPT 提供了新原则。我们的代码已在 https://github.com/PuppyKnightUniversity/ADEPT 开源。 |
| 2025-10-11 | MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization | link | 尽管当前多模态大语言模型(MLLMs)在数学和逻辑等推理任务中已展现出熟练能力,但它们进行长链式反思性推理的能力(这是解决复杂现实世界问题的先决条件)仍未得到充分探索。在这项工作中,我们首先进行了一项广泛的实证研究以评估这种能力。利用精心设计的数据合成引擎,我们构建了多模态基准MM-HELIX,该基准包含1,260个样本,这些样本来自42个需要迭代思维和回溯的挑战性合成任务。在该基准上的实证结果表明,现有MLLMs在长链式反思性推理方面表现出显著的性能不足。为了解决这一局限性,我们生成了后训练数据,并进一步探索了利用此类数据的学习范式。我们首先开发了“步骤启发式响应生成”管道,以创建MM-HELIX-100K,这是一个包含10万条高质量反思性推理轨迹的大规模数据集,用于指令微调阶段。考虑到标准强化学习由于稀疏奖励信号以及在监督微调后出现的灾难性遗忘,在复杂任务上表现不佳,我们提出了自适应混合策略优化(AHPO),这是一种新颖的训练策略,它将离线监督和在线优化动态统一到一个阶段。这种策略使模型能够在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。将其应用于Qwen2.5-VL-7B基线模型时,我们的方法在MM-HELIX基准上实现了18.6%的准确率提升,并在通用数学和逻辑任务上平均性能提升5.7%,展现出强大的泛化能力。我们的工作表明,MLLMs中的反思性推理可以被有效地学习和泛化,为开发更强大的MLLMs铺平了道路。 |
| 2025-10-09 | MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization | link | 当前多模态大语言模型(MLLMs)已在数学和逻辑等推理任务中展现出熟练能力,但其长链反思性推理能力(解决复杂现实世界问题的先决条件)仍未得到充分探索。在这项工作中,我们首先进行了一项广泛的实证研究来评估这种能力。我们利用精心设计的数据合成引擎,构建了MM-HELIX,这是一个多模态基准,包含1,260个样本,涵盖42个需要迭代思维和回溯的挑战性合成任务。该基准上的实证结果表明,现有MLLMs在长链反思性推理方面存在显著的性能缺陷。为了解决这一局限性,我们生成了训练后数据,并进一步探索了利用此类数据的学习范式。我们首先开发了“步进式响应生成”流程,创建了MM-HELIX-100K,一个包含10万条高质量反思性推理轨迹的大规模数据集,用于指令微调阶段。鉴于标准强化学习由于稀疏奖励信号和监督微调后的灾难性遗忘而在复杂任务上失败,我们提出了自适应混合策略优化(AHPO),这是一种新颖的训练策略,它动态地将离线监督和在线优化统一到一个阶段。该策略使模型能够在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。当应用于Qwen2.5-VL-7B基线模型时,我们的方法在MM-HELIX基准上取得了18.6%的准确率提升,并在一般数学和逻辑任务上平均性能提升5.7%,展现出强大的泛化能力。我们的工作表明,MLLMs中的反思性推理可以被有效地学习和泛化,为开发更强大的MLLMs铺平了道路。 |
| 2025-10-09 | DACIP-RC: Domain Adaptive Continual Instruction Pre-Training via Reading Comprehension on Business Conversations | null | 大型语言模型(LLMs)的快速发展使其能够在现实世界的工业场景中应用于各种自然语言处理任务。然而,大规模LLMs的高推理成本使其部署不切实际,因此需要使用更小的模型。尽管效率更高,但更小的LLMs在不同领域中缺乏稳健的零样本指令遵循能力,限制了它们对动态用户需求的适应性。传统的微调方法通过引入灾难性遗忘加剧了这个问题,降低了模型对未见任务的泛化能力。在本文中,我们提出了通过阅读理解的领域自适应持续指令预训练(DACIP-RC),这是一种持续预训练技术,旨在增强更小LLMs在商业对话任务中的领域适应性。与依赖下一词元预测的传统预训练方法不同,DACIP-RC通过对对话记录进行阅读理解来生成多样化的任务指令和响应,从而实现更好的指令泛化。我们的实证评估表明,DACIP-RC显著提高了在广泛商业对话任务中的零样本泛化能力,包括会议摘要、行动项生成和通话目的识别。据我们所知,这是首次将指令预训练应用于商业对话数据的工作,为行业如何利用专有数据集进行领域适应提供了见解。 |
| 2025-10-09 | Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks | link | 大型语言模型已在多个领域展现出卓越能力,但将其部署为AI智能体以执行真实世界的长周期任务时,仍然存在重大挑战。现有的LLM智能体面临一个关键局限:它们是运行时静态的,无法从经验中学习,缺乏积累知识和持续在工作中改进的能力。为解决这一挑战,我们提出了MUSE,这是一种新颖的智能体框架,引入了一种经验驱动的、自进化的系统,其核心是一个分层记忆模块。MUSE组织了不同层次的经验,并利用这些经验来规划和执行跨多个应用的长周期任务。在每次子任务执行后,智能体自主地反思其轨迹,将原始轨迹转换为结构化经验,并将其重新整合到记忆模块中。这种机制使得智能体能够超越其静态的预训练参数进行进化,促进了持续学习和自我进化。我们在长周期生产力基准TAC上评估了MUSE,它仅使用轻量级的Gemini-2.5 Flash模型就以显著优势取得了新的SOTA性能。充分的实验表明,随着智能体自主积累经验,它展现出越来越卓越的任务完成能力,以及强大的持续学习和自我进化能力。此外,MUSE积累的经验表现出强大的泛化能力,使其能够在新任务上实现零样本改进。MUSE为能够实现真实世界生产力任务自动化的AI智能体建立了一个新范式。 |
| 2025-10-08 | OpenJAI-v1.0: An Open Thai Large Language Model | null | 我们推出了OpenJAI-v1.0,一个基于Qwen3-14B模型开发的开源泰语和英语大型语言模型。我们的工作致力于通过精心整理的数据,在指令遵循、长文本理解和工具使用这三个关键用例中提升其在实际任务上的性能。评估结果表明,OpenJAI-v1.0提升了其基础模型的能力,并在多样化的基准测试中超越了其他领先的开源泰语模型,同时避免了灾难性遗忘。OpenJAI-v1.0已公开发布,作为泰语AI社区的又一个替代性自然语言处理资源。 |
| 2025-10-08 | Distilling Lightweight Language Models for C/C++ Vulnerabilities | null | 现代软件系统日益增长的复杂性加剧了安全漏洞的普遍性,带来了严重的安全泄露和巨大的经济损失风险。因此,鲁棒的代码漏洞检测对软件安全至关重要。尽管大型语言模型(LLM)在自然语言处理方面表现出卓越的能力,但它们在自动化代码漏洞检测方面的潜力仍未得到充分探索。本文提出了FineSec,一个通过知识蒸馏技术利用大型语言模型(LLM)以实现在C/C++代码库中高效准确地识别漏洞的新颖框架。FineSec利用知识蒸馏将大型教师模型的专业知识转移到紧凑型学生模型中,以最小的计算成本实现高精度。通过将数据准备、训练、评估和持续学习整合到一个统一的、单任务工作流程中,FineSec提供了一种精简的方法。在C/C++代码库上的广泛评估证明了FineSec在识别复杂漏洞和逻辑缺陷方面优于基础模型和更大的LLM,将其确立为一种针对实际软件安全的实用且可扩展的解决方案。为了便于复现,数据集、源代码和实验结果已在以下网址公开提供:https://github.com/yangxiaoxuan123/FineSec_detect。 |
| 2025-10-06 | Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization | null | 最近的进展将人工智能前沿从模式识别任务推向了需要一步一步、系统2式推理的问题,尤其是在大型语言模型方面。然而,与泛化和分布外(OoD)评估概念已被很好地形式化的学习不同,推理能力尚无清晰一致的定义或衡量标准。我们提出了复杂性分布外(Complexity OoD)泛化,作为定义和衡量推理的框架和问题设置。当模型在测试实例上保持性能,且其所需最小解的复杂性,无论是表征性的(更丰富的解结构)还是计算性的(更多的推理步骤/程序长度),都超出了所有训练样本的复杂性时,它就展现出复杂性OoD泛化。我们通过解描述柯尔莫哥洛夫复杂性和操作性代理(例如,对象/关系计数;推理步骤计数)来形式化复杂性,阐明了复杂性OoD与长度和组合性OoD的区别。这一视角统一了学习和推理:许多在低复杂性下可通过系统1式处理解决的案例,在复杂性压力下变得像系统2,而系统2可以被视为对解结构的泛化。我们将这一视角转化为实践,并提出了在整个堆栈中操作复杂性OoD的建议:将复杂性纳入基准和评估指标设计,重新思考监督以针对解的轨迹,寻求和设计用于复杂性OoD泛化的归纳偏置,解决学习推理的溢出效应,如虚假捷径、语义鲁棒性、灾难性遗忘和分步校准。由于仅靠数据规模化无法解决复杂性OoD,迈向鲁棒推理的进展将需要明确建模和根据复杂性分配计算的架构和训练机制。 |
| 2025-10-06 | Draft, Verify, and Improve: Toward Training-Aware Speculative Decoding | null | 自回归 (AR) 解码是大型语言模型的一个主要延迟瓶颈。推测解码 (SD) 通过让一个草稿器提出多token块,并由一个验证器接受或拒绝,从而加速AR。然而,许多SD系统需要大量的离线训练或额外的组件。这些选择增加了数据/计算成本,并可能在分布漂移下产生脆弱的草稿器。我们引入了“撰写、验证与改进 (DVI)”,这是一个训练感知型自推测框架,它结合了推理和持续在线学习。我们将一个大型语言模型划分为一个草稿器和一个验证器,在生成过程中,验证器的接受/拒绝决策被转换为监督信号,并用于更新草稿器头部。一个简单的KL $\rightarrow$ RL调度通过在线蒸馏引导校准,然后添加了带有在策略策略梯度项的奖励掩码交叉熵,从而保持了无损的单模型部署。在Spec-Bench上,DVI实现了2.16倍的实际运行时间加速,与EAGLE-2等最先进的方法相当,同时训练数据量少几个数量级,并且消融实验表明DVI优于仅使用KL的在线蒸馏。DVI表明,训练感知型自推测可以在最小的训练开销下,提供最先进的无损加速。 |
| 2025-10-08 | AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling | null | 大型语言模型(LLM)越狱方面的最新进展,例如AutoDAN-Turbo,已经展示了自动化策略发现的强大能力。AutoDAN-Turbo采用终身学习代理从零开始构建了一个丰富的攻击策略库。尽管AutoDAN-Turbo高效,但其测试时生成过程涉及采样一个策略并生成单个对应的攻击提示,这可能未能充分利用所学策略库的潜力。在本文中,我们提出通过测试时扩展来进一步提高AutoDAN-Turbo的攻击性能。我们引入了两种不同的扩展方法:N选最优和束搜索。N选最优方法从采样的策略中生成N个候选攻击提示,并根据评分模型选择最有效的一个。束搜索方法通过探索库中策略的组合进行更详尽的搜索,以发现更强大和协同的攻击向量。实验表明,所提出的方法显著提升了性能,其中束搜索在Llama-3.1-70B-Instruct上将攻击成功率提高了多达15.6个百分点,并且与原始方法相比,在高度鲁棒的GPT-o4-mini上实现了近60%的相对提升。 |
| 2025-10-06 | AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling | null | 大型语言模型(LLMs)越狱领域的近期进展,例如AutoDAN-Turbo,已展示了自动化策略发现的强大能力。AutoDAN-Turbo采用终身学习智能体从零开始构建了一个丰富的攻击策略库。尽管非常有效,其测试时生成过程涉及采样一个策略并生成一个对应的攻击提示,这可能未能充分利用所学策略库的潜力。在本文中,我们提出通过测试时扩展来进一步提升AutoDAN-Turbo的攻击性能。我们引入了两种不同的扩展方法:N中选优和束搜索。N中选优方法从一个采样的策略中生成N个候选攻击提示,并基于一个评分模型选择最有效的一个。束搜索方法通过探索库中策略的组合进行更彻底的搜索,以发现更强大和协同的攻击向量。实验结果表明,所提出的方法显著提升了性能,其中束搜索在Llama-3.1-70B-Instruct上将攻击成功率提高了高达15.6个百分点,并相比于原始方法,在高度鲁棒的GPT-o4-mini上实现了近60%的相对改进。 |
| 2025-10-06 | Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners | null | 大语言模型 (LLMs) 展现出强大的推理能力,这种能力常常通过思维链 (CoT) 提示和强化学习 (RL) 得到增强。尽管强化学习算法能显著提升推理能力,但它们难以扩展推理边界,因为它们从自身的推理轨迹中学习,而非获取外部知识。有监督微调 (SFT) 提供了互补的优势,但通常需要大规模数据并存在过拟合的风险。最近结合SFT和RL的尝试面临三个主要挑战:数据效率低下、算法特定设计和灾难性遗忘。我们提出了一个即插即用框架,通过为SFT选择有挑战性的示例,将SFT动态地整合到RL中。这种方法减少了SFT的数据需求,并且对RL或SFT算法的选择保持无关性。为了缓解在SFT过程中RL习得技能的灾难性遗忘,我们选择高熵词元进行损失计算,并冻结被识别为对RL至关重要的参数。我们的方法取得了最先进 (SoTA) 的推理性能,仅使用了之前SoTA所用SFT数据的1.5%和RL数据的20.4%,为推理后训练中SFT与RL的结合提供了一种高效且即插即用的解决方案。 |
| 2025-10-05 | Just-in-time Episodic Feedback Hinter: Leveraging Offline Knowledge to Improve LLM Agents Adaptation | null | 大语言模型(LLM)智能体在序列决策任务中表现良好,但在不熟悉领域改进它们通常需要昂贵的在线交互或在大型专家数据集上进行微调。这些策略对于闭源模型不切实际,对于开源模型成本高昂,且存在灾难性遗忘的风险。离线轨迹提供可复用知识,但基于演示的方法面临挑战,因为原始轨迹过长、嘈杂且与特定任务绑定。我们提出了即时情景反馈提示器(JEF Hinter),一个智能体系统,它将离线轨迹提炼成紧凑、上下文感知的提示。一种缩放机制突出长轨迹中的关键步骤,捕捉策略和陷阱。与现有方法不同,JEF Hinter利用成功和失败的轨迹,即使只有失败数据可用也能提取指导,同时支持并行化的提示生成和基准无关的提示。在推理时,一个检索器为当前状态选择相关提示,提供具有透明性和可追溯性的有针对性指导。在MiniWoB++、WorkArena-L1和WebArena-Lite上的实验表明,JEF Hinter持续优于强大的基线,包括基于人工和基于文档的提示。 |
| 2025-10-05 | AgentTypo: Adaptive Typographic Prompt Injection Attacks against Black-box Multimodal Agents | null | 基于大规模视觉语言模型(LVLM)构建的多模态智能体正越来越多地部署在开放世界环境中,但它们仍然极易受到提示注入的攻击,特别是通过视觉输入进行的注入。我们引入了AgentTypo,这是一个黑盒红队框架,它通过将优化后的文本嵌入到网页图像中,实现自适应排版提示注入。我们的自动排版提示注入(ATPI)算法通过替换字幕生成器来最大化提示重构,同时通过隐身损失最小化人类可检测性,并利用树结构Parzen估计器指导文本位置、大小和颜色的黑盒优化。为进一步增强攻击强度,我们开发了AgentTypo-pro,这是一个多LLM系统,它利用评估反馈迭代优化注入提示,并检索成功的历史案例以实现持续学习。有效的提示被抽象为通用策略并存储在策略库中,从而实现渐进式知识积累并在未来的攻击中重用。在分类广告、购物和Reddit场景的VWA-Adv基准上进行的实验表明,AgentTypo显著优于AgentAttack等最新的基于图像的攻击。在GPT-4o智能体上,我们仅基于图像的攻击将成功率从0.23提高到0.45,并且在GPT-4V、GPT-4o-mini、Gemini 1.5 Pro和Claude 3 Opus上取得了持续一致的结果。在图像+文本设置中,AgentTypo达到了0.68的攻击成功率(ASR),也优于最新的基线。我们的研究结果表明,AgentTypo对多模态智能体构成了实际而强大的威胁,并凸显了对有效防御的迫切需求。 |
| 2025-10-03 | A $1000\times$ Faster LLM-enhanced Algorithm For Path Planning in Large-scale Grid Maps | null | 源于各种应用的网格地图路径规划已引起广泛关注。A、Dijkstra及其变体等现有方法适用于小规模地图,但由于搜索时间和内存消耗过高,无法解决大规模地图问题。最近,大语言模型(LLMs)在路径规划中展现出卓越性能,但仍存在空间错觉和规划性能不佳的问题。在所有工作中,LLM-A \cite{meng2024llm} 利用LLM生成一系列路点,然后使用A规划相邻路点之间的路径。通过这种方式,构建了完整的路径。然而,LLM-A对于大规模地图仍然存在计算时间过高的问题。为了弥补这一空白,我们对LLM-A进行了深入研究,发现了其瓶颈,导致性能受限。因此,我们设计了一种创新的LLM增强算法,简称为iLLM-A。iLLM-A包含3个精心设计的机制,包括对A的优化、一种用于LLM生成高质量路点的增量学习方法,以及为A路径规划选择合适路点的方法。最后,在各种网格地图上的综合评估表明,与LLM-A相比,iLLM-A* 1) 平均实现超过1000倍的加速,在极端情况下最高可达2349.5倍的加速,2) 节省高达58.6%的内存开销,3) 实现了显著更短的路径长度和更低的路径长度标准差。 |
| 2025-10-01 | Energy-Regularized Sequential Model Editing on Hyperspheres | null | 大语言模型(LLMs)需要持续更新以保持与不断演变的现实世界知识对齐。模型编辑提供了一种重训练的轻量级替代方案,但顺序编辑常常会破坏表征的稳定性并导致灾难性遗忘。在这项工作中,我们旨在更好地理解和缓解由顺序编辑引起的性能下降。我们假设超球面均匀性(一种保持神经元权重在超球面上均匀分布的特性)有助于模型保持稳定、保留先验知识,同时适应新的更新。我们使用超球面能量(HE)来量化编辑过程中的神经元均匀性,并检查其与编辑性能的相关性。跨广泛使用的编辑方法的经验研究揭示了HE动态与编辑性能之间的强烈相关性,其中编辑失败始终与高HE波动同时发生。我们进一步从理论上证明,HE动态对预训练知识的退化施加了一个下界,强调了HE稳定性对知识保留至关重要的原因。受这些见解的启发,我们提出了SPHERE(用于超球面能量正则化编辑的稀疏投影),这是一种HE驱动的正则化策略,它能稳定神经元权重分布,最终保留先验知识,同时实现可靠的顺序更新。具体而言,SPHERE识别出一个与预训练权重矩阵的主要超球面方向互补的稀疏空间,并将新知识投影到该空间,从而减弱对主要方向的扰动。在LLaMA3(8B)和Qwen2.5(7B)上进行的大量实验表明,SPHERE在编辑能力上平均优于最佳基线16.41%,同时最忠实地保留了模型的整体性能,从而为实现可靠的大规模知识编辑提供了一条原则性的路径。 |
| 2025-10-02 | Are Time Series Foundation Models Susceptible to Catastrophic Forgetting? | null | 时序基础模型(TSFMs)在多样化的预测任务中展现出前景广阔的零样本泛化能力。然而,它们对持续适应的鲁棒性仍未得到充分探索。在这项工作中,我们研究了TSFMs在多个数据集上进行顺序微调时遭受灾难性遗忘的程度。我们使用旨在具有不同程度周期性结构的合成数据集,衡量了模型对新数据的适应能力与对先验知识的保留能力之间的权衡。我们的实验表明,尽管微调提高了在新任务上的性能,但它常常导致在先前学习过的任务上性能显著下降,这揭示了一个根本性的稳定性-可塑性困境。 |
| 2025-09-30 | TTT3R: 3D Reconstruction as Test-Time Training | null | 现代循环神经网络因其线性时间复杂度,已成为三维重建领域具有竞争力的架构。然而,当其应用于超出训练上下文长度的场景时,性能会显著下降,暴露出有限的长度泛化能力。在这项工作中,我们从测试时间训练的视角重新审视三维重建基础模型,将其设计视为一个在线学习问题。基于这一视角,我们利用记忆状态与新传入观测之间的对齐置信度,推导出一个用于记忆更新的闭式学习率,以在保留历史信息和适应新观测之间取得平衡。这种名为TTT3R的免训练干预措施,显著提升了长度泛化能力,在全球姿态估计方面实现了相对于基线2倍的改进,同时以20 FPS的速度运行,仅需6 GB GPU显存即可处理数千张图像。代码可在https://rover-xingyu.github.io/TTT3R获取。 |
| 2025-09-29 | Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection | null | 多模态大语言模型(MLLM)因其丰富的世界知识、常识推理能力和潜在的可解释性,在检测AI生成图像方面受到越来越多的关注。然而,天真地应用这些MLLM进行检测往往会导致次优性能。我们认为这种失败的根源在于一个根本性的不匹配:MLLM在真正“看到”伪造品之前就被要求对其进行推理。首先,它们并没有真正“看到”:现有MLLM的视觉编码器主要针对语义导向的识别进行优化,而非对低级信号的感知,这使得它们对细微的伪造痕迹不敏感。在无法获取可靠感知证据的情况下,模型将其判断基于不完整和有限的视觉观察。其次,用于检测的现有微调数据通常使用狭窄的指令式格式,这与预训练中看到的多样化、异构分布截然不同。在缺乏有意义视觉线索的情况下,模型因此利用这些语言捷径,导致预训练知识的灾难性遗忘(甚至包括基本的对话能力)。作为回应,我们倡导一种新范式:先“看到”再推理。我们提出MLLM应首先训练感知伪影——增强其对伪影的视觉感知能力——以便随后的推理基于实际观察。因此,我们提出了Forensic-Chat,一个用于假图像检测的具有泛化性、可解释性且仍具会话能力(支持多轮对话)的助手。我们还提出了ExplainFake-Bench,一个专门用于从五个关键方面评估MLLM在图像取证方面可解释性的基准。大量实验表明其在泛化性和真正可靠的可解释性方面的优越性。 |
| 2025-09-29 | Understanding the Dilemma of Unlearning for Large Language Models | null | 遗忘旨在从大语言模型(LLMs)中移除特定知识,但其有效性仍存在争议。一方面,“被遗忘的”知识常可通过轻度微调等干预措施恢复;另一方面,遗忘可能导致灾难性遗忘,从而损害通用能力。尽管对遗忘方法进行了积极探索,但由于追踪大语言模型复杂架构中知识的难度,对其机制的可解释性分析却十分稀缺。我们通过提出unPact来解决这一空白,unPact是一个通过提示归因和贡献追踪实现遗忘的可解释框架。通常,它量化每个提示词元对输出的影响,从而能够进行遗忘前后的比较,以揭示发生了哪些变化。跨越六种主流遗忘方法、三种大语言模型和三个基准测试,我们发现:(1) 遗忘似乎通过扰乱对提示中关键词的关注而生效;(2) 许多知识并未真正被擦除,只需在提示中强调这些关键词即可恢复,而无需修改模型的权重;(3) 灾难性遗忘源于对所有词元的无差别惩罚。综合来看,我们的结果揭示了一个遗忘困境:现有方法往往要么不足(知识可通过关键词强调来恢复),要么过度破坏性(通用性能因灾难性遗忘而崩溃),这仍然与可靠的遗忘存在差距。 |
| 2025-09-29 | ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning | null | 通过强化学习(RL)或模仿学习(IL)训练的机器人通常对新任务适应缓慢,而近期的大型语言模型(LLMs)和视觉-语言模型(VLMs)则预示着从少量数据中进行知识丰富的规划。然而,将LLMs/VLMs部署到运动规划中面临两个主要障碍:(i) 符号规划很少基于场景几何和物体物理特性进行落地,以及 (ii) 对于相同的提示,模型输出可能不同,从而损害了执行的可靠性。我们提出了ViReSkill,这是一个将视觉落地式重规划与用于积累和重用的技能记忆相结合的框架。当发生故障时,重规划器会基于当前场景生成一个新的动作序列,并根据观察到的状态进行调整。成功时,执行的规划被存储为可重用技能,并在未来的遇到中重放,无需额外调用LLMs/VLMs。这种反馈循环实现了自主持续学习:每次尝试都会立即扩展技能集并稳定后续的执行。我们在LIBERO和RLBench等模拟器以及物理机器人上评估了ViReSkill。在所有设置中,它在任务成功率方面始终优于传统基线,展示了强大的模拟到现实泛化能力。 |
| 2025-09-28 | EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging | null | 医学影像基础模型必须随时间推移进行适应,然而,由于隐私限制和成本,完全再训练通常受到阻碍。我们提出了一个持续学习框架,该框架通过结合类别条件扩散回放与弹性权重整合(Elastic Weight Consolidation,EWC)来避免存储患者样本。使用紧凑的Vision Transformer骨干网络,我们在八项MedMNIST v2任务和CheXpert数据集上进行了评估。在CheXpert数据集上,我们的方法达到了0.851的AUROC,相对于DER++,遗忘减少了30%以上,并且接近联合训练(0.869 AUROC)的性能,同时保持了高效和隐私保护。分析将遗忘与两个可测量的因素联系起来:回放的保真度和费雪加权参数漂移,强调了回放扩散和突触稳定性的互补作用。结果表明了一条实用的途径,可实现临床影像模型的可扩展、隐私感知的持续适应。 |
| 2025-09-28 | Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings | null | 灾难性遗忘仍然是大型语言模型(LLMs)持续学习中的一个关键挑战,即模型在无法访问过去数据集的情况下,对新的序列数据进行微调时,难以保持在历史任务上的性能。在本文中,我们首先揭示了微调过程中函数方向的漂移是现有基于正则化的方法在长期LLM持续学习中失效的一个关键原因。为了解决这个问题,我们提出了一种新颖的方法——动态正交持续(DOC)微调,它跟踪这些函数方向的漂移并在微调过程中动态更新它们。此外,通过调整新任务参数的梯度使其与跟踪到的历史函数方向正交,我们的方法减轻了新旧任务之间的干扰。在各种LLM持续学习基准上进行的大量实验表明,这种方法优于现有方法,有效减少了灾难性遗忘,并为LLM的持续微调提供了一个鲁棒的工具。我们的代码可在 https://github.com/meloxxxxxx/DOC 获取。 |
| 2025-09-28 | How LLMs Learn to Reason: A Complex Network Perspective | null | 使用可验证奖励强化学习(RLVR)训练大语言模型展现出一系列独特且令人费解的行为,这些行为目前尚不清楚,包括两阶段学习曲线、V形响应长度轨迹以及明显的灾难性遗忘脆弱性。在这项工作中,我们提出这些看似不同的现象可以用一个统一的理论来解释:模型的推理过程映射为语义复杂网络的自组织,其拓扑结构持续稀疏,平均度数固定在接近二。这种拓扑结构为遗忘和学习施加了一个基本机制:它首先将系统驱动到最大受挫状态,在此状态下形成“技能孤岛”,发生缓慢学习并诱发遗忘;然后进入一个急剧增长阶段,新技能被“固定”上去,这是由网络前沿的相变式学习所驱动的。借助该理论,我们提出了退火RLVR(Annealed-RLVR),这是一种原则性算法,它在最大受挫点引入基于SFT的“加热”步骤,以解决竞争瓶颈并增强模型的推理能力。在一个15亿参数模型上的实验表明,该方法在分布内和分布外基准测试中均优于标准RLVR。通过将RLVR从黑盒优化重塑为可预测的结构自组织过程,我们的工作为工程化未来人工智能系统的新兴推理能力提供了新的物理直觉。 |
| 2025-09-28 | On the Shelf Life of Fine-Tuned LLM Judges: Future Proofing, Backward Compatibility, and Question Generalization | null | 大语言模型作为评判范式被广泛应用于评估自由文本模型响应以及用于模型对齐和微调的奖励建模。近来,相较于直接提示前沿模型作为裁判,使用裁判专用数据微调裁判模型已成为一种更受青睐的选择,因为前者在模型尺寸较小的情况下能实现更好的性能,同时对常见偏差更具鲁棒性。然而,标准评估忽略了微调裁判模型在实际部署方面的几个实际问题。在本文中,我们识别并形式化了影响这些裁判模型“保质期”的三个方面:未来适应性(即今天的生成器模型响应上微调的裁判模型,在未来模型或过去模型的响应上的表现如何)和向后兼容性,以及问题泛化能力(即裁判模型在测试时对未见问题的泛化能力如何)。我们在一个统一的框架下,在数学领域研究了这三个方面,该框架具有不同的训练和测试分布、三种基于SFT和DPO的微调算法以及三种不同的基础模型。实验表明,未来适应性对大多数模型来说是具有挑战性的,而向后兼容性相对容易,其中DPO训练的模型持续提升性能。我们进一步发现,持续学习为新旧响应分布之间的变化提供了更平衡的适应,相比于仅在更强或更弱的响应上进行训练。此外,所有模型都观察到当从训练期间见过的问题转移到未见过的问题时,性能会发生一定程度的下降,这表明当前的裁判模型未能完全泛化到未见过的问题。这些发现为在不断变化的生成器面前开发和部署裁判模型提供了实际考量方面的见解。 |
| 2025-09-27 | Dual-Space Smoothness for Robust and Balanced LLM Unlearning | link | 随着大语言模型的快速发展,机器遗忘应运而生,旨在解决用户隐私、版权侵犯和整体安全性日益增长的担忧。然而,最先进的(SOTA)遗忘方法常常面临灾难性遗忘和指标不平衡的问题,例如通过过度优化一个目标(如遗忘有效性、效用保持或隐私保护)而牺牲其他目标。此外,表征空间或参数空间中的微小扰动可能被重学习攻击和越狱攻击利用。为解决这些挑战,我们提出了PRISM,一个统一的框架,它在表征空间和参数空间中强制执行双空间平滑性,以提高鲁棒性并平衡遗忘指标。PRISM包含两个平滑优化阶段:(i)一个表征空间阶段,采用鲁棒训练的探测器以防御越狱攻击;(ii)一个参数空间阶段,解耦保留-遗忘梯度冲突,减少不平衡,并平滑参数空间以缓解重学习攻击。在WMDP和MUSE数据集上,涵盖对话和连续文本设置的大量实验表明,PRISM在多种攻击下均优于SOTA基线,同时在关键指标之间实现了更好的平衡。 |
| 2025-09-27 | Exploring LLM-based Frameworks for Fault Diagnosis | null | 基于大语言模型(LLM)的系统为传感器丰富的工业环境中的自主健康监测带来了新的机遇。本研究探索了LLM直接从传感器数据中检测和分类故障的潜力,同时通过自然语言推理生成内在可解释的输出。我们系统地评估了LLM系统架构(单LLM与多LLM)、输入表示(原始数据与描述性统计数据)以及上下文窗口大小如何影响诊断性能。我们的研究结果表明,当提供汇总的统计输入时,LLM系统表现最有效;并且与单LLM系统相比,使用专门提示的多个LLM系统在故障分类方面提供了改进的灵敏度。尽管LLM可以为其决策生成详细且人类可读的理由,但我们观察到它们在持续学习环境中随时间适应能力的局限性,在重复的故障周期中经常难以校准预测。这些见解指出了基于LLM的系统作为复杂环境中透明、自适应诊断工具的潜力与当前局限。 |
| 2025-09-26 | Hierarchical Representation Matching for CLIP-based Class-Incremental Learning | null | 类增量学习(CIL)旨在使模型具备持续适应不断演进的数据流的能力。预训练视觉-语言模型(例如CLIP)的最新进展为此任务提供了强大基础。然而,现有方法通常依赖于“一张[类别]的照片”等简单模板,这忽略了视觉概念的层级性。例如,“猫”与“汽车”的识别依赖于粗粒度线索,而区分“猫”与“狮子”则需要细粒度细节。同样,CLIP中当前的特征映射仅依赖于最后一层的表示,忽略了早期层中包含的层级信息。在这项工作中,我们为基于CLIP的CIL引入了层级表示匹配(HERMAN)方法。我们的方法利用大型语言模型(LLMs)递归生成判别性文本描述符,从而通过显式层级线索扩充语义空间。这些描述符被匹配到语义层级的不同级别,并根据任务特定要求进行自适应路由,从而在增量任务中实现精确判别并缓解灾难性遗忘。在多个基准上进行的大量实验表明,我们的方法持续达到了最先进的性能。 |
| 2025-09-26 | We Think, Therefore We Align LLMs to Helpful, Harmless and Honest Before They Go Wrong | null | 大型语言模型(LLM)在有益性、无害性和诚实性(HHH)等多个目标上的对齐对于其安全可靠的部署至关重要。先前的工作使用引导向量——注入到隐藏状态中的小型控制信号——来指导LLM的输出,通常通过一对一(1-to-1)Transformer解码器实现。在这种设置下,优化单一对齐目标可能会无意中覆盖为其他目标学习到的表示,从而导致灾难性遗忘。最近的方法通过一对多(1-to-N)Transformer解码器扩展了引导向量。虽然这缓解了灾难性遗忘,但朴素的多分支设计独立优化每个目标,这可能导致推理碎片化——HHH目标之间的输出可能变得不一致。我们提出了自适应多分支引导(AMBS),这是一个两阶段的1-to-N框架,用于统一高效的多目标对齐。在第一阶段,Transformer层的注意力后隐藏状态被计算一次以形成共享表示。在第二阶段,该表示被克隆到并行分支中,并通过策略-参考机制进行引导,从而在保持跨目标一致性的同时实现目标特定控制。在Alpaca、BeaverTails和TruthfulQA上的经验评估表明,AMBS在多个7B LLM骨干模型上持续改进了HHH对齐。例如,在DeepSeek-7B上,与朴素的1-to-N基线相比,AMBS将平均对齐分数提高了32.4%,并将不安全输出减少了11.0%,同时与最先进的方法保持竞争力。 |
| 2025-09-26 | Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting | null | 将视觉语言模型(VLM)在机器人远程操作数据上进行微调以创建视觉语言动作(VLA)模型,是训练通用策略的一个有前景的范式,但它面临一个根本性权衡:学习生成动作通常会削弱VLM的基础推理和多模态理解能力,从而阻碍其泛化到新颖场景、指令遵循和语义理解。我们认为这种灾难性遗忘是由于VLM的互联网规模预训练语料库与机器人微调数据之间存在分布不匹配。受此观察启发,我们引入了VLM2VLA:一种VLA训练范式,它首先通过自然语言表示低级动作,在数据层面解决这种不匹配。这种对齐使得仅使用低秩适应(LoRA)来训练VLA成为可能,从而最大限度地减少对VLM主干的修改并避免灾难性遗忘。因此,VLM可以在机器人远程操作数据上进行微调,而无需从根本上改变底层架构,也无需在互联网规模的VLM数据集上进行昂贵的联合训练。通过大量的视觉问答(VQA)研究和超过800次真实世界机器人实验,我们证明VLM2VLA保留了VLM的核心能力,实现了对需要开放世界语义推理和多语言指令遵循的新颖任务的零样本泛化。 |
| 2025-09-26 | ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation | null | 随着大语言模型(LLMs)日益融入日常生活,对不仅能够响应、还能主动提供个性化服务的AI助手的需求日益增长。尽管近期进展分别推动了主动性和个性化的发展,但它们的结合仍未得到充分探索。为弥补这一差距,我们引入了ProPerSim,这是一个新的任务与模拟框架,用于开发能够在真实的家庭场景中提供及时、个性化推荐的助手。在我们的模拟环境中,一个具有丰富人设的用户代理与助手交互,并根据每条建议与其偏好和情境的契合度提供评分。助手的目标是利用这些评分进行学习和适应,以随着时间推移获得更高的分数。基于ProPerSim,我们提出了ProPerAssistant,这是一个结合检索增强、偏好对齐的助手,能够通过用户反馈持续学习和适应。在32种不同人设上的实验表明,ProPerAssistant调整其策略并稳步提升用户满意度,突显了将主动性和个性化结合起来的巨大潜力。 |
| 2025-09-24 | A co-evolving agentic AI system for medical imaging analysis | link | 智能体AI在医疗保健和生物医学研究领域正迅速发展。然而,在医学图像分析中,由于缺乏强大的生态系统、不足的工具集以及实时交互式专家反馈的缺失,其性能和应用仍受限制。本文我们介绍“TissueLab”,一个协同进化的智能体AI系统,它允许研究人员直接提问,自动规划并生成可解释的工作流,并进行实时分析,专家可以在其中可视化中间结果并对其进行优化。TissueLab整合了病理学、放射学和空间组学领域的工具工厂。通过标准化各种工具的输入、输出和功能,该系统能够确定何时以及如何调用它们以解决研究和临床问题。在涉及具有临床意义的量化(为分期、预后和治疗计划提供信息)的各种任务中,与端到端视觉-语言模型(VLM)以及GPT-5等其他智能体AI系统相比,TissueLab均实现了最先进的性能。此外,TissueLab不断向临床医生学习,演化出改进的分类器和更有效的决策策略。通过主动学习,它能在数分钟内在新疾病背景下提供准确结果,而无需大规模数据集或冗长的再训练。作为可持续的开源生态系统发布,TissueLab旨在加速医学成像领域的计算研究和转化应用,同时为下一代医疗AI奠定基础。 |
| 2025-09-24 | CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks | null | 智能移动应用日益增长的需求使得多智能体协作结合基于Transformer的大型语言模型(LLMs)在移动边缘计算(MEC)网络中变得至关重要。然而,在此类环境中训练LLMs仍面临挑战,原因在于计算量大、高端到端延迟以及模型泛化能力有限。我们引入了CollaPipe,这是一种混合分布式学习框架,它集成了协作流水线并行与联邦聚合,以支持自演进智能网络。在CollaPipe中,编码器部分被自适应地划分为可变大小的段并部署在移动设备上用于流水线并行训练,而解码器则部署在边缘服务器上以处理生成任务。接着我们通过联邦聚合执行全局模型更新。为了提高训练效率,我们提出了一个联合优化问题,该问题自适应地分配模型段、微批次、带宽和传输功率。我们推导并利用了一个闭式收敛界来设计一个基于Lyapunov优化的动态段调度和资源分配(DSSDA)算法,确保了长期约束下的系统稳定性。在使用Transformer和BERT模型进行下游任务的广泛实验表明,CollaPipe将计算效率提高了高达15.09%,将端到端延迟降低了至少48.98%,并将单设备内存使用量削减了一半以上,从而在异构和动态通信环境中实现了在线学习。 |
| 2025-09-23 | Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning | link | 大语言模型(LLMs)的最新进展强调了微调(FT)技术在使LLMs适应特定任务方面的关键作用,尤其是在从头开始重新训练计算上不可行时。微调使LLMs能够利用任务或领域特定数据,生成更有效地满足目标应用需求的模型。然而,传统微调方法通常存在灾难性遗忘和次优数据效率的问题,限制了它们的实际应用性。为解决这些挑战,本文提出了DEAL,一个将低秩适应(LoRA)与持续微调策略相结合的新颖框架。通过引入知识保留和自适应参数更新模块,该框架缓解了现有微调方法的局限性,同时在隐私保护设置中保持了效率。在15个不同数据集上进行的实验表明,DEAL始终优于基线方法,在任务准确性和资源效率方面取得了显著提升。这些发现证明了我们方法在通过提高任务性能同时提升资源效率来推动LLMs持续适应方面的潜力。 |
| 2025-09-24 | COLT: Enhancing Video Large Language Models with Continual Tool Usage | null | 大语言模型(LLMs)的成功显著推动了视频理解的研究。为了利用训练有素的专家模型(即工具)的优势,视频大语言模型优先探索工具使用能力。现有方法要么提示闭源大语言模型,要么采用指令微调范式进行工具使用微调。然而,这些方法假设存在一个固定的工具库,并且难以泛化到工具数据不断演进和涌入的真实世界环境。为此,我们提出通过持续工具使用(简称COLT)来增强开源视频大语言模型,使其在连续的工具流中自动获取工具使用能力,而不会遭受对过去学习工具的“灾难性遗忘”。具体来说,我们的COLT集成了一个可学习的工具码本作为工具专用记忆系统。然后,根据用户指令与码本中工具特征之间的相似性,动态选择相关工具。为了释放视频大语言模型的工具使用潜力,我们收集了一个以视频为中心的工具使用指令微调数据集VideoToolBench。在先前的视频大语言模型基准和工具使用专用VideoToolBench数据集上进行的大量实验证明了我们提出的COLT的最先进性能。 |
| 2025-09-23 | COLT: Enhancing Video Large Language Models with Continual Tool Usage | null | 大语言模型(LLMs)的成功显著推动了视频理解研究。为了利用训练有素的专家模型(即工具)的优势,视频大语言模型优先探索工具使用能力。现有方法要么提示闭源大语言模型,要么采用指令微调范式进行工具使用微调。然而,这些方法假设存在一个固定的工具库,难以泛化到工具数据不断演变和涌入的真实世界环境。为此,我们提出通过持续工具使用能力(简称COLT)来增强开源视频大语言模型,使其能够在连续的工具流中自动获取工具使用能力,而不会遭受对过去学习工具的“灾难性遗忘”。具体而言,我们的COLT引入了一个可学习的工具码本作为特定于工具的记忆系统。然后,根据用户指令与码本中工具特征之间的相似性动态选择相关工具。为了释放视频大语言模型的工具使用潜力,我们收集了一个以视频为中心的工具使用指令微调数据集VideoToolBench。在之前的视频大语言模型基准和特定于工具使用的VideoToolBench数据集上进行的大量实验证明了我们提出的COLT具有最先进的性能。 |
| 2025-09-25 | Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills | link | 基于大型语言模型(LLMs)的机器人操作代码生成近期展现出潜力,能将人类指令直接转化为可执行代码,但现有方法仍存在噪声,受限于固定的基元和有限的上下文窗口,并且难以应对长周期任务。尽管已探索闭环反馈,但纠正后的知识通常以不当格式存储,限制了泛化能力并导致灾难性遗忘,这突显了学习可复用技能的必要性。此外,仅依赖LLM指导的方法在极长周期场景中经常失败,原因在于LLM在机器人领域推理能力有限,而此类问题对人类而言通常很容易识别。为解决这些挑战,我们提出了一种人机协作框架,该框架将纠正编码为可复用技能,并由外部记忆和带有提示机制的检索增强生成(Retrieval-Augmented Generation, RAG)支持以实现动态复用。在Ravens、Franka Kitchen和MetaWorld以及真实世界环境中的实验表明,我们的框架实现了0.93的成功率(比基线高出多达27%),并在纠正轮次中效率提高了42%。它能鲁棒地解决极长周期任务,例如“建造房屋”,这需要对20多个基元进行规划。 |
| 2025-09-23 | Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills | link | 基于大型语言模型(LLMs)的机器人操作代码生成最近通过将人类指令直接转换为可执行代码而展现出潜力,但现有方法仍然存在噪声,受限于固定的基元和有限的上下文窗口,并且难以处理长程任务。尽管已探索闭环反馈,但纠正后的知识通常以不当格式存储,限制了泛化能力并导致灾难性遗忘,这突出了学习可重用技能的必要性。此外,仅依赖LLM指导的方法在超长程场景中经常失败,原因在于LLM在机器人领域推理能力的局限性,而这些问题对人类来说通常很容易识别。为应对这些挑战,我们提出了一种人机协作(human-in-the-loop)框架,该框架将纠正编码为可重用技能,并由外部记忆以及带有提示机制的检索增强生成(Retrieval-Augmented Generation)提供支持以实现动态重用。在Ravens、Franka Kitchen和MetaWorld以及真实世界环境中的实验表明,我们的框架实现了0.93的成功率(比基线高出27%),并在纠正轮次中实现了42%的效率提升。它能够稳健地解决超长程任务,例如“建造房屋”,这需要对20多个基元进行规划。 |
| 2025-09-22 | AIMMerging: Adaptive Iterative Model Merging Using Training Trajectories for Language Model Continual Learning | null | 持续学习(CL)对于在动态的现实世界环境中部署大型语言模型(LLMs)至关重要,且无需昂贵的再训练。最近基于模型合并的方法引起了广泛关注,但它们在学习新知识和防止遗忘之间的权衡管理上仍面临挑战,这主要源于次优的合并次数和合并频率。在本文中,我们提出了一种新颖的持续学习框架——自适应迭代模型合并(AimMerging),它利用来自训练轨迹的学习和遗忘信号来动态监测模型的训练状态。在动态监测的指导下,训练轨迹引导的合并控制器自适应地确定迭代融合的时机和频率,而基于排练的知识融合模块则计算合并权重并执行融合。在三个不同模型尺寸(从770M到13B)的CL基准上进行的全面实验表明,AimMerging相较于现有最先进方法取得了显著的性能提升,在FWT和BWT上分别实现了80%和59%的平均相对提升。源代码已提供以供复现。 |
| 2025-09-21 | LifeAlign: Lifelong Alignment for Large Language Models with Memory-Augmented Focalized Preference Optimization | null | 对齐在大型语言模型(LLMs)中发挥着关键作用,使其与人类在特定任务/领域的偏好保持一致。传统的对齐方法面临灾难性遗忘问题,即模型在适应新偏好或领域时会丢失先前获得的知识。我们引入了LifeAlign,一个用于终身对齐的新颖框架,它使LLMs能够在顺序学习任务中保持一致的人类偏好对齐,而不会遗忘先前学到的知识。我们的方法包含两项关键创新。首先,我们提出了一种聚焦式偏好优化策略,该策略使LLMs与新偏好对齐,同时防止先前任务中获得的知识受到侵蚀。其次,我们开发了一种从短期到长期的记忆巩固机制,该机制利用内在降维将去噪的短期偏好表示融合到稳定的长期记忆中,从而实现跨多样化领域的对齐模式的高效存储和检索。我们在涵盖不同领域和偏好类型的多个顺序对齐任务中评估了LifeAlign。实验结果表明,与现有终身学习方法相比,我们的方法在保持偏好对齐质量和知识保留方面均取得了卓越的性能。代码和数据集将在GitHub上发布。 |
| 2025-09-21 | MCTS-EP: Empowering Embodied Planning with Online Preference Optimization | null | 本文介绍了MCTS-EP,一个结合大语言模型(LLM)与蒙特卡洛树搜索(MCTS)来训练具身智能体的在线学习框架。MCTS-EP集成了三个关键组件:用于偏好数据收集的MCTS引导探索、高效的多模态推理机制,以及基于偏好优化的迭代训练流程。我们理论上证明了当损失函数为强凸时,MCTS-EP实现了优于传统在线策略算法的性能界限,并展示了它可以被表述为GAIL的一种搜索增强变体。MCTS-EP在多个基准测试中取得了最先进的性能。在ALFWorld中,它对于文本任务和视觉任务分别达到了92%和87%的成功率。在WebShop中,它达到了0.81的平均奖励。MTCS-EP还将视觉ALFWorld中的平均交互步数从18.7/19.5步减少到10.2/9.9步。代码可在以下网址获取:https://github.com/xuhang-2/Embodied-Agent-Planning |
| 2025-09-23 | K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning via Knowledge Decoupling | null | 持续结构化知识推理(CSKR)专注于训练模型处理顺序任务,其中每个任务都涉及将自然语言问题转化为基于结构化知识的结构化查询。现有通用持续学习方法在应用于此任务时面临显著挑战,包括对异构结构化知识的泛化能力差以及随着任务增加而参数增长导致的推理效率低下。为解决这些局限性,我们提出了一种新颖的CSKR框架K-DeCore,它在固定数量的可调参数下运行。与现有方法不同,K-DeCore引入了一种知识解耦机制,将推理过程解耦为任务特定和任务无关阶段,有效弥合了不同任务之间的差距。在此基础上,K-DeCore集成了一种用于不同阶段的双视角记忆巩固机制,并引入了一种结构引导的伪数据合成策略,以进一步增强模型的泛化能力。在四个基准数据集上进行的大量实验证明,利用各种骨干大型语言模型,K-DeCore在多项指标上均优于现有持续学习方法。 |
| 2025-09-21 | AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software | null | 护栏对于大型语言模型(LLM)驱动的软件的安全部署至关重要。与具有有限、预定义输入-输出空间、本质上限制不安全行为的传统基于规则的系统不同,LLM实现了开放式、智能的交互——这为通过用户输入发起的越狱攻击打开了大门。护栏作为保护层,在不安全的提示到达LLM之前对其进行过滤。然而,先前的研究表明,即使是面对GPT-4o等高级模型,越狱攻击的成功率仍然超过70%。尽管LlamaGuard等护栏报告的准确率高达95%,但我们的初步分析显示,当面对未见攻击时,它们的性能会急剧下降——低至12%。这凸显了一个日益增长的软件工程挑战:如何构建一个能够动态适应新出现的威胁的部署后护栏?为解决此问题,我们提出了AdaptiveGuard,这是一种自适应护栏,它将新型越狱攻击检测为分布外(OOD)输入,并通过持续学习框架学习防御这些攻击。通过经验评估,AdaptiveGuard实现了96%的OOD检测准确率,仅用两个更新步骤即可适应新攻击,并在适应后在分布内数据上保持超过85%的F1分数,优于其他基线。这些结果表明,AdaptiveGuard是一种能够在部署后响应新出现的越狱策略而演变的护栏。我们已在https://github.com/awsm-research/AdaptiveGuard发布了我们的AdaptiveGuard和所研究的数据集,以支持进一步的研究。 |
| 2025-09-19 | Towards Robust Visual Continual Learning with Multi-Prototype Supervision | null | 语言引导监督利用来自预训练语言模型 (PLM) 的冻结语义目标,已成为视觉持续学习 (CL) 的一个有前景的范式。然而,依赖单一目标引入了两个关键限制:1) 语义模糊性,即多义类别名称会导致冲突的视觉表示;2) 类内视觉多样性,即单一原型无法捕捉类内丰富的视觉外观多样性。为此,我们提出了 MuproCL,一个用多个上下文感知原型取代单一目标的新颖框架。具体而言,我们采用一个轻量级大型语言模型 (LLM) 代理来执行类别消歧和视觉模态扩展,以生成一组鲁棒的语义原型。LogSumExp 聚合机制允许视觉模型对于给定图像自适应地与最相关的原型对齐。在各种持续学习 (CL) 基线上进行的大量实验表明,MuproCL 持续提升了性能和鲁棒性,为语言引导的持续学习开辟了一条更有效的路径。 |
| 2025-09-19 | UNIV: Unified Foundation Model for Infrared and Visible Modalities | null | 联合RGB可见光与红外感知的需求迅速增长,尤其是在各种天气条件下实现鲁棒性能。尽管用于RGB可见光和红外数据的预训练模型在各自领域表现出色,但在多模态场景(如配备两种传感器的自动驾驶汽车)中它们往往表现不佳。为解决这一挑战,我们提出了一种受生物学启发,用于红外和可见光模态的统一基础模型(UNIV),该模型具有两项关键创新。首先,我们引入了逐块跨模态对比学习(PCCL),这是一种注意力引导的蒸馏框架,它模仿视网膜水平细胞的侧向抑制,能够在实现有效跨模态特征对齐的同时,与任何基于Transformer的架构兼容。其次,我们的双知识保持机制模拟了视网膜双极细胞的信号路由——结合LoRA适配器(增加2%参数)与同步蒸馏以防止灾难性遗忘,从而复刻了视网膜的明视(视锥细胞驱动)和暗视(视杆细胞驱动)功能。为支持跨模态学习,我们引入了MVIP数据集,这是迄今为止最全面的可见光-红外基准,它包含98,992对精确对齐的图像,涵盖多种场景。大量实验证明,UNIV在红外任务上表现优越(语义分割mIoU提升1.7,目标检测mAP提升0.7),同时在可见光RGB任务上保持了99%以上的基线性能。我们的代码可在https://github.com/fangyuanmao/UNIV获取。 |
| 2025-09-18 | The Energy-Efficient Hierarchical Neural Network with Fast FPGA-Based Incremental Learning | null | 深度学习日益增长的计算和能源需求,特别是在基础模型和大语言模型(LLM)等大规模架构中,对可持续性构成了严峻挑战。传统的基于梯度的训练方法效率低下,需要大量的迭代更新和高功耗。为解决这些局限性,我们提出了一种混合框架,将分层分解与基于FPGA的直接方程求解和增量学习相结合。我们的方法将神经网络分为两个功能层级:较低层通过FPGA上的单步方程求解进行优化,以实现高效且可并行化的特征提取;而较高层则采用自适应增量学习,以支持持续更新而无需完全重新训练。在此基础上,我们引入了复合LLM框架,该框架明确地在两个层级中部署了LLM模块。较低层LLM以最小的能源开销处理可重用表示学习,而较高层LLM则通过能源感知更新执行自适应决策。这种集成设计增强了可扩展性,减少了冗余计算,并符合可持续AI的原则。理论分析和架构见解表明,我们的方法显著降低了计算成本,同时保持了高模型性能,使其非常适合在能源受限环境中进行边缘部署和实时适应。 |
| 2025-09-18 | Forecasting and Visualizing Air Quality from Sky Images with Vision-Language Models | null | 空气污染仍然是对公众健康和环境可持续性构成严重威胁,然而传统监测系统常受限于有限的空间覆盖和可及性。本文提出一种人工智能驱动的代理,该代理利用天空图像预测环境空气污染水平,并使用生成式建模合成逼真的污染场景可视化。我们的方法将统计纹理分析与监督学习相结合进行污染分类,并利用视觉-语言模型(VLM)引导的图像生成来产生可解释的空气质量状况表示。生成的视觉效果模拟不同程度的污染,为面向用户的界面提供基础,从而提高透明度并支持知情的环境决策。这些输出可以无缝集成到旨在增强态势感知并鼓励基于实时预测的行为响应的智能应用中。我们使用城市天空图像数据集验证了我们的方法,并证明了其在污染水平估计和语义一致的视觉合成方面的有效性。系统设计还进一步融合了以人为中心的用户体验原则,以确保空气质量预测的可及性、清晰度和公众参与度。为支持可扩展和节能的部署,未来的迭代将整合一种绿色CNN架构,该架构通过基于FPGA的增量学习得到增强,从而实现在边缘平台上的实时推理。 |
| 2025-09-18 | Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification | null | 3D数字内容的快速增长要求针对开放世界场景的可扩展识别系统。然而,现有的3D类别增量学习方法在极端数据稀缺下,由于几何不对齐和纹理偏置,表现不佳。尽管最近的方法将3D数据与2D基础模型(例如CLIP)相结合,但它们存在由纹理偏置投影和几何-纹理线索不加区分的融合导致的语义模糊问题,从而导致不稳定的决策原型和灾难性遗忘。为解决这些问题,我们提出了跨模态几何校正(CMGR)框架,该框架通过利用CLIP的层次空间语义来增强3D几何保真度。具体而言,我们引入了一个结构感知几何校正模块,通过注意力驱动的几何融合,将3D部件结构与CLIP的中间空间先验进行分层对齐。此外,一个纹理放大模块合成最小但具有区分性的纹理,以抑制噪声并增强跨模态一致性。为进一步稳定增量原型,我们采用一个基类-新类判别器来隔离几何变异。大量实验表明,我们的方法显著改善了3D小样本类别增量学习,在跨域和域内设置中均实现了卓越的几何一致性和对纹理偏置的鲁棒性。 |
| 2025-09-18 | Cross-Modal Knowledge Distillation for Speech Large Language Models | null | 在这项工作中,我们首次系统性评估了语音大语言模型中的灾难性遗忘和模态不一致性,结果表明,引入语音能力即使在输入仍为文本时,也会损害知识和推理能力,并且当查询为语音时,性能会进一步下降。为了解决这些挑战,我们提出了一个跨模态知识蒸馏框架,该框架利用文本到文本和语音到文本两种通道,将知识从基于文本的教师模型迁移到语音大语言模型。在对话和音频理解任务上进行的广泛实验验证了我们方法在保留文本知识、改善跨模态对齐以及增强基于语音交互中的推理能力方面的有效性。 |
| 2025-09-18 | Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications | null | CLIP等基础模型在多种视觉任务中展现了卓越的零样本和少样本迁移能力。然而,当针对人脸识别(FR)、形态攻击检测(MAD)和演示攻击检测(PAD)等高度专业化的生物识别任务进行微调时,这些模型可能会出现过度专业化,从而失去其基础优势之一——跨领域泛化能力。在这项工作中,我们通过评估三个针对FR、MAD和PAD任务微调的CLIP模型实例,系统地量化了这些权衡。我们评估了每个经过适应的模型以及原始的CLIP基线模型在14个通用视觉数据集上的零样本和线性探测协议下的性能,同时也在常见的FR、MAD和PAD基准测试中进行了评估。我们的结果表明,微调模型存在过度专业化问题,尤其是在针对复杂的人脸识别任务进行微调时。此外,我们的结果指出,任务复杂性和分类头设计(多类别FR与二元类别MAD和PAD)与灾难性遗忘的程度相关。采用ViT-L骨干网络的FRoundation模型在大型FR基准测试IJB-C上优于其他方法,实现了高达58.52%的改进。然而,它在ImageNetV2上经历了显著的性能下降,仅达到51.63%,而基线CLIP模型达到了69.84%。此外,较大的CLIP架构始终比小型变体保留了更多的模型原始泛化能力,表明增加模型容量可能有助于减轻过度专业化。 |
| 2025-09-18 | OnlineMate: An LLM-Based Multi-Agent Companion System for Cognitive Support in Online Learning | null | 在在线学习环境中,学生通常缺乏个性化的同伴互动,而这种互动在支持认知发展和学习投入方面起着关键作用。尽管之前的研究已经利用大语言模型(LLMs)为学生模拟交互式动态学习环境,但这些互动仍然局限于对话交流,缺乏对学习者个性化学习和认知状态的洞察和适应。结果是,学生与AI学习伙伴进行讨论的兴趣不高,并且他们难以从这些互动中获得启发。为了解决这一挑战,我们提出了OnlineMate,一个由LLMs驱动并整合了心智理论(ToM)的多智能体学习伙伴系统。OnlineMate能够模拟同伴般的智能体角色,在协作讨论中适应学习者的认知状态,并推断他们的心理状态,例如误解、困惑或动机。通过整合心智理论能力,该系统可以动态调整其交互策略,以支持高阶思维和认知的发展。在模拟学习场景中的实验结果表明,OnlineMate有效地促进了深度学习和讨论,同时增强了在线教育环境中的认知投入。 |
| 2025-09-18 | AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production | null | 随着大语言模型(LLMs)在自动化复杂多智能体工作流中的日益普及,组织面临着来自错误、涌现行为和系统性故障的日益增长的风险,而这些是当前评估方法未能捕捉到的。我们提出了AgentCompass,这是首个专门为智能体工作流的部署后监控和调试设计的评估框架。AgentCompass通过一个结构化的多阶段分析管道模拟专家调试员的推理过程,包括:错误识别和分类、主题聚类、定量评分和策略性总结。该框架通过一个双记忆系统——情景记忆和语义记忆——得到进一步增强,从而实现了跨执行的持续学习。通过与设计伙伴的合作,我们展示了该框架在真实世界部署中的实用性,并在公开可用的TRAIL基准上确立了其有效性。AgentCompass在关键指标上取得了最先进的结果,同时揭示了人工标注中遗漏的关键问题,强调了其作为一种强大且以开发者为中心的工具,在生产环境中对智能体系统进行可靠监控和改进的作用。 |
| 2025-09-17 | CL $^2$GEC: A Multi-Discipline Benchmark for Continual Learning in Chinese Literature Grammatical Error Correction | null | 自动化写作辅助在不同学术领域日益增长的需求,凸显了对能够跨学科适应的鲁棒中文语法纠错(CGEC)系统的需求。然而,现有的CGEC研究很大程度上缺乏用于多学科的学术写作的专用基准,忽视了持续学习(CL)作为处理领域特定语言变异和防止灾难性遗忘的一种有前景的解决方案。为了填补这一关键空白,我们引入了CL$^2$GEC,这是首个用于中文文献语法纠错的持续学习基准,旨在评估跨多个学术领域的自适应CGEC。我们的基准包含10,000个人工标注的句子,涵盖10个学科,每个学科都展现出独特的语言风格和错误模式。CL$^2$ GEC专注于在持续学习设置下评估语法纠错,模拟顺序暴露于不同的学术学科,以反映真实的编辑动态。我们在顺序微调、参数高效适应和四种代表性CL算法下评估了大型语言模型,使用了标准GEC指标和适应任务级别变化的持续学习指标。实验结果表明,基于正则化的方法比基于回放或朴素顺序的方法能更有效地缓解遗忘。我们的基准为未来在跨不同学术领域的自适应语法纠错研究提供了坚实的基础。 |
| 2025-09-10 | A Role-Aware Multi-Agent Framework for Financial Education Question Answering with LLMs | null | 问答 (QA) 在金融教育中扮演核心角色,然而现有的大型语言模型 (LLM) 方法往往未能捕捉到解决金融问题所需的细致入微且专业化的推理。金融领域要求多步定量推理、熟悉领域特定术语以及理解现实世界情景。我们提出了一个多智能体框架,该框架利用基于角色的提示 (role-based prompting) 来提高在领域特定问答 (QA) 上的性能。我们的框架包含一个基础生成器 (Base Generator)、一个证据检索器 (Evidence Retriever) 和一个专家评审员智能体 (Expert Reviewer),它们通过单次迭代 (single-pass iteration) 协同工作以生成一个精炼的答案。我们使用来自在线学习平台 Study.com 的 3,532 个专家设计的金融教育问题对我们的框架进行了评估。我们利用检索增强生成 (RAG) 从 6 本金融教科书中获取上下文证据,并为领域专家评审员设计了提示策略。我们的实验表明,基于批判的精炼 (critique-based refinement) 将答案准确率相较于零样本思维链 (zero-shot Chain-of-Thought) 基线提高了 6.6-8.3%,其中 Gemini-2.0-Flash 取得了最高性能。此外,我们的方法使 GPT-4o-mini 能够达到与经过金融领域微调的 FinGPT-mt_Llama3-8B_LoRA 模型相当的性能。我们的结果展示了一种提升金融问答 (QA) 的成本效益方法,并为多智能体金融大型语言模型 (LLM) 系统的进一步研究提供了见解。 |
| 2025-09-10 | Ubiquitous Intelligence Via Wireless Network-Driven LLMs Evolution | null | 我们引入泛在智能作为一种范式,其中大语言模型(LLMs)在无线网络驱动的生态系统中演进。与静态模型部署不同,这种方法通过网络和LLMs之间的协同,实现了可扩展和持续的智能提升。无线网络支持系统编排的终身学习,而LLMs则推动了更具适应性和响应性的下一代网络发展。这种协同演进凸显了向自我完善系统的转变,在多样化和资源受限的环境中持续提升能力。 |
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-28 | Group Relative Attention Guidance for Image Editing | null | 近来,基于Diffusion-in-Transformer (DiT) 模型的图像编辑技术得到了迅速发展。然而,现有编辑方法往往缺乏对编辑程度的有效控制,限制了它们实现更定制化结果的能力。为了解决这一局限性,我们研究了DiT模型中的MM-注意力机制,并观察到Query和Key token共享一个仅依赖于层的偏置向量。我们将这一偏置解释为代表了模型固有的编辑行为,而每个token与其对应偏置之间的差值(delta)则编码了特定于内容的编辑信号。基于这一见解,我们提出了组相对注意力引导(GRAG),这是一种简单而有效的方法,它重新加权了不同token的delta值,以调节模型相对于编辑指令对输入图像的关注,从而实现了无需任何微调即可对编辑强度进行连续和细粒度的控制。在现有图像编辑框架上进行的大量实验表明,GRAG可以仅用四行代码集成,并持续提升编辑质量。此外,与常用的无分类器引导(Classifier-Free Guidance)相比,GRAG实现了对编辑程度更平滑和更精确的控制。我们的代码将发布在https://github.com/little-misfit/GRAG-Image-Editing。 |
| 2025-10-28 | SALS: Sparse Attention in Latent Space for KV cache Compression | null | 能够处理长上下文的大语言模型需求量很大,但由于庞大的键值(KV)缓存大小和高内存带宽需求,其推理仍然具有挑战性。先前研究表明,KV缓存在隐藏维度内呈现低秩特性,这暗示了有效压缩的潜力。然而,由于现代大语言模型中广泛采用旋转位置嵌入(RoPE)机制,朴素的低秩压缩会遭受严重的精度下降或造成新的速度瓶颈,因为低秩缓存必须首先被重构以应用RoPE。在本文中,我们提出了两个关键见解:首先,RoPE应用于键向量会增加它们的方差,进而导致更高的秩;其次,键向量被转换到潜在空间后,它们在大多数层中大体上保持了它们的表示。基于这些见解,我们提出了潜在空间中的稀疏注意力(SALS)框架。SALS通过低秩投影将KV缓存投影到紧凑的潜在空间,并在这个空间中利用无RoPE的查询-键交互执行稀疏token选择。通过仅重构一小部分重要token,它避免了完整KV缓存重构的开销。我们使用LLaMA2-7b-chat和Mistral-7b这两个大规模模型在各种任务上全面评估了SALS,并使用LLaMA3.1-8B-Instruct在RULER-128k基准测试上额外验证了其可扩展性。实验结果表明,SALS通过保持有竞争力的精度实现了SOTA性能。在不同设置下,SALS在4K序列上实现了6.4倍的KV缓存压缩和注意力操作器5.7倍的加速,相比于FlashAttention2。对于端到端吞吐量性能,我们分别在4k和32K序列上实现了相对于GPT-fast 1.4倍和4.5倍的提升。 |
| 2025-10-28 | EddyFormer: Accelerated Neural Simulations of Three-Dimensional Turbulence at Scale | null | 由于其多尺度相互作用,通过计算求解湍流仍然是流体力学中的一个核心挑战。通过直接数值模拟 (DNS) 完全解析大规模湍流在计算上成本过高,这推动了数据驱动的机器学习替代方案的发展。在这项工作中,我们提出了EddyFormer,这是一种基于Transformer的谱元 (SEM) 架构,用于大规模湍流模拟,它结合了谱方法的精度和注意力机制的可扩展性。我们引入了一种SEM分词方法,将流体分解为网格尺度和次网格尺度分量,从而能够捕获局部和全局特征。我们创建了一个新的三维各向同性湍流数据集,并训练EddyFormer在256^3分辨率下达到了DNS级别的精度,相较于DNS提供了30倍的加速。当应用于比训练中大4倍的未知域时,EddyFormer在能量谱、关联函数和结构函数等物理不变度量上保持了精度,显示出域泛化能力。在包含多种湍流的The Well基准测试套件上,EddyFormer解决了先前机器学习模型无法收敛的案例,在广泛的物理条件下准确地再现了复杂动力学。 |
| 2025-10-27 | QoSGMAA: A Robust Multi-Order Graph Attention and Adversarial Framework for Sparse QoS Prediction | null | 随着互联网技术的快速发展,网络服务已成为向用户提供多样化和可靠应用程序的关键。然而,可用服务数量的指数级增长导致了许多相似的服务产品,为选择最优服务带来了严峻挑战。因此,准确预测服务质量(QoS)成为确保可靠性和用户满意度的基本前提。然而,现有的QoS预测方法往往难以捕获丰富的上下文信息,并在极端数据稀疏性和结构噪声下表现不佳。为弥补这一不足,我们提出了一种新颖的架构QoSMGAA,专门设计用于提高复杂嘈杂网络服务环境中的预测准确性。QoSMGAA集成多阶注意力机制,有效聚合广泛的上下文数据并预测缺失的QoS值。此外,我们的方法结合对抗性神经网络,基于转换后的交互矩阵执行自回归监督学习。为了捕获用户和服务之间复杂的高阶交互,我们采用一种利用Gumbel-Softmax方法的离散采样技术来生成信息丰富的负样本。在大型真实世界数据集上进行的全面实验验证表明,我们提出的模型显著优于现有基线方法,突显了其在服务选择和推荐场景中实际部署的巨大潜力。 |
| 2025-10-26 | ConMatFormer: A Multi-attention and Transformer Integrated ConvNext based Deep Learning Model for Enhanced Diabetic Foot Ulcer Classification | null | 糖尿病足溃疡(DFU)检测是一项临床意义重大但极具挑战性的任务,原因在于公开可用数据集的稀缺性和可变性。为解决这些问题,我们提出了ConMatFormer,这是一种新型混合深度学习架构,它以协同工作的方式结合了ConvNeXt块、卷积块注意力模块(CBAM)和双重注意力网络(DANet)等多种注意力机制以及Transformer模块。这种设计有助于提取更好的局部特征和理解全局上下文,从而使我们能够非常准确地建模不同类型DFU的微小皮肤模式。为解决类别不平衡问题,我们采用了数据增强方法。在初始阶段,使用ConvNeXt块获取详细的局部特征。随后,我们通过添加Transformer模块来增强长距离依赖性,从而构建了该模型。这使我们能够精确定位代表性不足或构成少数的DFU类别。在DS1 (DFUC2021) 和 DS2 (糖尿病足溃疡 (DFU)) 数据集上的测试表明,ConMatFormer在准确性、可靠性和灵活性方面优于最先进的(SOTA)卷积神经网络(CNN)和Vision Transformer(ViT)模型。所提出的方法在单次实验中达到了0.8961的准确率和0.9160的精确率,这比当前DFU分类标准有了显著提高。此外,通过4折交叉验证,所提出的模型达到了0.9755的准确率,标准差仅为0.0031。我们进一步应用了可解释人工智能(XAI)方法,例如Grad-CAM、Grad-CAM++和LIME,以持续监控决策过程的透明度和可信度。我们的发现为DFU分类设定了新基准,并为医学图像分析提供了一个混合注意力Transformer框架。 |
| 2025-10-26 | Scalable Neural Decoders for Practical Real-Time Quantum Error Correction | null | 实现容错量子计算机的关键组件是实时、可扩展和精确的解码。尽管基于Transformer的神经网络解码器(如AlphaQubit)已表现出高精度,但其核心注意力机制的计算复杂度(随码距 $d$以$\mathcal{O}(d^4)$的速度增长)导致解码速度不足以满足实际实时应用。在本工作中,我们介绍并评估了一种基于Mamba的解码器,它是一种具有$\mathcal{O}(d^2)$复杂度的状态空间模型。在使用Sycamore硬件数据进行的内存实验中,我们的Mamba解码器与基于Transformer的对应模型性能匹配,这表明其卓越的效率并未以牺牲性能为代价。至关重要的是,在考虑解码器引起的噪声的模拟实时场景中,Mamba解码器显著优于Transformer,表现出$0.0104$的更高错误阈值,而Transformer为$0.0097$ 。这些结果表明Mamba解码器在速度和精度之间提供了引人注目的平衡,使其成为可扩展、实时量子纠错的一种有前景的架构。 |
| 2025-10-26 | AesCrop: Aesthetic-driven Cropping Guided by Composition | null | 美学驱动的图像裁剪对于视图推荐和缩略图生成等应用至关重要,在这些应用中,视觉吸引力显著影响用户参与度。视觉吸引力的一个关键因素是构图——图像中元素的精心安排。一些方法已通过基于评估和基于回归的范式成功地纳入了构图知识。然而,基于评估的方法缺乏全局性,而基于回归的方法缺乏多样性。最近,整合这两种范式的混合方法应运而生,弥补了二者之间的差距,以实现更好的多样性和全局性。值得注意的是,现有的混合方法未能纳入摄影构图指导,而这正是定义摄影美学的关键属性。在这项工作中,我们介绍了AesCrop,这是一种构图感知的混合图像裁剪模型,它集成了一个VMamba图像编码器,该编码器通过新颖的Mamba构图注意力偏置(MCAB)进行增强,并结合一个Transformer解码器,以执行端到端基于排名的图像裁剪,生成多个裁剪结果及其相应的质量分数。通过将构图线索显式编码到注意力机制中,MCAB指导AesCrop关注构图上最显著的区域。大量实验表明,AesCrop优于当前最先进的方法,提供了卓越的定量指标和定性上更令人满意的裁剪结果。 |
| 2025-10-28 | LongCat-Video Technical Report | null | 视频生成是通向世界模型的关键路径,其中高效的长视频推理是一项关键能力。为此,我们引入了LongCat-Video,一个拥有136亿参数的基础视频生成模型,在多种视频生成任务上表现出强大的性能。它尤其擅长高效高质量的长视频生成,代表着我们迈向世界模型的第一步。主要特点包括:多任务统一架构:LongCat-Video基于扩散Transformer (DiT) 框架构建,通过单一模型支持文本到视频、图像到视频和视频续写任务;长视频生成:在视频续写任务上进行预训练,使LongCat-Video能够在生成数分钟长的视频时保持高质量和时间连贯性;高效推理:LongCat-Video通过沿时间轴和空间轴采用由粗到细的生成策略,在数分钟内生成720p、30fps的视频。块稀疏注意力进一步提高了效率,尤其在高分辨率下;基于多奖励RLHF的强大性能:多奖励RLHF训练使LongCat-Video的性能与最新的闭源模型和领先的开源模型相当。代码和模型权重已公开可用,以加速该领域的发展。 |
| 2025-10-24 | Transformer Based Linear Attention with Optimized GPU Kernel Implementation | null | 在极其成功的Transformer架构中,原始的基于softmax的注意力机制(常规注意力)计算 $N$个token之间的注意力,其中每个token都嵌入在$D$维的头部中,其时间复杂度为$O(N^2D)$。鉴于Transformer的成功,在训练和推理期间提高其运行效率是一个热门研究领域。其中一种方法是引入线性注意力(LA)机制,它提供了$O(ND^2)$ 的线性时间复杂度,并已证明与常规注意力具有可比的准确性。然而,线性注意力在实践中滞后于其理论效率。我们为线性注意力的前向和反向传播提出了一种新颖的方法,并提供了一个高度优化的CUDA实现。我们的方法在速度上超越了最先进技术3.3倍,并使内存消耗减少了3.6倍。我们通过训练一个14亿参数的语言模型,在单层和端到端设置中验证了这些改进,该模型在主要推理基准测试中表现出与常规注意力相似的表达能力。 |
| 2025-10-24 | BachVid: Training-Free Video Generation with Consistent Background and Character | null | 扩散Transformer (DiT) 最近在文本到视频 (T2V) 生成方面取得了显著进展。然而,生成具有一致角色和背景的多个视频仍然是一个重大挑战。现有方法通常依赖于参考图像或大量训练,并且通常只解决角色一致性,将背景一致性留给图像到视频模型。我们引入了BachVid,这是首个无需训练的方法,无需任何参考图像即可实现一致的视频生成。我们的方法基于对DiT注意力机制和中间特征的系统分析,揭示了其在去噪过程中提取前景掩码和识别匹配点的能力。我们的方法利用这一发现,首先生成一个身份视频并缓存中间变量,然后将这些缓存变量注入到新生成视频的相应位置,从而确保多个视频中的前景和背景一致性。实验结果表明,BachVid在无需额外训练的情况下,在生成的视频中实现了鲁棒的一致性,为无需依赖参考图像或额外训练的一致视频生成提供了一种新颖且高效的解决方案。 |
| 2025-10-23 | Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction | null | 将整个输入序列压缩成固定大小循环状态的线性注意力模型为Transformers提供了一种高效的替代方案,但其有限内存导致的遗忘问题损害了检索密集型任务。为缓解此问题,我们探索了一系列恢复对过去token直接访问的混合模型。我们交错使用了介于线性注意力和全注意力之间时间与空间复杂度的token混合器,包括带有token逐出的稀疏注意力以及查询感知的原生稀疏注意力。特别地,我们提出了一种新颖的可学习token逐出方法。结合滑动窗口注意力,一个端到端可训练的轻量级CNN从过去和未来相邻token中聚合信息,以自适应地为每个头保留一组有限的关键KV对,从而保持线性注意力恒定的时间和空间复杂性。我们为稀疏注意力机制提供了高效的Triton内核。在检索密集型基准上的经验评估支持了我们方法的有效性。 |
| 2025-10-23 | DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion | link | 扩散Transformer模型能够生成具有卓越真实感和细节的图像,然而,由于自注意力机制的二次复杂度随图像token数量的增加而增长,在超高分辨率下训练它们仍然极其昂贵。本文介绍了一种新颖的、无需训练的方法——动态位置外推(DyPE),它使预训练的扩散Transformer能够在远超其训练数据的分辨率下合成图像,且无额外采样成本。DyPE利用了扩散过程固有的频谱演进特性,其中低频结构早期收敛,而高频则需要更多步骤来解析。具体而言,DyPE在每个扩散步骤中动态调整模型的位置编码,使其频谱与生成过程的当前阶段相匹配。这种方法使我们能够生成分辨率远超训练分辨率的图像,例如,使用FLUX生成1600万像素的图像。在多个基准测试中,DyPE持续提升性能,并在超高分辨率图像生成中实现了最先进的真实感,且增益在更高分辨率下变得更加显著。项目页面可在https://noamissachar.github.io/DyPE/访问。 |
| 2025-10-23 | Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems | null | 本文提出了DiRecGNN,一个用于微软云服务监控的注意力增强实体推荐框架。我们提供了云服务所有者所感知的此功能实用性的见解以及从部署中吸取的教训。具体来说,我们引入了为云服务推荐应由自动化看门狗(监控器)跟踪的最佳属性(维度)子集的问题。首先,我们构建了生产规模的监控异构图。这些实体的交互动态通常以有限的结构和参与信息为特征,导致现有最先进方法性能不佳。此外,传统方法由于其同质性,未能捕获跨越长距离的实体间依赖关系。因此,我们提出了一种受Transformer架构启发的注意力增强实体排序模型。我们的模型利用多头注意力机制来关注异构邻居及其属性,并进一步关注使用随机游走采样的路径以捕获长距离依赖关系。我们还采用多方面损失函数来优化相关推荐,同时尊重数据的固有稀疏性。经验评估表明,相对于现有方法有显著改进,我们的模型在MRR方面实现了43.1%的增长。此外,使用这些功能的产品团队认为该功能有用,并将其评为4.5(满分5分)。 |
| 2025-10-23 | A Transformer Inspired AI-based MIMO receiver | null | 我们提出 AttDet,这是一种受 Transformer 启发的 MIMO(多输入多输出)检测方法,它将每个传输层视为一个 token,并通过轻量级自注意力机制学习流间干扰。查询和键直接从估计的信道矩阵中获得,因此注意力分数量化了信道相关性。值由匹配滤波器输出初始化,并迭代地细化。AttDet 的设计结合了基于模型的解释性与数据驱动的灵活性。我们通过在真实的 5G 信道模型以及高阶混合 QAM 调制编码方案下的链路级仿真证明,AttDet 能够接近最优的 BER/BLER(误码率/误块率)性能,同时保持可预测的多项式复杂度。 |
| 2025-10-22 | Online Handwritten Signature Verification Based on Temporal-Spatial Graph Attention Transformer | null | 手写签名验证是身份认证的一个关键方面,在金融和电子商务等各种领域都有应用。然而,由于用户内部差异性和伪造风险,在签名验证中实现高精度仍然具有挑战性。本文提出了一种用于动态签名验证的新颖方法:时空图注意力Transformer (TS-GATR)。TS-GATR结合了图注意力网络 (GAT) 和门控循环单元 (GRU),以建模签名数据中的空间和时间依赖性。TS-GATR通过将签名表示为图,其中每个节点捕获动态特征(例如位置、速度、压力),并利用注意力机制建模它们复杂的关联,从而提升了验证性能。所提出的方法进一步采用了双图注意力Transformer (DGATR) 模块,该模块利用k步和k近邻邻接图分别建模局部和全局空间特征。为了捕获长期时间依赖性,该模型集成了GRU,从而增强了其在签名验证过程中学习动态特征的能力。在MSDS和DeepSignDB等基准数据集上进行的全面实验表明,TS-GATR超越了当前最先进的方法,在各种场景下持续实现了更低的等错误率 (EER)。 |
| 2025-10-21 | Advancing Brain Tumor Segmentation via Attention-based 3D U-Net Architecture and Digital Image Processing | link | 在医学诊断领域,人工智能(AI)的快速发展已显著推动了脑肿瘤分割技术的显著提升。U-Net等编码器-解码器架构通过有效提取磁共振成像(MRI)扫描中的有意义表示,在三维脑肿瘤分割中发挥了变革性作用。然而,标准U-Net模型在准确勾勒肿瘤区域方面面临挑战,特别是在处理不规则形状和模糊边界时。此外,在BraTS数据集等高分辨率MRI数据上训练鲁棒的分割模型需要大量的计算资源,并且经常面临类别不平衡相关的挑战。本研究提出将注意力机制集成到三维U-Net模型中,使模型能够在分割过程中捕获复杂的细节并优先处理信息丰富的区域。此外,本研究利用一种基于数字图像处理技术的肿瘤检测算法来解决训练数据不平衡问题并减轻偏差。本研究旨在提高脑肿瘤分割的性能,最终提高诊断的可靠性。为实现这一目标,所提出的模型在BraTS 2020数据集上使用各种性能指标进行了彻底评估和衡量。所得结果表明,该模型优于相关研究,表现出0.975的Dice系数、0.988的特异性和0.995的敏感性,这表明所提出模型在改善脑肿瘤分割方面的有效性,为临床环境中可靠诊断提供了宝贵见解。 |
| 2025-10-21 | UltraGen: High-Resolution Video Generation with Hierarchical Attention | null | 视频生成领域的近期进展使得制作视觉上引人入胜的视频成为可能,在内容创作、娱乐和虚拟现实等领域具有广泛应用。然而,由于注意力机制相对于输出宽度和高度的二次计算复杂度,大多数现有基于扩散Transformer的视频生成模型局限于低分辨率输出 (<=720P)。这种计算瓶颈使得原生高分辨率视频生成 (1080P/2K/4K) 在训练和推理时都变得不切实际。为应对这一挑战,我们提出了UltraGen,一种新颖的视频生成框架,能够实现i) 高效且ii) 端到端的原生高分辨率视频合成。具体而言,UltraGen采用了一种基于全局-局部注意力分解的分层双分支注意力架构,将完整注意力分解为一个用于高保真区域内容的局部注意力分支和一个用于整体语义一致性的全局注意力分支。我们进一步提出了一种空间压缩全局建模策略以高效学习全局依赖,以及一种分层跨窗口局部注意力机制以降低计算成本,同时增强不同局部窗口之间的信息流。大量实验表明,UltraGen能够首次有效地将预训练的低分辨率视频模型扩展到1080P乃至4K分辨率,在定性和定量评估中均优于现有最先进方法和基于超分辨率的两阶段流水线。 |
| 2025-10-21 | MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation | null | 使用扩散Transformer (DiT) 生成长视频时,全注意力机制与序列长度的二次复杂度增长是其瓶颈。由于注意力高度冗余,输出主要由一小部分查询-键对决定。现有的稀疏方法依赖于块级粗略估计,其准确性与效率的权衡受限于块大小。本文介绍了一种高效的稀疏注意力机制——组混合注意力 (MoGA),它使用轻量级、可学习的token路由器来精确匹配token,而无需块级估计。通过语义感知路由,MoGA 实现了有效的长程交互。作为一种无核方法,MoGA 可以与现代注意力堆栈(包括FlashAttention和序列并行)无缝集成。基于MoGA,我们开发了一个高效的长视频生成模型,该模型能够端到端地生成分钟级、多镜头、480p、24帧/秒的视频,其上下文长度约为580k。在各种视频生成任务上的全面实验验证了我们方法的有效性。 |
| 2025-10-21 | AWSPNet: Attention-based Dual-Tree Wavelet Scattering Prototypical Network for MIMO Radar Target Recognition and Jamming Suppression | null | 数字射频存储器(DRFM)电子对抗的日益增多对雷达系统的生存能力和有效性构成了严重威胁。这些干扰器能够生成大量欺骗性假目标,使雷达的处理能力不堪重负并掩盖真实目标。因此,鲁棒地分辨真实目标和复杂干扰信号的能力,尤其是在低信噪比(SNR)环境中,至关重要。本文介绍了基于注意力的双树小波散射原型网络(AWSPNet),这是一种专为同时进行雷达目标识别和干扰抑制而设计的深度学习框架。AWSPNet的核心是编码器,它利用双树复小波变换来提取对噪声和信号平移具有固有鲁棒性的特征。这些特征通过注意力机制和预训练骨干网络得到进一步提炼。为解决标注数据有限的挑战并增强泛化能力,我们在训练阶段采用了有监督对比学习策略。分类由原型网络执行,该网络在少样本学习场景中特别有效,能够快速适应新的信号类型。我们通过广泛的实验证明了我们方法的有效性。结果表明,AWSPNet在-6 dB信噪比下达到了90.45%的准确率。此外,我们通过t-SNE可视化提供了网络内部工作原理的物理解释,分析了模型不同阶段的特征可分离性。最后,通过将AWSPNet与时域滑动窗口方法相结合,我们提出了一个完整算法,该算法不仅能够识别而且能够有效抑制各种类型的干扰,从而验证了其在复杂电磁环境中实际应用的潜力。 |
| 2025-10-21 | Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference | link | 大语言模型 (LLMs) 现在支持数十万到数百万个token的上下文窗口,从而能够实现长文档摘要、大规模代码合成、多文档问答和持久多轮对话等应用。然而,如此扩展的上下文加剧了自注意力机制的二次方成本,导致自回归解码中出现严重的延迟。现有的稀疏注意力方法缓解了这些成本,但依赖于启发式模式,难以召回每个查询的关键键值 (KV) 对,从而导致准确性下降。我们引入了 Adamas,一种专为长上下文推理设计的轻量级但高度准确的稀疏注意力机制。Adamas 应用哈达玛变换、分桶和 2 比特压缩来生成紧凑表示,并利用曼哈顿距离估计进行高效的 top-k 选择。实验表明,Adamas 仅用 64 个token的预算就能与全注意力机制的准确性相匹配,在 128 个token时实现了近乎无损的性能,并且支持比现有最先进 (SOTA) 方法高出 8 倍的稀疏度,同时在 32K 长度序列上在自注意力方面提供高达 4.4 倍、端到端方面提供 1.5 倍的加速。值得注意的是,Adamas 达到了与全注意力机制相当甚至更低的困惑度,强调了其在激进稀疏度下保持准确性的有效性。 |
| 2025-10-21 | Learning Human-Object Interaction as Groups | null | 人-物交互检测(HOI-DET)旨在定位人-物对并识别它们之间的交互关系。为了聚合上下文线索,现有方法通常通过自注意力机制在所有检测到的实体之间传播信息,或使用二分图在人与物之间建立消息传递。然而,它们主要关注成对关系,忽略了现实世界中的交互往往源于集体行为(多个人和物体参与联合活动)。鉴于此,我们从群体视角重新审视关系建模,并提出了GroupHOI,这是一个基于几何邻近性和语义相似性传播上下文信息的框架。为了利用几何邻近性,我们使用一个基于从边界框中提取的空间特征的可学习邻近性估计器,将人和物体分成不同的簇。在每个组中,通过自注意力计算软对应关系,以聚合和分派上下文线索。为了纳入语义相似性,我们使用来自人-物对特征的局部上下文线索增强了传统的基于Transformer的交互解码器。在HICO-DET和V-COCO基准测试上的大量实验证明了GroupHOI优于现有最先进方法。它还在更具挑战性的非语言交互检测(NVI-DET)任务中表现出领先性能,该任务涉及群体内部各种形式的高阶交互。 |
| 2025-10-21 | LIME: Link-based user-item Interaction Modeling with decoupled xor attention for Efficient test time scaling | null | 扩展大型推荐系统需要在三个主要方面取得进展:处理更长的用户历史、扩展候选集以及增加模型容量。尽管前景广阔,Transformer的计算成本随用户序列长度呈二次方增长,并随候选数量呈线性增长。这种权衡使得在推理时扩展候选集或增加序列长度变得极其昂贵,尽管性能有显著提升。我们引入了LIME,一种新颖的架构,解决了这种权衡。通过两项关键创新,LIME从根本上降低了计算复杂度。首先,低秩“链接嵌入”通过解耦用户和候选交互,使得注意力权重能够预计算,从而使推理成本几乎与候选集大小无关。其次,一种线性注意力机制LIME-XOR,将用户序列长度的复杂度从二次方( $O(N^2)$)降低到线性($O(N)$ )。在公共和工业数据集上的实验表明,LIME与最先进的Transformer模型性能不相上下,但在大型候选集或长序列长度下,推理速度提高了10倍。在一个主要的推荐平台进行测试时,LIME提升了用户参与度,同时在候选集大小和用户历史长度方面保持了极低的推理成本,为高效且富有表现力的推荐系统开创了新范式。 |
| 2025-10-20 | Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models | null | 有效处理长上下文是语言模型面临的关键挑战。虽然标准Transformer受限于二次复杂度和较差的长度外推能力,但滑动窗口注意力(sliding window attention)和状态空间模型(state space models)等替代架构由于其固定大小的内存,牺牲了有效利用完整上下文的能力。基于分块的稀疏注意力(chunk-based sparse attention)已成为实现极限长度泛化的一种有前途的范式,然而其成功的关键架构原则尚未被完全理解。在这项工作中,我们对这些模型进行了系统性剖析,以识别驱动其性能的核心组件。通过一个统一框架和全面的消融研究,我们证明了以下三个设计原则的组合至关重要:(1) 一个表达能力强、非线性的分块编码器(Chunk Encoder),带有专用的CLS token,用于生成检索表示;(2) 一个旁路残差路径(Bypassing Residual Path),用于稳定整合检索到的全局信息,使其不被局部残差流覆盖;以及(3) 在预训练期间强制选择稀疏性,以弥合训练-测试分布差距。我们为块内信息处理和地标生成提供了理论动机。通过结合这些原则,我们在免训练长度外推方面建立了新的最先进水平,成功地将基于4K上下文训练的模型泛化到RULER和BABILong上的3200万个token。我们的发现为开发未来高性能长上下文语言模型提供了一套清晰且经验证的设计原则。 |
| 2025-10-19 | ProtoMol: Enhancing Molecular Property Prediction via Prototype-Guided Multimodal Learning | null | 多模态分子表示学习通过联合建模分子图及其文本描述,整合结构信息和语义信息,从而实现对药物毒性、生物活性和理化性质更鲁棒、更可靠的预测,进而提高预测准确性和可解释性。然而,现有的多模态方法存在两个主要局限性:(1)它们通常仅在最终编码器层进行跨模态交互,从而忽略了层次语义依赖;(2)它们缺乏统一的原型空间以实现模态间鲁棒对齐。为解决这些局限性,我们提出了ProtoMol,一种原型引导的多模态框架,旨在实现分子图和文本描述之间的细粒度融合和一致语义对齐。ProtoMol集成了双分支层次编码器,利用图神经网络处理结构化分子图,并利用Transformer编码非结构化文本,从而获得全面的逐层表示。接着,ProtoMol引入了一种逐层双向跨模态注意力机制,逐步对齐跨层的语义特征。此外,ProtoMol构建了一个具有可学习的、类别特定的锚点的共享原型空间,以引导两种模态获得连贯且具有判别性的表示。在多个基准数据集上进行的大量实验表明,ProtoMol在各种分子性质预测任务中持续优于最先进的基线方法。 |
| 2025-10-19 | Efficient High-Accuracy PDEs Solver with the Linear Attention Neural Operator | null | 神经算子提供了一个强大的数据驱动框架,用于学习函数空间之间的映射,其中基于Transformer的神经算子架构面临着一个根本性的可扩展性-准确性权衡:Softmax注意力提供了出色的保真度,但在网格点数量 $N$和隐藏维度$d$方面会带来二次复杂度$\mathcal{O}(N^2 d)$,而线性注意力变体将成本降低到$\mathcal{O}(N d^2)$,却常常遭受显著的准确性下降。为了解决上述挑战,本文提出了一种新型神经算子——线性注意力神经算子(LANO),它通过基于代理的机制重新设计注意力,实现了可扩展性和高准确性。LANO通过引入一组紧凑的$M$个代理token ($M \ll N$) 来介导$N$个token之间的全局交互,从而解决了这一困境。这种代理注意力机制产生了一个具有线性复杂度$\mathcal{O}(MN d)$ 的算子层,同时保留了Softmax注意力的表达能力。理论上,我们证明了其通用逼近性质,从而证明了改进的条件性和稳定性。经验上,LANO超越了当前最先进的神经偏微分方程求解器,包括采用基于切片的Softmax注意力的Transolver,在标准基准测试中平均实现了19.5%的准确性提升。通过弥合线性复杂度和Softmax级别性能之间的差距,LANO为科学机器学习应用建立了可扩展、高准确性的基础。 |
| 2025-10-19 | EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation | null | 基于X射线图像的医学报告生成(MRG)是人工智能领域的一个关键方向,可以显著减轻临床医生的诊断负担并缩短患者等待时间。现有的MRG模型主要依赖大型语言模型(LLMs)来改进报告生成,对预训练视觉基础模型或高级微调技术的探索有限。主流框架要么避免微调,要么采用LoRA等简化方法,往往忽略了增强交叉注意力机制的潜力。此外,尽管基于Transformer的模型在视觉-语言任务中占据主导地位,但非Transformer架构(例如Mamba网络)在医学报告生成方面仍未得到充分探索,为未来的研究提供了一个有前景的方向。在本文中,我们提出了EMRRG,一个新颖的X射线报告生成框架,该框架使用参数高效方法微调预训练的Mamba网络。具体而言,X射线图像被分割成图像块、进行标记化,并通过基于SSM的视觉骨干网络进行处理以提取特征,其中Partial LoRA取得了最佳性能。一个带有混合解码器的大型语言模型生成医学报告,实现了端到端训练,并在基准数据集上取得了优异结果。在三个广泛使用的基准数据集上进行的广泛实验充分验证了我们为X射线MRG提出的策略的有效性。本文的源代码将发布在https://github.com/Event-AHU/Medical_Image_Analysis。 |
| 2025-10-16 | Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection | null | 近年来,目标检测方法通过利用注意力机制提高特征判别性,取得了显著进展。然而,大多数现有方法仅限于细化单层特征或融合双层特征,忽视了多尺度表示中丰富的层间依赖关系。这限制了它们捕获全面上下文信息的能力,而这些信息对于检测尺度变化较大的目标至关重要。在本文中,我们提出了一种新颖的跨层特征自注意力模块(CFSAM),它能够整体建模多尺度特征图中的局部和全局依赖关系。CFSAM由三个关键组件组成:一个卷积局部特征提取器,一个基于Transformer的全局建模单元,用于高效捕获跨层交互,以及一个特征融合机制,用于恢复和增强原始表示。当集成到SSD300框架中时,CFSAM显著提升了检测性能,在PASCAL VOC上实现了78.6%的mAP(基线为75.5%),在COCO上实现了52.1%的mAP(基线为43.1%),优于现有注意力模块。此外,该模块在训练过程中加速了收敛,而没有引入大量的计算开销。我们的工作强调了显式跨层注意力建模在推动多尺度目标检测方面的重要性。 |
| 2025-10-15 | Context-Selective State Space Models: Feedback is All You Need | null | 由注意力机制驱动的Transformer模型是大多数基础模型的核心,但它们面临二次复杂度问题,并且难以处理输入序列中的长程依赖。最近的研究表明,状态空间模型(SSM)提供了一种高效的替代方案,其中Mamba架构核心的S6模块在长序列基准测试上取得了最先进的结果。在本文中,我们引入了COFFEE(COntext From FEEdback)模型,这是一种新颖的时变SSM,它融入了状态反馈以实现上下文依赖的选择性,同时仍允许并行实现。S6的选择性机制仅依赖于当前输入,而COFFEE则从内部状态计算它,内部状态作为序列历史的紧凑表示。这一转变使得模型能够根据累积的上下文调节其动态,从而提高了其捕获长程依赖的能力。除了状态反馈,我们还采用了一种高效的模型参数化方法,该方法消除了S6中存在的冗余,并带来了更紧凑、更易于训练的公式。在归纳头任务上,与S6相比,COFFEE在参数量和训练序列数量少两个数量级的情况下,实现了近乎完美的准确率。在MNIST数据集上,COFFEE在相同架构下大幅优于S6,仅用3585个参数就达到了97%的准确率。这些结果展示了状态反馈作为构建可扩展且高效序列模型的关键机制的作用。 |
| 2025-10-14 | Dual-attention ResNet outperforms transformers in HER2 prediction on DCE-MRI | null | 乳腺癌是女性最常诊断的癌症,其HER2状态对治疗决策至关重要。从动态对比增强MRI (DCE-MRI) 无创预测HER2状态可以简化诊断流程并减少对活检的依赖。然而,将高动态范围DCE-MRI预处理成用于预训练神经网络的标准化8位RGB格式并非易事,并且归一化策略显著影响模型性能。我们使用一个处理来自三个DCE期RGB融合时间序列的三头双注意力ResNet,对强度归一化策略进行了基准测试。该模型在I-SPY试验的多中心队列(n=1,149)上进行训练,并在BreastDCEDL_AMBL(n=43个病灶)上进行外部验证,其性能优于基于Transformer的架构,在I-SPY测试数据上达到了0.75的准确率和0.74的AUC。N4偏置场校正略微降低了性能。未经微调,外部验证的AUC为0.66,证明了跨机构的泛化能力。这些发现强调了双注意力机制在捕获可迁移的时空特征以进行HER2分层方面的有效性,推动了乳腺癌影像学中可复现的深度学习生物标志物的发展。 |
| 2025-10-15 | T3former: Temporal Graph Classification with Topological Machine Learning | null | 时序图分类在网络安全、大脑连接分析、社会动态和交通监控等应用中发挥着关键作用。尽管其重要性,与时序链接预测或节点预测相比,该问题仍未得到充分探索。现有方法通常依赖于基于快照或循环架构,这些架构要么丢失细粒度时序信息,要么难以处理长程依赖。此外,局部消息传递方法存在过平滑和过压缩问题,限制了它们捕获复杂时序结构的能力。我们提出T3former,一种新颖的拓扑时序Transformer,它利用滑动窗口拓扑和谱描述符作为一等公民标记,并通过专门的描述符注意力机制进行集成。这种设计保持了时序保真度,增强了鲁棒性,并在不进行刚性离散化的情况下实现了原则性的跨模态融合。T3former在包括动态社交网络、大脑功能连接数据集和交通网络在内的多个基准上取得了最先进的性能。它还在时序和结构扰动下提供了理论上的稳定性保证。我们的结果突出了结合拓扑和谱学见解对于推进时序图学习前沿的力量。 |
| 2025-10-14 | Efficient Adaptive Transformer: An Empirical Study and Reproducible Framework | null | 高效自适应Transformer (EAT) 框架将渐进式词元剪枝、稀疏注意力和动态提前退出这三种自适应效率技术统一到一个单一的、可复现的架构中,以实现输入自适应推理。EAT提供了一个开源基准测试管道,该管道可自动化GLUE任务(SST-2、QQP、MNLI)中的数据处理、计时和消融实验。尽管这项经验研究发现,在浅层六层模型中结合这些机制可能会增加延迟,但它证明了EAT在SST-2上实现了比优化过的DistilBERT基线略高的准确性,这说明了动态计算在延迟敏感型NLP中的潜力。其主要贡献是这个开放的、端到端可复现的框架——包含脚本、CSV日志记录和分析工具——旨在作为社区工具,用于对自适应Transformer的进一步研究。 |
| 2025-10-14 | Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis | null | 基于Transformer的深度学习模型通过利用注意力机制进行特征表示和可解释性,在医学成像领域展现出卓越性能。然而,这些模型容易学习到虚假关联,导致偏差和泛化能力受限。尽管人机注意力对齐可以缓解这些问题,但它通常依赖于昂贵的人工监督。在这项工作中,我们提出了一种混合解释引导学习(H-EGL)框架,该框架结合了自监督和人工引导约束,以增强注意力对齐并提高泛化能力。H-EGL的自监督组件利用类别区分性注意力,而不依赖于限制性先验,从而提升了鲁棒性和灵活性。我们使用Vision Transformer (ViT) 在胸部X光分类任务上验证了我们的方法,结果表明H-EGL超越了两种最先进的解释引导学习(EGL)方法,展现出卓越的分类准确性和泛化能力。此外,它生成的注意力图与人类专业知识更好地对齐。 |
| 2025-10-15 | Self-attention enabled quantum path analysis of high-harmonic generation in solids | null | 固体中的高次谐波产生(HHG)提供了一个强大的平台来探测超快电子动力学和跨带-带内耦合。然而,在HHG谱中分离复杂的多个体贡献仍然具有挑战性。本文引入了一种基于Transformer编码器的机器学习方法,用于分析和重建从一维Kronig–Penney模型计算出的HHG信号。自注意力机制内在突出了时间偶极子动力学与高频谱分量之间的相关性,使我们能够识别非绝热能带耦合的特征,而这些特征在标准傅里叶分析中会被掩盖。通过将注意力图与Gabor时频分析相结合,我们提取并放大了对偶次谐波和反常光谱特征有贡献的弱耦合通道。我们的结果表明,多头自注意力充当了时域中强耦合事件的选择性滤波器,从而实现了对高维量子动力学的物理学知情解释。这项工作确立了基于Transformer的注意力作为固态强场物理学的通用工具,为阿秒光谱学和非线性光子学中的可解释机器学习开辟了新的可能性。 |
| 2025-10-14 | Self-attention enabled quantum path analysis of high-harmonic generation in solids | null | 固体中高次谐波产生(HHG)为探测超快电子动力学和跨带-带内耦合提供了强大平台。然而,分离HHG谱中复杂的多体贡献仍然具有挑战性。本文中,我们引入了一种基于Transformer编码器的机器学习方法,用于分析和重构从一维Kronig-Penney模型计算得到的HHG信号。自注意力机制本质上突出了时间偶极动力学与高频谱成分之间的关联,使我们能够识别出在标准傅里叶分析中被掩盖的非绝热能带耦合特征。通过将注意力图与Gabor时频分析相结合,我们提取并放大了对偶次谐波和反常谱特征有贡献的弱耦合通道。我们的结果表明,多头自注意力在时域中充当强耦合事件的选择性滤波器,从而实现了对高维量子动力学的物理学信息指导的解释。这项工作确立了基于Transformer的注意力作为固态强场物理学的一种多功能工具,为阿秒光谱学和非线性光子学中的可解释机器学习开辟了新的可能性。 |
| 2025-10-14 | Biased-Attention Guided Risk Prediction for Safe Decision-Making at Unsignalized Intersections | null | 无信号交叉口处的自动驾驶决策因复杂的动态交互和高冲突风险而极具挑战性。为实现主动安全控制,本文提出了一种融合偏置注意力机制的深度强化学习(DRL)决策框架。该框架基于Soft Actor-Critic (SAC) 算法。其核心创新点在于利用偏置注意力构建交通风险预测器。该预测器评估车辆驶入交叉口时的长期碰撞风险,并将该风险转化为密集奖励信号,以指导SAC智能体做出安全高效的驾驶决策。最后,仿真结果表明,所提出的方法有效提升了交叉口的交通效率和车辆安全,从而证明了该智能决策框架在复杂场景中的有效性。我们的工作代码可在https://github.com/hank111525/SAC-RWB获取。 |
| 2025-10-14 | Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models | null | 大语言模型(LLM)会产生幻觉,即生成事实不正确但自信的断言。我们认为这源于Transformer的Softmax函数,该函数通过将模糊的注意力分数坍缩为单一概率分布,从而在每一层丢弃不确定性信息,进而产生“人工确定性”。为了解决这个问题,我们引入了Credal Transformer,它用基于证据理论的Credal注意力机制(CAM)取代了标准注意力。CAM产生一个“可信集”(一个分布集合)而非单一注意力向量,该集合的大小直接衡量模型的不确定性。我们通过将注意力分数重新概念化为Dirichlet分布的证据质量来实现这一点:充分的证据会恢复标准注意力,而不充分的证据则会产生一个扩散分布,代表模糊性。经验上,Credal Transformer能够识别出分布外输入,量化模糊性,并通过拒绝回答显著减少在无法回答问题上的自信错误。我们的贡献是一种减轻幻觉的新架构,以及一种将不确定性量化直接集成到模型中的设计范式,为更可靠的人工智能奠定了基础。 |
| 2025-10-13 | Evaluating the Explainability of Vision Transformers in Medical Imaging | null | 理解模型决策在医学影像中至关重要,因为可解释性直接影响临床信任和采纳。视觉Transformer (ViT) 在诊断成像中展现了最先进的性能;然而,其复杂的注意力机制对可解释性提出了挑战。本研究使用梯度注意力展开和Grad-CAM评估了不同视觉Transformer架构和预训练策略(ViT、DeiT、DINO和Swin Transformer)的可解释性。我们对两个医学影像任务:外周血细胞分类和乳腺超声图像分类,进行了定量和定性分析。我们的发现表明,DINO结合Grad-CAM在跨数据集中提供了最忠实和局部化的解释。Grad-CAM始终生成类别区分性且空间精确的热力图,而梯度注意力展开则产生了更分散的激活。即使在错误分类的情况下,DINO结合Grad-CAM也能突出显示似乎误导了模型的临床相关形态学特征。通过提高模型透明度,本研究支持将ViT可靠且可解释地集成到关键的医学诊断工作流程中。 |
| 2025-10-13 | WaveletDiff: Multilevel Wavelet Diffusion For Time Series Generation | null | 时间序列在许多涉及预测、分类和因果推断任务的应用中无处不在,例如医疗保健、金融、音频信号处理和气候科学。然而,大规模、高质量的时间序列数据集仍然稀缺。合成生成可以解决这一局限性;但当前局限于时域或频域的模型难以重现真实世界时间序列固有的多尺度结构。我们引入了WaveletDiff,一个新颖的框架,它直接在小波系数上训练扩散模型,以利用时间序列数据固有的多分辨率结构。该模型为每个分解层级结合了专用Transformer,并带有跨层级注意力机制,通过自适应门控实现时域和频域尺度之间的选择性信息交换。它还根据帕塞瓦尔定理为每个层级引入了能量守恒约束,以在整个扩散过程中保持频谱保真度。对来自能源、金融和神经科学领域的六个真实世界数据集进行的全面测试表明,WaveletDiff在短期和长期时间序列上,通过五种不同的性能指标,持续优于最先进的时域和频域生成方法。例如,WaveletDiff在所有数据集上的判别分数和Context-FID分数平均比次优基线小3倍。 |
| 2025-10-13 | Deconstructing Attention: Investigating Design Principles for Effective Language Modeling | null | Transformer语言模型的成功广泛归因于它们的点积注意力机制,该机制融合了一系列关键设计原则:跨位置信息混合(实现多词元交互)、序列依赖的激活(注意力权重适应每个输入)、特定的数学形式(点积相似度加上softmax加权),以及查询和键与演化隐藏状态的耦合(将注意力锚定在当前层)。然而,这些原则中每个的必要性仍未得到充分检验。在这项工作中,我们通过设计受控变体来系统地解构注意力,这些变体有选择地放宽了上述原则,既统一应用于所有层,也应用于仅有部分层保留标准注意力的混合架构。我们的实证分析表明,词元混合机制是不可或缺的,因为它们的缺失会导致模型崩溃,表现出接近随机的行为;而精确的数学形式和序列依赖性可以被大幅放宽,尤其是在仅保留在部分层中时。令人惊讶的是,即使是单独失败的变体,当与标准注意力交错使用时也能实现稳健的性能,这凸显了一种协作效应。这些发现深化了我们对注意力有效性真正基础的理解,并为在不牺牲性能的情况下简化语言模型开辟了新途径。 |
| 2025-10-13 | An AI dose engine for fast carbon ion treatment planning | null | 蒙特卡罗(MC)模拟为碳离子治疗剂量计算提供金标准精度,但计算密集。解析式笔形束算法速度快,但在异质组织中精度降低。我们开发了首个基于AI的剂量引擎,能够预测碳离子治疗中吸收剂量以及用于相对生物学效应(RBE)加权优化的alpha和beta参数,以大幅缩短计算时间实现MC级别精度。我们扩展了基于Transformer的DoTA模型来预测吸收剂量(C-DoTA-d)、alpha(C-DoTA-alpha)和beta(C-DoTA-beta),并为alpha和beta引入了交叉注意力机制以结合剂量和能量输入。训练数据集包含来自187名头颈部患者的约70,000个笔形束,真值通过GPU加速的MC工具包FRED获得。性能通过gamma通过率(1%/1毫米)、深度剂量曲线和等剂量线Dice系数在独立测试集上进行评估。我们进行了基于MC dropout的不确定性分析。所有预测的中位gamma通过率均超过98%(剂量为99.76%,alpha为99.14%,beta为98.74%),在最异质的解剖结构中最小值也高于85%。1%等剂量线的Dice系数为0.95,在高梯度区域一致性略有降低。与MC FRED相比,推理速度快400多倍(每个笔形束0.032秒 vs. 14秒),同时保持了精度。不确定性分析显示出高稳定性,所有模型的平均标准差均低于0.5%。C-DoTA实现了每个射束约30毫秒的MC质量吸收剂量和RBE模型参数预测。其速度和精度支持在线自适应规划,为更有效的碳离子治疗工作流程铺平了道路。未来工作将扩展到额外的解剖部位、射束几何形状和临床射束线。 |
| 2025-10-13 | Text-Enhanced Panoptic Symbol Spotting in CAD Drawings | null | 随着计算机辅助设计 (CAD) 图纸在工程、建筑和工业设计领域的广泛应用,准确解释和分析这些图纸的能力变得越来越重要。在各种子任务中,全景符号识别 (panoptic symbol spotting) 在支持 CAD 自动化和设计检索等下游应用中扮演着至关重要的角色。现有方法主要关注 CAD 图纸中的几何图元来解决此任务,但它们面临以下主要问题:通常忽略了 CAD 图纸中丰富的文本标注,并且缺乏对图元之间关系的显式建模,导致对整体图纸的理解不全面。为了弥补这一空白,我们提出了一个融入文本标注的全景符号识别框架。该框架通过联合建模几何图元和文本图元来构建统一的表示。然后,该框架使用预训练卷积神经网络 (CNN) 提取的视觉特征作为初始表示,并采用基于 Transformer 的骨干网络,该网络通过类型感知注意力机制进行增强,以显式建模各种图元之间不同类型的空间依赖关系。在真实世界数据集上进行的广泛实验表明,所提出的方法在涉及文本标注的符号识别任务上优于现有方法,并且在应用于复杂 CAD 图纸时表现出卓越的鲁棒性。 |
| 2025-10-13 | ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation | link | 多实例图像生成(MIG)对于现代扩散模型而言仍是一个重大挑战,主要原因是其在实现对物体布局的精确控制以及保持多个不同主体的身份方面存在局限性。为解决这些局限性,我们引入了ContextGen,一个新颖的扩散Transformer框架,用于由布局和参考图像共同指导的多实例生成。我们的方法结合了两项关键技术贡献:一个上下文布局锚定(CLA)机制,它将复合布局图像整合到生成上下文中,以稳健地将物体锚定在其所需位置;以及一个身份一致性注意力(ICA)机制,这是一种创新的注意力机制,它利用上下文参考图像来确保多实例的身份一致性。鉴于这项任务缺乏大规模、分层结构的数据集,我们引入了IMIG-100K,这是第一个具有详细布局和身份标注的数据集。大量实验表明,ContextGen在控制精度、身份保真度和整体视觉质量方面均优于现有方法,达到了新的最先进水平。 |
| 2025-10-08 | Transformer-Based Indirect Structural Health Monitoring of Rail Infrastructure with Attention-Driven Detection and Localization of Transient Defects | null | 间接结构健康监测(iSHM)利用车载传感器进行断轨检测,为铁路轨道评估提供了一种经济高效的范式,然而,由于复杂的车辆动力学、信号噪声以及限制监督方法的标注数据稀缺性,可靠地检测小型瞬态异常(2-10厘米)仍然是一个重大挑战。本研究通过无监督深度学习解决了这些问题。我们引入了一个增量合成数据基准,旨在系统地评估模型在应对iSHM中遇到的逐渐复杂的挑战(例如速度变化、多通道输入和真实噪声模式)时的鲁棒性。利用这个基准,我们评估了几种成熟的无监督模型以及我们提出的注意力聚焦Transformer。我们的模型采用自注意力机制,通过重建进行训练,但创新性地主要从学习到的注意力权重的偏差中推导出异常分数,旨在实现有效性和计算效率。基准测试结果表明,尽管基于Transformer的模型通常优于其他模型,但所有测试的模型都对高频局部噪声表现出显著的脆弱性,将此确定为实际部署的关键瓶颈。值得注意的是,我们提出的模型实现了与最先进解决方案相当的准确性,同时展现出更好的推理速度。这凸显了未来iSHM模型中增强噪声鲁棒性的关键需求,并将我们更高效的基于注意力的方法定位为开发实用车载异常检测系统的一个有前景的基础。 |
| 2025-10-08 | Attention to Order: Transformers Discover Phase Transitions via Learnability | null | 相变标志着集体行为的质性重组,然而,在缺乏解析解和传统模拟失效的情况下,识别其边界仍然具有挑战性。在此我们引入可学习性作为普适判据,其定义为包含注意力机制的Transformer模型从微观态中提取结构的能力。利用自监督学习和二维伊辛模型的蒙特卡洛生成构型,我们表明有序相对应于增强的可学习性,这体现在训练损失的降低和结构化注意力模式的出现,而无序相则仍然难以学习。两种无监督诊断方法,即训练损失的急剧跳变和注意力熵的上升,恢复了临界温度,并与精确值高度一致。我们的结果确立了可学习性作为相变的数据驱动标记,并强调了凝聚态物质中长程有序与现代语言模型中结构涌现之间的深刻并行性。 |
| 2025-10-08 | Grouped Differential Attention | null | 自注意力机制作为现代Transformer架构的基础,存在一个关键的低效率问题:它经常将大量注意力分配给冗余或噪声上下文。差分注意力通过使用用于信号和噪声的减法注意力图解决了这个问题,但其所需的平衡头部分配对表征灵活性和可扩展性施加了严格限制。为了克服这一点,我们提出了分组差分注意力(GDA),这是一种新颖的方法,它在信号保留组和噪声控制组之间引入了不平衡的头部分配。GDA通过策略性地将更多头部分配给信号提取,将更少头部分配给噪声控制,并通过受控重复(类似于GQA)来稳定后者,从而显著增强了信号聚焦能力。这种设计以极小的计算开销实现了更强的信号保真度。我们进一步将这一原则扩展到分组差异化增长,这是一种可扩展的策略,仅选择性地复制关注信号的头部,从而确保高效的容量扩展。通过大规模预训练和持续训练实验,我们证明GDA中的适度不平衡比例与对称基线相比,在泛化能力和稳定性方面产生了显著改进。我们的结果共同表明,比例感知头部分配和选择性扩展为设计可扩展、计算高效的Transformer架构提供了一条有效且实用的途径。 |
| 2025-10-08 | Lung Infection Severity Prediction Using Transformers with Conditional TransMix Augmentation and Cross-Attention | null | 肺部感染,特别是肺炎,会带来严重的健康风险,尤其在大流行期间可能迅速升级。从医学影像中准确地进行基于AI的严重程度预测对于支持及时的临床决策和优化患者预后至关重要。在这项工作中,我们提出了一种适用于CT扫描和胸部X光片来评估肺部感染严重程度的新颖方法。我们的贡献有两方面:(i) QCross-Att-PVT,一种基于Transformer的架构,它整合了并行编码器、交叉门控注意力机制和特征聚合器,以捕获丰富的多尺度特征;以及 (ii) Conditional Online TransMix,一种定制的数据增强策略,旨在通过在训练期间生成混合标签图像块来解决数据集不平衡问题。在两个基准数据集RALO CXR和Per-COVID-19 CT上进行评估,我们的方法持续优于几种最先进的深度学习模型。结果强调了数据增强和门控注意力在提高鲁棒性和预测准确性方面的关键作用。这种方法提供了一种可靠、适应性强的工具,可支持临床诊断、疾病监测和个性化治疗方案规划。本工作的源代码可在https://github.com/bouthainas/QCross-Att-PVT获取。 |
| 2025-10-08 | TimeFormer: Transformer with Attention Modulation Empowered by Temporal Characteristics for Time Series Forecasting | null | 尽管Transformer模型在自然语言处理方面表现出色,但由于未充分考虑文本模态和时间模态之间的差异,其在时间序列预测领域的扩展仍然具有挑战性。在本文中,我们开发了一种专为时间序列数据设计的新颖Transformer架构,旨在最大化其表示能力。我们识别出时间序列的两个关键但常被忽视的特性:(1) 过去对未来的单向影响,以及 (2) 影响随时间衰减的现象。这些特性被引入以增强Transformer模型的注意力机制。我们提出了TimeFormer,其核心创新是带有两个调制项(MoSA)的自注意力机制,旨在在Hawkes过程和因果掩码的约束下捕获时间序列的这些时间先验。此外,TimeFormer引入了一个基于多尺度和子序列分析的框架,以捕获不同时间尺度上的语义依赖性,从而丰富了时间依赖性。在多个真实世界数据集上进行的大量实验表明,TimeFormer显著优于最先进的方法,与最佳基线相比,MSE降低高达7.45%,并在94.04%的评估指标上设立了新基准。此外,我们证明MoSA机制可以广泛应用于增强其他基于Transformer的模型的性能。 |
| 2025-10-08 | Rethinking Nonlinearity: Trainable Gaussian Mixture Modules for Modern Neural Architectures | null | 广义的神经网络,从多层感知机(MLPs)和卷积神经网络(CNNs)到基于注意力的Transformer,均由线性组合层和随后的非线性操作(如ReLU、Sigmoid或Softmax)构建而成。尽管这些传统设计功能强大,但在引入非线性方面,它们往往受限于激活函数的选择。在这项工作中,我们引入了高斯混合启发式非线性模块 (GMNM),这是一类新型的可微分模块,它借鉴了通用密度近似的高斯混合模型(GMMs)以及高斯核的距离特性(度量空间)。通过放松概率约束并采用高斯投影的灵活参数化,GMNM可以无缝集成到各种神经网络架构中,并使用基于梯度的方法进行端到端训练。我们的实验表明,将GMNM整合到多层感知机(MLPs)、卷积神经网络(CNNs)、注意力机制和长短期记忆网络(LSTMs)等架构中,其性能始终优于标准基线。这些结果突显了GMNM作为一种强大而灵活的模块,在广泛的机器学习应用中提高效率和准确性的潜力。 |
| 2025-10-07 | $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection | null | 视觉自回归(AR)模型的出现彻底改变了图像生成领域,同时也为合成图像检测带来了新的挑战。与以往的GAN或基于扩散的方法不同,AR模型通过离散令牌预测生成图像,这不仅在图像合成质量上表现出显著改进,而且在其矢量量化表示中呈现出独特的特性。在本文中,我们提出利用离散分布差异感知量化误差(D$^3$QE)进行自回归生成图像检测,该方法利用了真实图像和伪造图像中存在的码本的独特模式和频率分布偏差。我们引入了一个离散分布差异感知Transformer,它将动态码本频率统计信息集成到其注意力机制中,融合了语义特征和量化误差潜在表示。为了评估我们的方法,我们构建了一个名为ARForensics的综合数据集,涵盖了7种主流视觉AR模型。实验表明,D$^3$ QE在不同AR模型上具有卓越的检测精度和强大的泛化能力,并且对现实世界扰动具有鲁棒性。代码可在https://github.com/Zhangyr2022/D3QE获取。 |
| 2025-10-07 | When Does Global Attention Help? A Unified Empirical Study on Atomistic Graph Learning | null | 图神经网络(GNNs)被广泛用作昂贵实验和第一性原理模拟的替代方法,以研究化合物在原子尺度上的行为,其架构复杂性不断增加,以实现复杂物理现象的建模。尽管大多数最新的GNNs结合了更传统的消息传递神经网络(MPNNs)层来模拟短程相互作用,以及更先进的图Transformer(GTs)与全局注意力机制来模拟长程相互作用,但由于实现、特征或超参数调整的不一致,目前仍不清楚全局注意力机制何时能比经过精心调优的MPNN层提供真正的优势。我们引入了第一个统一的、可复现的基准测试框架——基于HydraGNN构建——该框架支持在四种受控模型类别之间无缝切换:MPNN、带有化学/拓扑编码器的MPNN、MPNN与全局注意力机制的GPS风格混合模型,以及带有编码器的完全融合的局部-全局模型。通过使用七个多样化的开源数据集进行回归和分类任务的基准测试,我们系统地分离了消息传递、全局注意力和基于编码器的特征增强的贡献。我们的研究表明,经过编码器增强的MPNNs构成了一个强大的基线,而融合的局部-全局模型对于受长程相互作用效应支配的属性产生了最明显的优势。我们进一步量化了注意力的准确性-计算权衡,并报告了其内存开销。总之,这些结果建立了原子图学习中全局注意力的首次受控评估,并为未来的模型开发提供了一个可复现的测试平台。 |
| 2025-10-07 | ATOM: A Pretrained Neural Operator for Multitask Molecular Dynamics | null | 分子动力学 (MD) 模拟支撑着现代计算药物发现、材料科学和生物化学。近期机器学习模型无需重复求解量子力学力即可提供高保真度MD预测,从而显著加速相较于传统流程。然而,许多此类方法通常强制执行严格的等变性并依赖于顺序展开,从而限制了它们的灵活性和模拟效率。它们也通常是单任务的,在单个分子和固定时间帧上训练,这限制了其对未见化合物和扩展时间步长的泛化能力。为了解决这些问题,我们提出了分子原子级变换器算子 (ATOM),这是一种用于多任务分子动力学的预训练变换器神经算子。ATOM采用准等变设计,无需显式分子图,并采用时间注意力机制,从而实现多个未来状态的精确并行解码。为了支持算子在不同化学物质和时间尺度上的预训练,我们整理了TG80,这是一个大型、多样化且数值稳定的MD数据集,包含跨越80种化合物的超过250万飞秒的轨迹。ATOM在已建立的单任务基准测试(例如MD17、RMD17和MD22)上取得了最先进的性能。在TG80上进行多任务预训练后,ATOM对未见分子在不同时间范围上展现出卓越的零样本泛化能力。我们相信ATOM代表了迈向准确、高效且可迁移的分子动力学模型的重要一步。 |
| 2025-10-06 | The End of Transformers? On Challenging Attention and the Rise of Sub-Quadratic Architectures | null | Transformer模型在过去七年间主导了序列处理任务,其中尤以语言建模最为显著。然而,随着上下文长度的增加,其注意力机制固有的二次复杂度仍然是一个显著的瓶颈。本文综述了为克服这一瓶颈而做出的最新努力,包括(亚二次复杂度)注意力变体、循环神经网络、状态空间模型和混合架构等方面的进展。我们从计算和内存复杂度、基准测试结果以及基本局限性等方面批判性地分析了这些方法,以评估纯注意力Transformer模型的主导地位是否可能很快受到挑战。 |
| 2025-10-06 | AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement | null | 本文提出AUREXA-SE(一种结合交叉注意力机制和Squeezeformer的音视频统一表示交换架构,用于语音增强),这是一个专为音视频语音增强(AVSE)设计的渐进式双模态框架。AUREXA-SE通过采用一个基于U-Net的一维卷积编码器处理音频以及一个Swin Transformer V2用于高效且富有表现力的视觉特征提取,联合利用原始音频波形和视觉线索。该架构的核心是一种新颖的双向交叉注意力机制,它促进了模态之间深度的上下文融合,从而实现丰富且互补的表示学习。为了捕获融合嵌入中的时间依赖性,我们引入了一堆结合卷积和注意力模块的轻量级Squeezeformer块。增强后的嵌入随后通过一个U-Net风格的解码器进行解码,用于直接波形重建,确保输出的语音在感知上一致且清晰可懂。实验评估证明了AUREXA-SE的有效性,相比于噪声基线取得了显著的性能提升,STOI达到0.516,PESQ达到1.323,SI-SDR达到-4.322 dB。AUREXA-SE的源代码可在https://github.com/mtanveer1/AVSEC-4-Challenge-2025获取。 |
| 2025-10-06 | On Structured State-Space Duality | link | 结构化状态空间对偶性(SSD)[Dao & Gu, ICML 2024] 是一种简单的结构化状态空间模型(SSM)与掩码注意力机制之间的等价性。具体而言,一个具有标量乘单位矩阵状态矩阵的状态空间模型等价于一个具有1-半可分因果掩码的掩码自注意力。因此,相同的序列变换(模型)有两种算法实现方式:线性时间 $O(T)$递推或平方时间$O(T^2)$ 注意力。在这篇笔记中,我们形式化并推广了这种对偶性:(i) 我们将SSD从标量-单位矩阵情况扩展到通用对角SSM(对角状态矩阵);(ii) 我们表明这些对角SSM在支持更丰富动态的同时,仍能达到标量情况的训练复杂度下界;(iii) 我们建立了一个SSM等价于1-半可分掩码注意力的充要条件;(iv) 我们证明了这种对偶性由于秩爆炸而无法扩展到标准softmax注意力。总而言之,这些结果紧密连接了循环SSM和Transformers,并拓宽了表达力强且高效的序列模型的设计空间。 |
| 2025-10-05 | Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention | link | 对计算效率的追求推动了在训练Transformer模型时采用低精度格式。然而,这一进展常被臭名昭著的训练不稳定性所阻碍。本文首次对一个长期存在且悬而未决的失败案例提供了机制性解释,该案例中在低精度设置下使用Flash Attention训练会导致灾难性的损失爆炸。我们的深入分析揭示,这种失败并非随机现象,而是由两种相互交织的现象引起的:注意力机制中相似低秩表示的出现,以及低精度算术中固有的有偏舍入误差的复合效应。我们展示了这些因素如何形成一个误差累积的恶性循环,从而破坏权重更新,最终导致训练动态失控。为了验证我们的发现,我们对Flash Attention进行了最小程度的修改,以减轻舍入误差中的偏差。这一简单的改变稳定了训练过程,证实了我们的分析,并为这个长期存在的问题提供了一个实用解决方案。 |
| 2025-10-05 | A Mathematical Explanation of Transformers for Large Language Models and GPTs | null | Transformer架构彻底改变了序列建模领域,并支撑着大语言模型(LLMs)的近期突破。然而,解释其结构和操作的完备数学理论仍然难以捉摸。在这项工作中,我们提出了一种新颖的连续框架,将Transformer严格解释为结构化积分-微分方程的离散化。在这种表述下,自注意力机制自然地出现为非局部积分算子,而层归一化则被表征为到时间相关约束的投影。这种算子理论和变分视角为理解该架构的核心组件(包括注意力、前馈层和归一化)提供了统一且可解释的基础。我们的方法通过将整个Transformer操作嵌入令牌索引和特征维度的连续域中,超越了先前的理论分析。这形成了一个有原则且灵活的框架,不仅深化了理论洞察,而且为架构设计、分析和基于控制的解释提供了新方向。这种新解释为弥合深度学习架构和连续数学建模之间的差距迈出了一步,并为可解释且有理论基础的神经网络模型的持续发展贡献了基础性视角。 |
| 2025-10-04 | Sliding Window Attention for Learned Video Compression | null | 为了管理视频压缩中Transformer模型的复杂性,局部注意力机制是实际必需的。然而,将帧分割成图像块的常见方法会产生不规则感受野等架构缺陷。当适用于时间自回归模型时,以视频压缩Transformer (VCT) 为代表的这种范式还需要计算冗余的重叠窗口。本文引入了3D滑动窗口注意力 (SWA),这是一种无图像块的局部注意力形式。通过实现一种统一空间和时间上下文处理的仅解码器架构,并提供统一的感受野,我们的方法显著提高了率失真性能,相较于VCT基线,实现了高达18.6%的Bj{\o}rntegaard Delta-rate节省。同时,通过消除对重叠窗口的需求,我们的方法将整体解码器复杂度降低了2.8倍,而其熵模型的效率则提高了近3.5倍。我们进一步分析了模型的行为,并表明虽然它受益于长距离时间上下文,但过多的上下文可能会降低性能。 |
| 2025-10-04 | Rare Text Semantics Were Always There in Your Diffusion Transformer | link | 基于流和扩散的Transformer模型,多模态扩散Transformer (MM-DiT) 重塑了文本到视觉生成,并因其卓越的视觉保真度而广受赞誉。随着这些模型的进步,用户不断通过富有想象力或罕见的提示词来拓展边界,然而先进模型在生成这些内容时仍然力有不逮,因为这些概念在预训练期间通常过于稀疏,难以留下深刻的印记。在本文中,我们提出了一种简单而有效的干预方法,能够在MM-DiT内部显现稀有语义,且无需额外的训练步骤、数据、去噪时间优化或依赖外部模块(例如,大型语言模型)。具体来说,MM-DiT固有的联合注意力机制在整个Transformer块中顺序更新文本嵌入和图像嵌入。我们发现,通过在联合注意力块之前,通过方差放大在文本token嵌入周围数学性地扩展表示盆地,稀有语义在MM-DiT的输出中清晰地显现。此外,我们的结果在各种文本到视觉任务中有效泛化,包括文本到图像、文本到视频和文本驱动的图像编辑。我们的工作促使生成模型揭示用户所期望的语义,这些语义曾经隐藏但已准备好浮现。 |
| 2025-10-03 | Signature-Informed Transformer for Asset Allocation | link | 鲁棒资产配置是量化金融中的一个关键挑战,其中深度学习预测器常因目标不匹配和误差放大而表现不佳。我们引入了签名信息Transformer (SIT),这是一种通过直接优化风险感知金融目标来学习端到端配置策略的新颖框架。SIT的核心创新包括利用路径签名来丰富地几何表示资产动态,以及将金融归纳偏置(如领先-滞后效应)嵌入模型中的签名增强注意力机制。在每日标普100股票数据上进行评估,SIT显著优于传统和深度学习基线模型,尤其是在与先预测后优化模型相比时。这些结果表明,投资组合感知目标和几何感知归纳偏置对于机器学习系统中的风险感知资本配置至关重要。 |
| 2025-10-03 | A Novel Unified Lightweight Temporal-Spatial Transformer Approach for Intrusion Detection in Drone Networks | null | 无人机在商业、工业和民用领域的日益融合带来了严峻的网络安全挑战,特别是由于无人机网络易受各种网络攻击。现有的入侵检测机制往往缺乏无人机动态和资源受限运行环境所需的适应性、效率和泛化能力。本文提出了TSLT-Net,一种新颖的轻量级统一的时空Transformer入侵检测系统,专为无人机网络量身定制。通过利用自注意力机制,TSLT-Net能够有效建模网络流量中的时间模式和空间依赖性,从而实现对各种入侵类型的准确检测。该框架包含一个精简的预处理流程,并在单一架构内支持多类攻击分类和二元异常检测。在包含超过230万条标记记录的ISOT无人机异常检测数据集上进行的广泛实验表明,TSLT-Net在多类检测中达到了99.99%的准确率,在二元异常检测中达到了100%的准确率,同时保持了仅0.04 MB的最小内存占用和9722个可训练参数。这些结果表明TSLT-Net是一种有效且可扩展的实时无人机网络安全解决方案,特别适用于任务关键型无人机系统中的边缘设备部署。 |
| 2025-10-02 | RainSeer: Fine-Grained Rainfall Reconstruction via Physics-Guided Modeling | null | 重建高分辨率降雨场对洪水预报、水文建模和气候分析至关重要。然而,现有空间插值方法——无论是基于自动气象站 (AWS) 测量还是结合卫星/雷达观测——往往过度平滑关键结构,未能捕捉急剧转变和局部极端值。我们引入了RainSeer,一个结构感知重建框架,它将雷达反射率重新解释为物理基础的结构先验,捕获降雨何时、何地以及如何发展。然而,这种转变带来了两个基本挑战:(i) 将高分辨率体积雷达场转换为稀疏点式降雨观测,以及 (ii) 弥合高空水凝物与地面降水之间的物理断裂。RainSeer通过一个物理信息两阶段架构解决这些问题:一个结构到点映射器通过双向映射,将中尺度雷达结构投影到局部地面降雨中,执行空间对齐;一个地理感知降雨解码器通过因果时空注意力机制,捕获水凝物在下降、融化和蒸发过程中的语义转换。我们在两个公开数据集——RAIN-F(韩国,2017-2019)和MeteoNet(法国,2016-2018)——上评估了RainSeer,并观察到相对于最先进基线的持续改进,将平均绝对误差(MAE)降低了超过13.31%,并显著提高了重建降雨场的结构保真度。 |
| 2025-10-02 | HRTFformer: A Spatially-Aware Transformer for Personalized HRTF Upsampling in Immersive Audio Rendering | null | 个性化头部相关传输函数(HRTF)正开始被引入许多商业沉浸式音频应用中,对于真实感空间音频渲染至关重要。然而,其引入的主要顾虑之一是,由于HRTF测量过程的复杂性,大规模创建个性化HRTF不切实际。为了缓解这一缺点,HRTF空间上采样已被提出,旨在减少所需的测量次数。尽管先前工作采用不同的机器学习(ML)方法取得了成功,但这些模型在高上采样因子下往往难以处理远距离空间一致性和泛化能力。在本文中,我们提出了一种新颖的基于Transformer的HRTF上采样架构,利用注意力机制更好地捕捉跨HRTF球面的空间相关性。在球谐(SH)域中工作,我们的模型学习从稀疏输入测量中重建高分辨率HRTF,并显著提高了准确性。为了增强空间连贯性,我们引入了一种邻域不相似损失,以促进幅度平滑性,从而产生更真实的采样结果。我们使用感知定位模型和客观频谱失真度量来评估我们的方法。实验表明,我们的模型在生成真实、高保真度的HRTF方面,以显著优势超越了主流方法。 |
| 2025-10-02 | Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction | null | 以多头注意力(MHA)机制为核心的Transformer架构已成为人工智能领域最先进模型的事实标准。然而,MHA针对序列长度的二次计算复杂度对扩展性方面构成了显著障碍,特别是对于涉及长上下文的应用。当前解决方案,例如多查询注意力(MQA)和分组查询注意力(GQA),通过共享键(Key)和值(Value)投影,有效地解决了在自回归推理延迟中占据主导地位的内存带宽瓶颈。尽管这些方法非常成功,但它们并未减少注意力分数计算所需的基本浮点运算(FLOPs)数量,这仍然是训练和全序列处理的一个关键瓶颈。本文介绍了稀疏查询注意力(SQA),一种新颖的注意力架构,它寻求一条替代且互补的优化途径。SQA没有减少键/值头,而是减少了查询头的数量。这种架构修改直接降低了注意力机制的计算复杂度,降低的倍数与查询头数量的减少成正比,从而降低了总体FLOPs。这项工作介绍了SQA的理论基础、其数学公式以及一系列架构变体。在长序列(32k-200k token)上的经验基准测试表明,SQA在模型预训练、微调和基于编码器的任务等计算受限场景中,可以实现高达3倍的显著吞吐量提升,而在初步的小规模实验中,对模型质量的影响极小。SQA是在即将推出的Reactive Transformer架构的开发过程中被偶然发现的,这表明其作为构建更高效、更可扩展模型的强大工具的潜力。 |
| 2025-10-02 | CAT: Curvature-Adaptive Transformers for Geometry-Aware Learning | null | Transformer模型在不同领域取得了强大的性能,但其注意力机制隐式地假定了欧几里得几何,这限制了它们在具有非欧几里得结构的数据上的有效性。尽管最近将Transformer扩展到双曲和球面空间分别在处理层次结构和周期性模式方面展现出潜力,但它们需要先验地选择单一几何,这在数据表现出混合几何特性时降低了灵活性。我们引入了曲率自适应Transformer (CAT),这是一种新颖的架构,它通过轻量级、可微分的门控机制,动态学习每个token在三个几何注意力分支之间的路由。与固定几何方法不同,CAT能够实现自适应几何特化,根据token的局部关系结构将其路由到适当的曲率空间。路由网络提供了可解释的曲率偏好,同时每个分支采用针对其各自流形优化的几何特定操作。在知识图谱补全基准测试(FB15k-237、WN18RR)中,CAT在MRR和Hits@10上比固定几何基线提升了约10%,且开销极小(参数量增加5%,推理时间相当)。这些结果表明,学习到的几何自适应在复杂的关联推理中优于任何单一固定几何,从而将CAT确立为跨语言、视觉和多模态领域的混合几何架构的可扩展且可解释的基础。 |
| 2025-10-02 | ReSSFormer: A Recursive Sparse Structured Transformer for Scalable and Long-Context Reasoning | null | 尽管Transformer架构在跨领域展现出令人印象深刻的可扩展性,但它们在长上下文推理、计算效率和结构泛化能力方面仍面临挑战,这主要归因于刚性层堆叠、密集注意力和对位置编码的依赖。我们提出了ReSSFormer,一种递归稀疏结构化Transformer,它整合了三项互补的创新:用于有界深度迭代推理的循环推理与记忆单元(R2MU),用于高效且聚焦上下文选择的自适应稀疏注意力模块(ASAM),以及用于无位置结构归纳的自组织编码器结构(SOES)。ReSSFormer用循环推理取代了传统的深度堆叠,用令牌级和专家级稀疏性取代了完全注意力,并直接从内容中建模潜在的令牌拓扑。在语言建模、多跳问答和结构敏感任务中,ReSSFormer在同等FLOPs和参数预算下持续优于强基线,突显了其可扩展性、效率和结构灵活性。 |
| 2025-10-01 | Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression | link | Transformer架构在各个领域取得了显著成功。尽管针对Softmax注意力的高效替代方案已被广泛研究,但对基于理论洞察的更具表达力机制(即使计算成本更高)的探索相对不足。在这项工作中,我们通过提出局部线性注意力(LLA)弥补了这一空白,这是一种通过测试时回归的视角源于非参数统计的新颖注意力机制。首先,我们通过偏差-方差权衡分析表明,LLA在关联记忆方面比线性注意力和Softmax注意力具有理论优势。接下来,我们解决了其计算挑战,并提出了两种内存高效的原语来处理 $\Theta(n^2 d)$和$\Theta(n d^2)$ 的复杂度。然后,我们引入了FlashLLA,一种硬件高效的块状算法,可在现代加速器上实现可扩展的并行计算。此外,我们实现并分析了一个定制化的推理内核,显著降低了内存开销。最后,我们通过测试时回归、上下文内回归、关联回忆和状态跟踪任务,经验性地验证了LLA的优点和局限性。实验结果表明,LLA能有效适应非平稳性,在测试时训练和上下文学习中优于强大的基线模型,并为其在大规模模型中的可扩展性和适用性提供了有前景的证据。代码可在https://github.com/Yifei-Zuo/Flash-LLA获取。 |
| 2025-10-01 | CosmoUiT: A Vision Transformer-UNet Hybrid for Fast and Accurate Emulation of 21-cm Maps from the Epoch of Reionization | null | 对来自星系际介质的红移21厘米信号的观测将以前所未有的细节探测再电离时期(EoR)。各种模拟正在开发并使用,以预测和理解该信号的性质和形态。然而,这些模拟在大量生成时计算成本非常高且耗时。为了克服这个问题,需要一个高效的该信号的场级模拟器。然而,EoR 21厘米信号是高度非高斯的;因此,使用神经网络捕获该信号不同尺度之间的相关性,这与再电离的演化直接相关,是相当困难的。在此,我们引入CosmoUiT,一个基于UNet集成的视觉Transformer架构,以克服这些困难。CosmoUiT根据给定的输入暗物质密度场、光晕密度场和再电离参数,模拟来自EoR的21厘米信号的三维立方体。CosmoUiT利用Transformer的多头自注意力机制来捕获长程依赖,并利用UNet中的卷积层来捕获目标21厘米场中的小尺度变化。此外,模拟器的训练以输入再电离参数为条件,以便它能为不同组输入再电离参数提供21厘米场的快速准确预测。我们通过比较模拟器生成和模拟的图的各种统计量(例如,气泡尺寸分布、功率谱)和形态特征来评估我们模拟器的预测。我们进一步证明,这种基于视觉Transformer的架构能够在大尺度和小尺度上高精度地模拟整个三维21厘米信号立方体。 |
| 2025-10-01 | Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model | link | 状态空间模型(SSM)——最显著的是循环神经网络(RNN)——在序列建模中历来扮演着核心角色。尽管Transformer等注意力机制因其建模全局上下文的能力而占据主导地位,但其二次复杂度及有限的可扩展性使其不太适合处理长序列。视频超分辨率(VSR)方法传统上依赖循环架构来跨帧传播特征。然而,此类方法存在梯度消失、缺乏并行性和推理速度慢等众所周知的问题。Mamba等选择性SSM的最新进展提供了一种引人注目的替代方案:通过实现具有线性时间复杂度的输入依赖状态转换,Mamba在保持强大的长程建模能力的同时,缓解了这些问题。尽管有这种潜力,由于其因果性质和缺乏显式上下文聚合,单独的Mamba难以捕获细粒度的空间依赖。为了解决这个问题,我们提出了一种混合架构,它结合了用于空间上下文聚合的移位窗口自注意力与用于高效时间传播的基于Mamba的选择性扫描。此外,我们引入了Gather-Scatter Mamba(GSM),这是一种对齐感知机制,它在Mamba传播之前将特征扭曲到时间窗口内的中心锚帧,并在之后将其散布回去,从而有效减少遮挡伪影并确保聚合信息在所有帧间的有效重新分布。官方实现可在以下网址获取:https://github.com/Ko-Lani/GSMamba。 |
| 2025-10-01 | CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation | null | 通过监督式模仿学习来训练机器人操纵策略,当策略遇到训练中未明确涵盖的执行变异时,仍然具有挑战性。尽管通过注意力机制整合历史上下文可以提高鲁棒性,但标准方法按顺序处理所有过去的状态,没有明确建模演示可能包含的时间结构,例如失败和恢复模式。我们提出了一种跨状态转换注意力Transformer,它采用一种新颖的状态转换注意力(STA)机制,根据学习到的状态演化模式来调节标准注意力权重,从而使策略能够根据执行历史更好地调整其行为。我们的方法将这种结构化注意力与训练期间的时间掩蔽相结合,其中视觉信息从最近的时间步中随机移除,以鼓励从历史上下文中进行时间推理。仿真评估表明,STA在所有任务上始终优于标准交叉注意力和时间建模方法(如TCN和LSTM网络),并在精度关键任务上实现了相较于交叉注意力超过2倍的改进。 |
| 2025-10-01 | Continual Learning with Query-Only Attention | null | 持续学习涉及从数据流中学习,不重复数据点,这种场景由于任务间的分布偏移而本质上复杂。我们提出了一种仅查询注意力机制,它丢弃了键和值,但保留了Transformer架构的核心归纳偏置。在持续学习场景中,这种简化机制显著缓解了可塑性损失和灾难性遗忘,优于选择性重新初始化等基线。我们建立了仅查询注意力、完全Transformer注意力以及模型无关元学习之间的概念联系,将它们视为元学习的实例。我们进一步提供了基于查询的模型和注意力网络为何有助于在持续学习环境中保持可塑性的直觉。最后,通过初步的Hessian谱分析,我们观察到在不同任务中保持较高曲率秩的模型倾向于保持可塑性。我们的发现表明,完全注意力可能不是捕捉持续学习中元学习益处的必需。 |
| 2025-10-02 | Large Language Models Inference Engines based on Spiking Neural Networks | null | 基于Transformer架构的基础模型目前在通用语言建模以及材料科学和气候等科学领域都处于最先进水平。然而,训练和部署这些模型在计算上具有挑战性,因为其时间和空间复杂度与输入序列长度呈二次关系。为解决这些局限性,已经开展了一些探索高效计算范式和模型架构的工作。在这项工作中,我们探索使用脉冲神经网络(SNN)来设计Transformer模型。使用现有代理学习方法训练大规模SNN效率低下且耗时,这是一个挑战。另一方面,将现有基于Transformer的模型转换为其等效SNN的技术无法扩展,因为实现最佳性能需要以大量脉冲时间步为代价,即增加了延迟。为此,我们提出NeurTransformer,这是一种使用现有转换方法结合监督微调方法设计用于推理的基于Transformer的SNN的方法。所提出的方法通过以下方式实现:(1) 用基于脉冲的自注意力(SSA)替换自注意力机制,(2) 将训练好的Transformer模型的前馈块转换为其等效SNN,以及 (3) 使用基于SNN的代理学习算法微调SSA块。我们对所提出的方法进行了基准测试,并使用三种模型尺寸递增的GPT-2模型变体展示了其准确性和可扩展性。我们观察到,转换后的GPT-2小型模型表现出5-12%的余弦相似度损失和9.7%的困惑度降低。最后,我们展示了SSA块与ASA块相比的能效,并表明在数字硬件上实现自注意力机制时,估计能耗降低了64.71%至85.28%。 |
| 2025-09-30 | HilbertA: Hilbert Attention for Image Generation with Diffusion Models | null | 为扩散Transformer设计稀疏注意力需要兼顾二维空间局部性和GPU效率,而当前方法难以实现这种权衡。现有方法强制实现二维空间局部性,但通常会导致非合并内存访问。我们提出了HilbertA,一种二维感知且GPU高效的稀疏注意力机制。HilbertA沿希尔伯特曲线重新排序图像token,以实现连续内存布局同时保留空间邻域,并在各层中采用滑动调度,从而在没有重复或非合并内存访问的情况下实现长距离信息传播。为了进一步增强跨瓦片通信和位置感知,HilbertA引入了一个小的中心共享区域。在Triton中实现的HilbertA在Flux.1-dev上相较于现有方法实现了可比的图像质量和显著加速,证明了硬件对齐的二维稀疏注意力在高分辨率图像生成中的可行性。HilbertA在生成1024×1024图像时实现了2.3倍的注意力加速,在2048×2048时最高可达4.17倍,同时实现了与基线相当或超越基线的图像质量。 |
| 2025-09-30 | TrackFormers Part 2: Enhanced Transformer-Based Models for High-Energy Physics Track Reconstruction | null | 高能物理实验生成的数据量正在迅速增长,这一趋势将随着即将到来的高亮度大型强子对撞机(HL-LHC)升级而加剧。数据的激增需要对整个数据处理流程进行关键性修订,其中粒子径迹重建是主要的改进对象。在我们之前的工作中,我们引入了“TrackFormers”,这是一系列基于Transformer的一次性编码器专用模型,能够有效地将“命中”(hits)与预期径迹(expected tracks)相关联。在本研究中,我们通过引入考虑“命中”之间相关性的损失函数、对(各种)Transformer注意力机制进行详细研究以及对高级别对象重建的研究,扩展了我们之前的工作。此外,我们讨论了新的数据集,这些数据集允许在“命中”级别对一系列物理过程进行训练。这些进展共同旨在提高我们径迹模型的准确性,并可能提高其效率,从而提供一个强大的解决方案,以满足下一代高能物理实验的需求。 |
| 2025-09-30 | The silence of the weights: an investigation of structural pruning strategies for attention-based audio signal architectures | null | 归功于注意力机制,基于Transformer的模型已在从自然语言处理到机器听觉等多个领域成为最先进的技术。然而,注意力层在训练和推理过程中都需要大量的参数和高端硬件。我们提出了一种专门针对注意力机制的新颖剪枝技术,其中我们解耦了注意力块中四个层(即查询(query)、键(keys)、值(values)和输出投影矩阵)的剪枝。我们还研究了沿头部(head)和通道(channel)维度进行剪枝的策略,并比较了音频频谱Transformer (AST) 模型在不同剪枝场景下的性能。我们的结果表明,即使剪枝50%的注意力参数,性能下降也小于1%。 |
| 2025-09-30 | VRWKV-Editor: Reducing quadratic complexity in transformer-based video editing | link | 鉴于视频编辑领域的最新进展,侧重于空间和时间依赖性的深度学习模型已成为主要方法。然而,这些模型受传统注意力机制的二次计算复杂度困扰,使其难以适应长时长和高分辨率视频。这一限制阻碍了它们在实时视频处理等实际场景中的应用。为应对这一挑战,我们提出了一种方法,通过引入VRWKV-Editor来降低这些系统的时间和空间复杂度。VRWKV-Editor是一种新颖的视频编辑模型,它将线性时空聚合模块集成到基于视频的扩散模型中。VRWKV-Editor利用RWKV Transformer的双向加权键值循环机制来捕获全局依赖性,同时保持时间一致性,从而在不牺牲质量的情况下实现了线性复杂度。大量实验表明,与最先进的基于扩散的视频编辑方法相比,所提出的方法实现了高达3.7倍的速度提升和60%的内存使用量降低,同时在帧一致性和文本对齐方面保持了具有竞争力的性能。此外,我们对不同序列长度视频进行的比较分析证实,在长视频上,我们的方法与带有自注意力机制的架构之间的编辑速度差距变得更为显著。 |
| 2025-09-30 | EEG-based AI-BCI Wheelchair Advancement: Hybrid Deep Learning with Motor Imagery for Brain Computer Interface | null | 本文提出了一种融合人工智能(AI)的新颖方法,用于开发基于脑机接口(BCI)的轮椅,利用运动想象左右手运动机制进行控制。该系统旨在利用脑电图(EEG)数据,基于运动想象的左右手运动来模拟轮椅导航。一个从开源EEG存储库获取的预过滤数据集被分割成19x200的数组,以捕获手部运动的起始。数据采集的采样频率为200Hz。该系统集成了一个基于Tkinter的界面,用于模拟轮椅运动,为用户提供了一个功能性且直观的控制系统。我们提出了一种BiLSTM-BiGRU模型,与XGBoost、EEGNet和基于Transformer的模型等各种机器学习基线模型相比,该模型表现出92.26%的优越测试准确率。该基于注意力的Bi-LSTM-BiGRU模型通过交叉验证实现了90.13%的平均准确率,展示了注意力机制在BCI应用中的潜力。 |
| 2025-09-29 | FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers | null | 多模态扩散Transformer (DiT) 在视觉合成方面表现出卓越的能力,但其部署仍受限于巨大的计算需求。为了缓解这一瓶颈,许多基于稀疏性的加速方法已被提出。然而,它们多样化的稀疏模式通常需要定制化的核函数来实现高性能推理,这限制了其普适性。我们提出了FlashOmni,一个兼容任意DiT架构的统一稀疏注意力引擎。FlashOmni引入了灵活的稀疏符号,以标准化表示特征缓存和块稀疏跳过等多种稀疏策略。这种统一的抽象使得在单个注意力核函数内执行多样化的稀疏计算成为可能。此外,FlashOmni为注意力块设计了优化的稀疏GEMM,利用稀疏符号消除冗余计算,进一步提高了效率。实验表明,FlashOmni在注意力机制和GEMM-Q中实现了接近线性且与稀疏度比例(1:1)紧密匹配的加速,并在GEMM-O中实现了2.5倍至3.8倍的加速(最高可达理论极限的约87.5%)。结合多粒度稀疏策略应用时,它使得混元模型(33K)能够实现约1.5倍的端到端加速,且不降低视觉质量。 |
| 2025-09-29 | A Deep Learning Approach for Spatio-Temporal Forecasting of InSAR Ground Deformation in Eastern Ireland | link | 预测高分辨率地表沉降是一项关键但具有挑战性的任务,原因在于其复杂、非线性的动态特性。尽管ConvLSTM等标准架构通常难以建模长程依赖性,但我们认为先前工作的一个更根本的局限在于单模态数据范式。为解决此问题,我们提出了多模态时空Transformer (MM-STT),这是一种融合动态位移数据与静态物理先验知识的新颖框架。其核心创新在于一种联合时空注意力机制,该机制以统一的方式处理所有多模态特征。在公开的EGMS数据集上,MM-STT建立了新的最先进水平,与所有基线方法(包括STGCN和STAEformer等SOTA方法)相比,将长程预测的RMSE降低了一个数量级。我们的结果表明,对于这类问题,架构固有的深度多模态融合能力对于实现变革性性能至关重要。 |
| 2025-09-29 | VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning | null | 多模态大语言模型(MLLMs)在视觉-语言对齐方面取得了令人瞩目的进展,但在视觉-空间推理方面仍存在局限性。我们首先发现,这一局限性源于注意力机制:视觉 token 被语言 token 掩盖,从而阻止模型持续识别跨帧的相同视觉线索。为了解决这一挑战,我们在稀疏子空间聚类的自表达特性与 Transformer 中的注意力机制之间建立了一种新颖的联系。基于这一洞察,我们提出了 VideoAnchor,一个即插即用模块,它利用子空间亲和性在无需重新训练的情况下增强跨帧的视觉线索,有效地将注意力锚定到共享的视觉结构上。在多个基准测试和骨干模型上的大量实验显示出持续的性能提升,例如,在使用 InternVL2-8B 和 Qwen2.5VL-72B 时,在 VSI-Bench 和 Video-MME(空间相关任务)上分别提高了3.2%和4.6%,同时定性分析表明其实现了更连贯的子空间划分和更强的视觉基础。我们的代码将在 https://github.com/feufhd/VideoAnchor 公开。 |
| 2025-09-29 | Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer | null | 基于Transformer的视频扩散模型(VDM)提供了最先进的视频生成质量,但受限于自注意力的二次成本,这使得处理长序列和高分辨率时的计算成本高昂。虽然线性注意力提供了亚二次复杂度,但先前的尝试未能匹配Softmax注意力的表达能力,除非进行高昂的重新训练。我们引入了“注意力手术”(Attention Surgery),这是一个高效的框架,用于在预训练VDM中实现注意力机制的线性化或混合化,而无需从头开始训练。受语言模型最新进展的启发,我们的方法结合了一种新颖的混合注意力机制——混合了Softmax和线性token——以及一个轻量级的蒸馏和微调流程,仅需数个GPU-天。此外,我们引入了成本感知块率策略,以平衡跨层的表达能力和效率。将“注意力手术”应用于最先进的基于DiT的VDM Wan2.1 1.3B,我们实现了首个具有竞争力的亚二次注意力视频扩散模型,将FLOPs衡量的注意力成本降低了高达40%,同时在标准VBench和VBench-2.0基准测试中保持了生成质量。 |
| 2025-09-29 | InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation | null | 长序列处理是现代大型语言模型的关键能力。然而,标准Transformer架构中的自注意力机制在处理长序列时面临严重的计算和内存瓶颈。尽管可训练的稀疏注意力方法提供了一种有前景的解决方案,但NSA等现有方法引入了过多的额外参数,并打破了传统的“短序列预训练,长序列微调”工作流,导致收敛缓慢和加速困难。为了克服这些限制,我们引入了密-稀可切换注意力框架,命名为InfLLM-V2。InfLLM-V2是一种可训练的稀疏注意力,能够无缝地将模型从短序列适应到长序列。具体来说,InfLLM-V2通过无参数架构修改重用密集注意力参数,保持了短序列和长序列处理之间的一致性。此外,InfLLM-V2通过对短输入使用密集注意力,并平滑过渡到长序列的稀疏注意力,确保了所有序列长度下的计算效率。为了实现实际加速,我们进一步引入了InfLLM-V2的高效实现,显著降低了计算开销。我们在长上下文理解和思维链推理方面的实验表明,InfLLM-V2比密集注意力快4倍,同时分别保持了98.1%和99.7%的性能。基于InfLLM-V2框架,我们训练并开源了MiniCPM4.1(https://huggingface.co/openbmb/MiniCPM4.1-8B),这是一个混合推理模型,为研究社区提供了一个可复现的实现。 |
| 2025-09-26 | RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer | null | 扩散Transformer (DiT) 在视觉生成方面表现出色,但仍受限于缓慢的采样速度。现有的免训练加速器——如步长缩减、特征缓存和稀疏注意力——能够提升推理速度,但通常依赖于对所有图像采用统一的启发式方法或手动设计的自适应策略,牺牲了一定的生成质量。另一方面,动态神经网络提供了每图像自适应加速,但其高昂的微调成本限制了更广泛的应用。为解决这些局限性,我们引入了RAPID3:用于扩散Transformer的三级强化加速策略,该框架在不对基础生成器进行任何更新的情况下实现了图像级加速。具体而言,三个轻量级策略头——步长跳过、缓存重用和稀疏注意力——观察当前的去噪状态,并在每个时间步独立决定其相应的加速策略。所有策略参数通过组相对策略优化 (GRPO) 进行在线训练,同时生成器保持冻结。同时,一个对抗学习的判别器增强了奖励信号,仅当生成的样本与原始模型的分布保持接近时才提升回报,从而阻止奖励作弊。在包括Stable Diffusion 3和FLUX在内的最先进DiT骨干网络上,RAPID3实现了近3倍的采样加速,且保持了具有竞争力的生成质量。 |
| 2025-09-26 | Statistical Advantage of Softmax Attention: Insights from Single-Location Regression | null | 大型语言模型依赖于采用 softmax 激活的注意力机制。然而,softmax 相对于替代方案(例如逐分量或线性)的优势仍知之甚少,并且许多理论研究侧重于更易于分析的线性化注意力。在这项工作中,我们通过对单位置回归任务进行一项有原则的研究来弥补这一空白,其中输出取决于随机位置处单个输入 token 的线性变换。借鉴统计物理学的思想,我们开发了在高维极限下对基于注意力的预测器的分析,其中泛化性能由一小部分序参数捕获。在总体层面,我们表明 softmax 达到了贝叶斯风险,而线性注意力则根本不足。然后我们检查其他激活函数,以确定哪些属性对于最优性能是必要的。最后,我们分析了有限样本机制:我们提供了测试误差的渐近表征,并表明,虽然 softmax 不再是贝叶斯最优的,但它始终优于线性注意力。我们讨论了与基于梯度的算法优化的联系。 |
| 2025-09-26 | SynerGen: Contextualized Generative Recommender for Unified Search and Recommendation | null | 大规模推荐系统中主流的“检索-然后-排序”流水线由于其架构分离和不同的优化目标,面临校准不当和工程开销问题。尽管近期的生成式序列模型通过自回归地生成排序后的项目,在统一检索和排序方面展现出潜力,但现有解决方案通常只解决个性化搜索或无查询推荐中的一个,并且在尝试统一两者时常常表现出性能权衡。我们提出了SynerGen,这是一种新颖的生成式推荐模型,通过为个性化搜索和推荐提供单一的生成式骨干,弥补了这一关键空白,同时在检索和排序任务中表现出色。我们的仅解码器Transformer在行为序列上进行训练,利用InfoNCE进行检索的联合优化和混合点对损失进行排序,从而使来自搜索的语义信号能够改善推荐,反之亦然。我们还提出了一种新颖的时间感知旋转位置嵌入,以有效地将时间信息整合到注意力机制中。与强大的生成式推荐器和联合搜索推荐基线模型相比,SynerGen在广泛采用的推荐和搜索基准上取得了显著改进。这项工作证明了单一生成式基础模型在工业规模统一信息访问方面的可行性。 |
| 2025-09-25 | Decoupled-Value Attention for Prior-Data Fitted Networks: GP Inference for Physical Equations | null | 先验数据拟合网络 (PFNs) 是耗时的高斯过程 (GP) 推断的一种有前途的替代方案,可用于创建物理系统的快速替代模型。PFN通过将GP中的贝叶斯推断替换为学习到的预测模型的单次前向传播,减轻了GP训练的计算负担。然而,使用标准的Transformer注意力机制,PFNs在高维回归任务上表现出有限的有效性。我们引入了解耦值注意力机制 (DVA),其灵感来源于GP的特性,即函数空间完全由输入上的核函数刻画,且预测均值是训练目标的加权和。DVA仅从输入计算相似度,并仅通过值传播标签。因此,所提出的DVA模拟了高斯过程的更新,同时保持无核化。我们证明,扩展PFNs的关键因素是注意力规则而不是架构本身。具体而言,我们的结果表明 (a) 局部注意力机制在不同维度设置下的PFNs中持续降低了样本外验证损失,在五维和十维情况下,验证损失降低了50%以上,并且 (b) 注意力机制的作用比骨干架构的选择更具决定性,表明基于CNN的PFNs可以与基于Transformer的PFNs表现相当。所提出的PFNs提供了64维潮流方程近似,平均绝对误差约为1E-3,同时比精确GP推断快80多倍。 |
| 2025-09-25 | Why Attention Fails: The Degeneration of Transformers into MLPs in Time Series Forecasting | null | 基于Transformer的架构在自然语言处理和计算机视觉领域取得了高性能,然而许多研究表明,它们在时间序列预测中并未展现出明显优势,甚至在某些情况下表现不如简单的线性基线。然而,这些研究大多未能彻底探究Transformer失败背后的原因。为了更好地理解时间序列Transformer (TST),我们设计了一系列实验,逐步将Transformer修改为多层感知机(MLP)以探究注意力机制的影响。令人惊讶的是,在现有的时间序列Transformer中,Transformer块经常退化为简单的多层感知机。我们设计了一个可解释的数据集来探究注意力机制失败背后的原因,并揭示了注意力机制并未以预期方式工作。我们从理论上分析了这种现象背后的原因,表明当前的嵌入方法未能使Transformer在结构良好的潜在空间中发挥作用,并进一步分析了嵌入失败更深层次的根本原因。 |
| 2025-09-25 | DENet: Dual-Path Edge Network with Global-Local Attention for Infrared Small Target Detection | null | 红外小目标检测对于灾害预警和海上监视等遥感应用至关重要。然而,由于缺乏独特的纹理和形态特征,红外小目标极易融入杂乱和嘈杂的背景中。为该任务设计深度模型的一个根本挑战在于,捕获微小目标的高分辨率空间细节与提取较大目标的鲁棒语义上下文之间存在内在冲突,这通常会导致特征错位和次优性能。现有方法通常依赖于固定梯度算子或简单的注意力机制,这些方法不足以在低对比度和高噪声条件下准确提取目标边缘。在本文中,我们提出了一种新颖的双路径边缘网络,通过将边缘增强和语义建模解耦为两个互补的处理路径来明确解决这一挑战。第一条路径采用双向交互模块,该模块使用局部自注意力和全局自注意力来捕获多尺度局部和全局特征依赖性。基于Transformer架构的全局注意力机制整合了长距离语义关系和上下文信息,确保了鲁棒的场景理解。第二条路径引入了多边缘细化器,该细化器使用级联的泰勒有限差分算子在多个尺度上增强细粒度边缘细节。这种数学方法结合注意力驱动的门控机制,实现了对不同尺寸目标的精确边缘定位和特征增强,同时有效抑制噪声。我们的方法为精确的红外小目标检测和定位提供了一个有前景的解决方案,在一个统一的框架中结合了结构语义和边缘细化。 |
| 2025-09-25 | From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training | null | 大语言模型(LLMs)的近期进展引起了将LLMs能力扩展到多模态场景的广泛关注,特别是对于语音到语音对话系统。然而,现有处理交错音频和文本的多模态模型依赖于自回归方法,忽略了文本依赖于目标-目标关系,而音频主要依赖于源-目标关系。在这项工作中,我们提出了Text-to-Talk(TtT),一个统一的音频-文本框架,它将自回归(AR)文本生成与非自回归(NAR)音频扩散集成在一个Transformer中。通过利用吸收离散扩散的任意顺序自回归特性,我们的方法为文本和音频提供了一个统一的训练目标。为了支持这种混合生成范式,我们设计了一种模态感知注意力机制,该机制对文本强制执行因果解码,同时允许在音频片段内进行双向建模,并进一步引入了三种训练策略以减少训练-测试差异。在推理过程中,TtT采用块级扩散以并行合成音频,同时灵活处理可变长度输出。在音频问答(Audio-QA)和自动语音识别(ASR)任务上的大量实验证明了我们方法的有效性,并通过详细的消融研究验证了每个提出的组件。我们将开源我们的模型、数据和代码,以促进该方向的未来研究。 |
| 2025-09-23 | Mamba Modulation: On the Length Generalization of Mamba | null | Transformer模型中注意力机制的二次复杂度促使了具有次二次缩放特性的替代架构(如状态空间模型)的发展。其中,Mamba已成为一种领先架构,在一系列语言建模任务中取得了最先进的结果。然而,当Mamba应用于比预训练时更长的上下文时,其性能会显著下降,这揭示了其对上下文长度扩展的显著敏感性。通过详细分析,我们将这一局限性归因于其状态空间动态的分布外行为,特别是在状态转移矩阵 $\mathbf{A}$的参数化中。与近期将这种敏感性归因于离散化时间步长累积消失(即$\exp(-\sum_{t=1}^N\Delta_t)$)的工作不同,我们建立了输入长度趋于无穷大时状态收敛行为与转移矩阵$\mathbf{A}$的谱之间的联系,为$\mathbf{A}$在长度扩展中的作用提供了充分依据的解释。接下来,为了克服这一挑战,我们提出了一种方法,通过选择性地调制每一层中$\mathbf{A}$矩阵的谱,将谱缩放应用于预训练的Mamba模型,以实现鲁棒的长上下文泛化。我们表明,在仅调制$\Delta_t$ 会失败的设置中,我们的方法可以显著提高性能,从而验证了我们的见解,并为具有结构化转移矩阵的状态空间模型实现更好的长度泛化提供了途径。 |
| 2025-09-23 | Circuit Complexity From Physical Constraints: Scaling Limitations of Attention | null | 我们认为,源自 $NC, AC, TC$的标准电路复杂性度量提供的实用信息有限,并且现在不足以进一步区分模型表达能力。为了解决这些新限制,我们定义了一种新颖的局部一致性概念,以及一个捕捉扩展物理电路基本约束的电路复杂性类别$RC(\cdot)$家族。借助于$RC(\cdot)$的视角,我们表明运行时为$\omega(n^{3/2})$ 的注意力机制无法扩展以适应日益复杂数据集的熵。我们的结果同时为定义Transformer表达能力的有意义界限提供了一种方法,并自然地揭示了注意力机制有限的适用性。 |
| 2025-09-23 | BiGraspFormer: End-to-End Bimanual Grasp Transformer | null | 双手抓取对于机器人操作大型复杂物体至关重要。然而,现有方法要么仅专注于单臂抓取,要么采用独立的抓取生成和双手评估阶段,导致了包括碰撞风险和受力不均在内的协调问题。为解决这些局限性,我们提出了BiGraspFormer,一个统一的端到端Transformer框架,可以直接从物体点云中生成协调的双手抓取。我们的核心思想是单臂引导双手 (SGB) 策略,该策略首先使用Transformer解码器生成多样化的单臂抓取候选,然后通过专门的注意力机制利用它们学到的特征,联合预测双手姿态和质量分数。这种条件策略降低了12自由度搜索空间的复杂性,同时确保了协调的双手操作。综合仿真实验和真实世界验证表明,BiGraspFormer持续优于现有方法,同时保持了高效的推理速度 (<0.05秒),证实了我们框架的有效性。代码和补充材料可在 https://sites.google.com/bigraspformer 获取。 |
| 2025-09-23 | Weakly Supervised Food Image Segmentation using Vision Transformers and Segment Anything Model | null | 本文提出了一种用于食物图像的弱监督语义分割方法,该方法利用了Segment Anything模型(SAM)的零样本能力和可提示性,以及视觉Transformer(ViT)的注意力机制。具体而言,我们使用来自ViT的类激活图(CAM)为SAM生成提示,从而得到适用于食物图像分割的掩码。该ViT模型(Swin Transformer)仅使用图像级标注进行训练,消除了训练过程中对像素级标注的需求。此外,为了提高SAM生成掩码的质量,我们研究了结合图像预处理技术以及单掩码和多掩码SAM生成策略的使用。该方法在FoodSeg103数据集上进行了评估,平均每张图像生成2.4个掩码(不包括背景),并在多掩码情景下实现了0.54的平均交并比(mIoU)。我们设想所提出的方法可作为加速食物图像标注任务的工具,或作为食物和营养追踪应用中的集成组件。 |
| 2025-09-23 | Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models | link | 大型音频语言模型(LALMs)常面临音频-文本注意力不平衡问题,尤其是在Transformer架构的多模态融合层中,模型倾向于优先处理文本信息而非声学信息。这种偏差阻碍了LALMs充分利用声学线索的能力,导致其在音频推理任务上性能欠佳。为缓解此问题,我们提出MATA,这是一种新颖的免训练方法,能动态地促使LALMs在自注意力机制中更多地关注音频token。具体而言,MATA在原始注意力得分计算后进行干预,仅针对中间层的最后一个token,且不引入额外参数或计算开销。在MMAU和MMAR基准上的实验证实了MATA的有效性,并带来了持续的性能提升。值得注意的是,在MMAR上,MATA首次使一个开源模型超越了专有的Gemini 2.0 Flash。我们的工作为缓解注意力偏差提供了一种有效的解决方案,并为增强多模态模型的音频处理能力开辟了新的研究方向。 |
| 2025-09-23 | Lightweight Vision Transformer with Window and Spatial Attention for Food Image Classification | null | 随着社会的快速发展和科学技术的不断进步,食品工业对生产质量和效率的要求越来越高。食品图像分类在实现生产线上的自动化质量控制、支持食品安全监管和推动智慧农业生产方面发挥着至关重要的作用。然而,由于 Vision Transformer 模型参数量大、计算复杂度高,这项任务面临挑战。为了解决这些问题,我们提出了一种融合窗口多头注意力机制(WMHAM)和空间注意力机制(SAM)的轻量级食品图像分类算法。WMHAM 通过高效的窗口划分捕获局部和全局上下文特征,从而降低了计算成本,而 SAM 则自适应地强调关键空间区域,以提高判别性特征表示。在 Food-101 和 Vireo Food-172 数据集上进行的实验表明,我们的模型分别达到了 95.24% 和 94.33% 的准确率,同时与基线方法相比显著减少了参数量和 FLOPs。这些结果证实,所提出的方法在计算效率和分类性能之间实现了有效平衡,使其非常适合部署在资源受限的环境中。 |
| 2025-09-22 | GluMind: Multimodal Parallel Attention and Knowledge Retention for Robust Cross-Population Blood Glucose Forecasting | null | 本文提出了GluMind,一种基于Transformer的多模态框架,专为连续和长期血糖预测而设计。GluMind设计了两种注意力机制,包括交叉注意力(cross-attention)和多尺度注意力(multi-scale attention),它们并行运行并提供了准确的预测性能。交叉注意力有效地整合了血糖数据与其他生理和行为信号,例如活动、压力和心率,解决了与采样率变化相关的挑战以及它们对鲁棒预测的不利影响。此外,多尺度注意力机制捕获了长程时间依赖性。为了减轻灾难性遗忘,GluMind将一种知识保留技术融入基于Transformer的预测模型中。知识保留模块不仅增强了模型保留先验知识的能力,而且提升了其整体预测性能。我们在最近发布的AIREADI数据集上评估了GluMind,该数据集包含来源于健康人、糖尿病前期患者和2型糖尿病患者的行为和生理数据。我们研究了GluMind在引入新患者队列时进行持续学习的性能稳定性和适应性。实验结果表明,GluMind持续优于其他最先进的预测模型,在均方根误差(RMSE)和平均绝对误差(MAE)方面分别实现了约15%和9%的改进。 |
| 2025-09-22 | Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers | link | 文本到图像扩散模型通过其跨模态注意力机制隐式地关联文本概念,擅长将语言提示翻译成逼真的图像。近期的多模态扩散Transformer通过在拼接的图像和文本token上引入联合自注意力,扩展了这一能力,实现了更丰富、更具扩展性的跨模态对齐。然而,关于这些注意力图如何以及在何处对图像生成做出贡献的详细理解仍然有限。在本文中,我们引入了Seg4Diff(Diffusion的分割),这是一个用于分析MM-DiT注意力结构的系统框架,重点关注特定层如何将语义信息从文本传播到图像。通过全面的分析,我们识别出一个语义关联专家层,这是一个特定的MM-DiT模块,能够持续地将文本token与空间上连贯的图像区域对齐,自然地生成高质量的语义分割掩码。我们进一步证明,应用一种使用带有掩码标注的图像数据的轻量级微调方案,可以增强这些层的语义分组能力,从而提高了分割性能和生成图像的保真度。我们的研究结果表明,语义分组是扩散Transformer的一种涌现特性,并且可以被选择性地放大,以提升分割和生成性能,为弥合视觉感知和生成之间鸿沟的统一模型铺平道路。 |
| 2025-09-22 | M3ET: Efficient Vision-Language Learning for Robotics based on Multimodal Mamba-Enhanced Transformer | null | 近年来,多模态学习在机器人视觉和信息融合中已变得至关重要,尤其是在理解复杂环境中人类行为方面。然而,当前方法难以充分利用文本模态,它们依赖于监督预训练模型,这限制了在无监督机器人环境中进行语义提取,尤其是在存在显著模态损失的情况下。这些方法也往往是计算密集型的,导致在实际应用中资源消耗较高。为了应对这些挑战,我们提出了多模态Mamba增强型Transformer (M3ET),这是一种轻量级模型,旨在实现高效多模态学习,特别是在移动平台上。通过结合Mamba模块和一种基于语义的自适应注意力机制,M3ET优化了特征融合、对齐和模态重建。我们的实验表明,M3ET提升了跨任务性能,预训练推理速度提高了2.3倍。具体而言,M3ET在核心VQA任务上的准确率保持在0.74,而模型参数量减少了0.67。尽管在EQA任务上的性能有限,但M3ET的轻量级设计使其非常适合部署在资源受限的机器人平台上。 |
| 2025-09-22 | Training-free Truthfulness Detection via Value Vectors in LLMs | null | 大型语言模型经常生成事实不准确的输出,这促使人们努力检测其内容的真实性。大多数现有方法依赖于对内部激活进行训练探针,但这些方法存在可扩展性和泛化性问题。一种近期无需训练的方法NoVo通过利用模型本身的统计模式来解决这一挑战。然而,它只专注于注意力机制,可能忽略了多层感知机(MLP)模块——Transformer模型中一个已知支持事实回忆的核心组件。在本文中,我们展示了MLP模块中某些值向量表现出与真实性相关的统计模式。基于这一发现,我们提出TruthV,一种简单且可解释的无需训练方法,通过利用这些值向量来检测内容的真实性。在NoVo基准测试中,TruthV显著优于NoVo和对数似然基线,这表明MLP模块——尽管在之前的无需训练工作中被忽视——编码了丰富而有用的真实性检测信号。这些发现为真实性在大型语言模型中是如何内部表示的提供了新见解,并推动了对可扩展和可解释的真实性检测的进一步研究。 |
| 2025-09-22 | Conv-like Scale-Fusion Time Series Transformer: A Multi-Scale Representation for Variable-Length Long Time Series | null | 时间序列分析在处理变长数据和实现鲁棒泛化方面面临严峻挑战。尽管基于Transformer的模型推动了时间序列任务的发展,但它们常常面临特征冗余和有限泛化能力的问题。借鉴经典CNN架构的金字塔结构,我们提出了一种基于类卷积尺度融合Transformer的多尺度表示学习框架。我们的方法引入了一种类似时间卷积的结构,将分块操作与多头注意力相结合,从而实现了渐进式时间维度压缩和特征通道扩展。我们还进一步开发了一种新颖的跨尺度注意力机制,用于在不同时间尺度上进行有效的特征融合,以及一种用于变长序列的对数空间归一化方法。大量实验表明,与最先进的方法相比,我们的框架在预测和分类任务中实现了卓越的特征独立性、降低了冗余并获得了更优的性能。 |
| 2025-09-19 | Attention Schema-based Attention Control (ASAC): A Cognitive-Inspired Approach for Attention Management in Transformers | null | 注意力机制已成为人工智能中不可或缺的一部分,通过借鉴人类认知,显著提升了模型性能和可扩展性。与此同时,认知科学中的注意力图式理论(AST)提出,个体通过构建注意力自身的模型来管理注意力,从而有效分配认知资源。受AST启发,我们引入了ASAC(基于注意力图式的注意力控制),将注意力图式概念整合到人工神经网络中。我们的初步实验专注于将ASAC模块嵌入Transformer架构中。该模块采用矢量量化变分自编码器(VQVAE)作为注意力抽象器和控制器,促进精确的注意力管理。通过显式建模注意力分配,我们的方法旨在提高系统效率。我们证明了ASAC在视觉和自然语言处理(NLP)领域均有效,强调了其提高分类准确性和加快学习过程的能力。我们对视觉Transformer在各种数据集上的实验表明,注意力控制器不仅提高了分类准确性,还加速了学习。此外,我们还证明了模型在噪声和分布外数据集上的鲁棒性和泛化能力。另外,我们展示了在多任务设置中的性能提升。快速实验表明,基于注意力图式的模块增强了对对抗攻击的韧性,优化注意力以提高学习效率,并促进了有效的迁移学习和少样本学习。这些有前景的结果建立了认知科学与机器学习之间的联系,揭示了AI系统中注意力机制的有效利用。 |
| 2025-09-19 | Interplay Between Belief Propagation and Transformer: Differential-Attention Message Passing Transformer | null | 基于Transformer的神经网络译码器已成为纠错编码的一种有前景的方法,它结合了数据驱动的适应性与长程依赖的有效建模。本文提出了一种新颖的译码器架构,将经典的信念传播原理与Transformer设计相结合。我们引入了一个利用全局码本结构的可微分伴随式损失函数,以及一个优化比特和伴随式嵌入交互的差分注意力机制。实验结果表明,与现有基于Transformer的译码器相比,性能有持续改进,我们的方法在短到中等长度的LDPC码上超越了传统的信念传播译码器。 |
| 2025-09-18 | Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems | null | Transformer模型及其注意力机制在机器学习领域具有革命性意义。虽然最初提出用于语言数据,但它们很快被应用于图像、视频、图等具有各种信号几何结构的数据模态。尽管具有这种多功能性,将注意力机制泛化到数据以不同尺度、可能来自不同模态呈现的场景并非易事。尝试在Transformer中整合层次结构和多模态主要基于特设启发式方法,这些方法无法无缝泛化到具有潜在不同结构的类似问题。为解决此问题,在本文中,我们采取了一种根本不同的方法:我们首先提出了一种数学构造来表示多模态、多尺度数据。然后,我们从熵最小化的第一性原理出发,数学推导了所提出的构造的神经注意力机制。我们表明,所推导的公式在与标准Softmax注意力最接近的意义上是最佳的,同时整合了源于问题层次/几何信息的归纳偏置。我们进一步提出了一种基于动态规划的高效算法来计算我们推导出的注意力机制。通过将其整合到Transformer中,我们表明所提出的层次注意力机制不仅可以用于从头开始训练层次/多模态设置下的Transformer模型,而且还可以用于在训练后向经典的、预训练的Transformer模型注入层次信息,从而以零样本方式获得更高效的模型。 |
| 2025-09-18 | SPH-Net: A Co-Attention Hybrid Model for Accurate Stock Price Prediction | null | 预测股票价格走势在金融分析中构成严峻挑战,这归因于市场数据固有的波动性、非平稳性和非线性特征。本文介绍了SPH-Net(股票价格预测混合神经网络),这是一种创新的深度学习框架,旨在提高金融市场时间序列预测的准确性。所提出的架构采用一种新颖的协同注意力机制,该机制首先通过Vision Transformer处理时间模式,随后通过注意力机制进行精炼的特征提取,从而捕获市场数据中的全局和局部依赖关系。为了严格评估模型的性能,我们在八个多样化的股票数据集上进行了全面的实验:AMD、Ebay、Facebook、FirstService Corp、Tesla、Google、Mondi ADR和Matador Resources。每个数据集都使用六个基本市场指标进行标准化:开盘价、最高价、最低价、收盘价、调整后收盘价和成交量,代表了一整套用于全面市场分析的特征。实验结果表明,SPH-Net在所有评估指标上始终优于现有的股票预测模型。该模型的卓越性能源于其有效捕获复杂时间模式的能力,同时保持对市场噪声的鲁棒性。通过显著提高金融时间序列分析中的预测准确性,SPH-Net为投资者和金融分析师提供了宝贵的决策支持能力,有可能在波动的市场条件下实现更明智的投资策略和风险评估。 |
| 2025-09-18 | Attention Beyond Neighborhoods: Reviving Transformer for Graph Clustering | null | 注意力机制已成为现代神经网络的核心,推动了各个领域的突破性进展。然而,它们在图结构数据(其中捕获拓扑连接至关重要)上的应用仍探索不足且性能欠佳,尤其是在图聚类任务中,相较于图神经网络(GNNs)。GNN 倾向于过分强调邻域聚合,导致节点表示的同质化。相反,Transformer 倾向于过度关注全局,突出远距离节点却牺牲了有意义的局部模式。这种对立提出了一个关键问题:注意力机制对于无监督图学习是否本质上是多余的?为了解决这个问题,我们进行了一项全面的实证分析,揭示了 GNN 和 Transformer 在图聚类中的互补弱点。受这些见解的启发,我们提出了注意力图聚类网络(AGCN),这是一种新颖的架构,重新诠释了“图即注意力”这一理念。AGCN 直接将注意力机制嵌入到图结构中,从而实现有效的全局信息提取,同时保持对局部拓扑线索的敏感。我们的框架结合了理论分析,以对比 AGCN 与 GNN 和 Transformer 的行为,并引入了两项创新:(1) 一种 KV 缓存机制,以提高计算效率;(2) 一种成对间隔对比损失,以提升注意力空间的判别能力。广泛的实验结果表明,AGCN 的性能优于现有最先进的方法。 |
| 2025-09-18 | Exploring the Global-to-Local Attention Scheme in Graph Transformers: An Empirical Study | null | 图形Transformer (GT) 在图表示学习中展现出巨大潜力。GT 的架构通常将图神经网络 (GNN) 与全局注意力机制并行集成或作为注意力机制的前置,从而形成局部-全局或局部到全局的注意力方案。然而,由于全局注意力机制主要捕获节点间的长程依赖关系,这些集成方案可能会遭受信息损失,即 GNN 学习到的局部邻域信息可能会被注意力机制稀释。因此,我们提出了 G2LFormer,它采用了一种新颖的全局到局部注意力方案,其中浅层网络层使用注意力机制捕获全局信息,而深层网络层则采用 GNN 模块学习局部结构信息,从而防止节点忽略其直接邻居。为使局部层能够保留来自全局层的有益信息并减轻信息损失,我们引入了一种有效的跨层信息融合策略,同时在可扩展性方面实现了可接受的权衡。为了验证全局到局部注意力方案的可行性,我们在节点级和图级任务上将 G2LFormer 与最先进的线性 GT 和 GNN 进行了比较。结果表明,G2LFormer 表现出优异的性能,同时保持了线性复杂度。 |
| 2025-09-18 | Stochastic Clock Attention for Aligning Continuous and Ordered Sequences | null | 我们为连续且有序的序列提出了一种明确地作为对齐模型发挥作用的注意力机制,该机制是许多序列到序列任务的核心。标准的缩放点积注意力依赖于位置编码和掩码,但它不强制连续性或单调性,而这对于帧同步目标至关重要。我们提出了针对源和目标学习的非负“时钟”,并将注意力建模为这些时钟的相遇概率;路径积分推导得到一个封闭形式的、类高斯的评分规则,该规则具有对因果、平滑、近对角线对齐的内在偏置,无需外部位置正则化器。该框架支持两种互补的模式:当全局长度可用时,用于并行解码的归一化时钟,以及用于自回归解码的未归一化时钟——两者都是几乎无参数的、可直接替换的方案。在Transformer文本到语音测试平台中,这种构造产生了更稳定的对齐,并提高了对全局时间尺度变化的鲁棒性,同时与缩放点积基线相比,准确性持平或有所提高。我们推测它适用于其他连续目标,包括视频和时序信号建模。 |
| 2025-09-18 | SpeechMLC: Speech Multi-label Classification | null | 本文提出一个多标签分类框架,用于检测语音样本中的多种说话风格。与以往主要关注识别单一目标风格的研究不同,我们的框架能在一个统一的结构中有效捕获多种说话者特征,使其适用于广义的人机交互应用。所提出的框架在Transformer解码器内部整合了交叉注意力机制,以从输入语音中提取与每个目标标签相关的显著特征。为了缓解多标签语音数据集中固有的数据不平衡问题,我们采用了一种基于语音生成模型的数据增强技术。我们通过在已知语料库和未知语料库上的多项客观评估,验证了我们模型的有效性。此外,我们通过考虑人类标注一致性对模型性能的影响,分析了人类感知对分类准确性的影响。 |
| 2025-09-17 | White Aggregation and Restoration for Few-shot 3D Point Cloud Semantic Segmentation | null | 少样本三维点云分割(FS-PCS)旨在仅给定少量标记样本的情况下,预测未标记点云的每个点的标签。为了从有限的支持集中提取判别性表示,现有方法使用最远点采样等传统算法构建原型。然而,我们指出其初始随机性显著影响FS-PCS性能,并且原型生成过程尽管普遍存在但仍未得到充分探索。这促使我们研究一种基于注意力机制的先进原型生成方法。尽管注意力机制有其潜力,我们发现朴素模块存在可学习原型tokens与支持特征之间的分布差异问题。为了克服这一问题,我们提出了白化聚合与恢复模块(WARM),该模块通过将交叉注意力置于白化和着色变换之间来解决错位问题。具体来说,白化操作在注意力处理之前将支持特征与原型tokens对齐,随后着色操作恢复经过注意力处理的tokens的原始分布。这种简单而有效的设计实现了鲁棒的注意力,从而通过捕获支持特征之间的语义关系生成具有代表性的原型。我们的方法在多个FS-PCS基准上以显著优势实现了最先进的性能,并通过广泛的实验证明了其有效性。 |
| 2025-09-17 | ST-LINK: Spatially-Aware Large Language Models for Spatio-Temporal Forecasting | null | 交通预测在智能交通系统中是一个关键问题。在近期研究中,大型语言模型(LLMs)已成为一种有前景的方法,但其主要为序列化标记处理而设计的内在结构,在有效捕捉空间依赖性方面带来了显著挑战。具体而言,LLMs在建模空间关系方面的固有局限性及其与图结构空间数据在架构上的不兼容性,在很大程度上仍未得到解决。为克服这些局限性,我们引入了ST-LINK,这是一个新颖的框架,旨在增强大型语言模型捕捉时空依赖性的能力。其关键组成部分是空间增强注意力(SE-Attention)和记忆检索前馈网络(MRFFN)。SE-Attention扩展了旋转位置嵌入,将空间相关性作为直接的旋转变换整合到注意力机制中。这种方法在最大化空间学习的同时,保留了LLM固有的序列处理结构。同时,MRFFN动态检索并利用关键历史模式,以捕捉复杂的时序依赖性并提高长期预测的稳定性。在基准数据集上的综合实验表明,ST-LINK超越了传统的深度学习和LLM方法,并能有效捕捉常规交通模式和突发变化。 |
| 2025-09-16 | SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention | null | 尽管Transformer架构在建模长距离依赖方面表现出色,使其在视觉任务中得到广泛应用,但基于softmax的注意力机制的二次复杂度带来了主要瓶颈,尤其是在处理高分辨率图像时。线性注意力通过将注意力计算从 $(QK)V$重新表述为$Q(KV)$,从而将复杂度从$\mathcal{O}(N^2)$降低到$\mathcal{O}(N)$,同时保留了全局感受野,提供了一种有前景的替代方案。然而,大多数现有方法均匀地压缩历史键值(KV)信息,这可能导致特征冗余以及与查询(Q)的方向对齐丢失。这种均匀压缩导致低秩$KV$特征图,从而导致与softmax注意力相比的性能差距。为了缓解这一局限性,我们提出了用于高效且富有表现力的线性注意力的选择性自适应门控(SAGA),该方法引入了输入自适应的可学习门控,以选择性地调节信息聚合到$KV$特征图中。这些门控增强了语义多样性,并缓解了传统线性注意力中固有的低秩约束。此外,我们提出了一种高效的Hadamard积分解方法用于门控计算,该方法不引入额外的内存开销。实验表明,SAGA在分辨率为$1280 \times 1280$ 时,与PVT-T相比,在吞吐量方面实现了1.76倍的提升,在峰值GPU内存方面实现了2.69倍的降低。此外,它在ImageNet数据集上的top-1准确率提高了高达4.4%,证明了计算效率和模型有效性。 |
| 2025-09-16 | BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers | null | 视觉Transformer (ViT) 在计算机视觉应用中展现出巨大潜力。然而,它们在小样本学习中的性能受限于细化token级交互、难以处理有限训练数据以及建立强大归纳偏置等挑战。现有方法常依赖不灵活的token匹配或基本相似性度量,这限制了全局上下文的有效融合和局部特征的细化。为解决这些挑战,我们提出针对小样本Transformer的双层自适应Token细化 (BATR-FST),这是一种两阶段方法,能逐步改进token表示并为小样本分类保持鲁棒的归纳偏置。在预训练阶段,掩码图像建模 (MIM) 通过重建被掩码的图像区域,为视觉Transformer (ViT) 提供可迁移的块级表示,为后续适应奠定鲁棒基础。在元微调阶段,BATR-FST 融合了一个双层自适应Token细化模块,该模块利用Token聚类来捕获局部交互,通过不确定性感知Token加权优先处理可靠特征,并采用双层注意力机制来平衡簇内和簇间关系,从而促进彻底的token细化。此外,图Token传播确保了支持集和查询集实例之间的语义一致性,而类别分离惩罚则保持了不同类别边界,增强了判别能力。在三个基准小样本数据集上进行的大量实验表明,BATR-FST 在1-shot和5-shot场景中均取得了优异结果,并改进了基于Transformer的小样本分类。 |
| 2025-09-15 | Dynamic Relational Priming Improves Transformer in Multivariate Time Series | null | Transformer模型中的标准注意力机制采用静态的token表示,这些表示在每一层的所有成对计算中保持不变。这限制了它们在表示上与每对token交互中潜在的多元关系动态的对齐。虽然它们在关系相对同质的领域表现出色,但标准注意力机制的静态关系学习难以捕捉多元时间序列(MTS)数据中多样化、异构的通道间依赖关系——在单个系统中,不同通道对之间的交互可能受完全不同的物理定律或时间动态支配。为了更好地调整注意力机制以适应此类领域现象,我们提出了带有动态关系预置(prime attention)的注意力机制。与标准注意力机制不同,在标准注意力机制中,每个token在其所有成对交互中都呈现相同的表示,而prime attention通过可学习的调制动态地(或按每次交互)调整每个token,以最好地捕捉每对token独特的关联动态,从而为该特定关系优化每次成对交互。prime attention的这种表示可塑性使得在MTS中有效提取关系特定信息成为可能,同时保持与标准注意力机制相同的渐近计算复杂度。我们的结果表明,prime attention在各项基准测试中始终优于标准注意力机制,实现了高达6.5%的预测准确性提升。此外,我们发现与标准注意力机制相比,prime attention在使用减少高达40%的序列长度时,取得了相当或更优的性能,进一步证明了其卓越的关系建模能力。 |
| 2025-09-14 | Length-Aware Rotary Position Embedding for Text-Speech Alignment | null | 许多近期文本到语音(TTS)系统基于Transformer架构,并采用交叉注意力机制用于文本-语音对齐。在这些系统中,旋转位置编码(RoPE)常被用于编码文本和语音表示中的位置信息。在这项工作中,我们引入了长度感知RoPE(LARoPE),作为RoPE的一个简单而有效的扩展,能够改善文本-语音对齐。与依赖绝对索引的RoPE不同,LARoPE使用长度归一化索引计算查询(query)和键(key)位置之间的相对距离。实验结果表明,LARoPE持续优于RoPE,提供了更快的损失收敛、更准确的文本-语音对齐和更高的整体TTS质量。此外,LARoPE对发音时长变化表现出更强的鲁棒性,并在长达30秒的扩展语音生成中保持稳定性能,而RoPE则出现显著性能下降。值得注意的是,我们的方法在标准零样本TTS基准测试上,词错误率达到了最先进水平。 |
| Publish Date | Title | Code | Abstract |
|---|---|---|---|
| 2025-10-28 | Generative View Stitching | link | 自回归视频扩散模型能够生成稳定且与历史一致的长序列,但它们无法通过未来条件来指导当前生成。在具有预定义相机轨迹的相机引导视频生成中,这种局限性会导致与生成场景发生碰撞,之后自回归模型迅速崩溃。为了解决这个问题,我们提出了生成式视图拼接(GVS),它并行采样整个序列,从而使生成的场景与预定义相机轨迹的每个部分都保持一致。我们的主要贡献是一种采样算法,该算法将机器人规划中扩散拼接的现有工作扩展到视频生成。虽然这种拼接方法通常需要专门训练的模型,但GVS与任何通过扩散强制(Diffusion Forcing)训练的现成视频模型兼容,我们证明扩散强制这一流行的序列扩散框架已经提供了拼接所需的先决条件。我们随后引入了全方位引导(Omni Guidance),这是一种通过同时以过去和未来为条件来增强拼接中时间一致性的技术,并使我们提出的闭环机制能够实现长程连贯性。总之,GVS实现了稳定、无碰撞、帧间一致的相机引导视频生成,并能为各种预定义的相机路径实现闭环,包括奥斯卡·路透斯沃德的“不可能的楼梯”。结果最好以视频形式查看,网址为https://andrewsonga.github.io/gvs。 |
| 2025-10-28 | Uniform Discrete Diffusion with Metric Path for Video Generation | link | 连续空间视频生成取得了快速进展,而离散方法由于误差累积和长上下文不一致性而落后。在这项工作中,我们重新审视离散生成建模,并提出了Uniform discRete diffuSion with metric pAth (URSA),这是一个简单而强大的框架,它弥补了与连续方法在可扩展视频生成方面的差距。URSA 的核心在于,它将视频生成任务表述为离散时空令牌的迭代全局细化。它整合了两个关键设计:线性化度量路径和分辨率依赖的时间步长偏移机制。这些设计使URSA能够高效地扩展到高分辨率图像合成和长持续时间视频生成,同时需要显著更少的推理步数。此外,我们引入了一种异步时间微调策略,该策略在单个模型中统一了多功能任务,包括插值和图像到视频生成。在具有挑战性的视频和图像生成基准上的大量实验表明URSA始终优于现有离散方法,并达到了与最先进的连续扩散方法相媲美的性能。代码和模型可在https://github.com/baaivision/URSA获取。 |
| 2025-10-28 | Multi-Agent Scenario Generation in Roundabouts with a Transformer-enhanced Conditional Variational Autoencoder | null | 随着智能驾驶功能日益集成到量产车辆中,确保其功能性和鲁棒性带来了更大的挑战。与传统道路测试相比,基于场景的虚拟测试在时间成本效率、可复现性和边缘案例探索方面具有显著优势。我们提出了一种Transformer增强条件变分自编码器(CVAE-T)模型,用于生成环岛中的多智能体交通场景,这类场景的特点是车辆动态性高、布局复杂,但在当前研究中相对探索不足。结果表明,所提出的模型能够准确重构原始场景,并生成真实、多样化的合成场景。此外,采用了两个关键性能指标(KPIs)来评估生成场景中的交互行为。对潜在空间的分析揭示了部分解耦,其中几个潜在维度对诸如车辆进入时间、驶离时间以及速度曲线等场景属性表现出独特且可解释的影响。结果证明了该模型能够生成涉及多智能体交互的智能驾驶功能验证场景,并为其开发和迭代改进提供数据增强。 |
| 2025-10-28 | A Dual-Branch CNN for Robust Detection of AI-Generated Facial Forgeries | null | 生成式人工智能的快速发展使得高度逼真的伪造面部图像得以创建,对人工智能安全、数字媒体完整性和公众信任构成了重大威胁。面部伪造技术,从换脸和属性编辑到强大的基于扩散模型的图像合成,正越来越多地被用于错误信息、身份欺诈和诽谤等恶意目的。这一日益严峻的挑战强调了对鲁棒且通用的面部伪造检测方法的迫切需求,将其作为人工智能安全基础设施的关键组成部分。在这项工作中,我们提出了一种新颖的双分支卷积神经网络用于面部伪造检测,该网络利用来自空间域和频率域的互补线索。RGB分支捕获语义信息,而频率分支则侧重于生成模型难以抑制的高频伪影。引入了一个通道注意力模块以自适应地融合这些异构特征,突出最有信息量的通道用于伪造判别。为了指导网络的学习过程,我们设计了一个统一的损失函数FSC损失,它结合了焦点损失、有监督对比损失和频率中心边际损失,以增强类别可分离性和鲁棒性。我们在DiFF基准数据集上评估了我们的模型,该数据集包含由四种代表性方法生成的伪造图像:文本到图像、图像到图像、换脸和面部编辑。我们的方法在所有类别中都取得了优异的性能,并且超越了人类平均准确率。这些结果表明了模型的有效性及其在保护人工智能生态系统免受视觉伪造攻击方面的潜在贡献。 |
| 2025-10-28 | Semi-supervised and unsupervised learning for health indicator extraction from guided waves in aerospace composite structures | null | 健康指标(HIs)对于诊断和预测航空航天复合结构的状况至关重要,从而实现高效维护和运行安全。然而,由于材料特性变异性、随机损伤演化和多样化的损伤模式,提取可靠的HIs仍然具有挑战性。制造缺陷(例如脱粘)和在役事故(例如鸟击)进一步使这一过程复杂化。本研究提出了一个全面的数据驱动框架,该框架通过两种结合多域信号处理的学习方法来学习HIs。由于真实HIs不可用,因此提出了两种方法:(i) 一种多样性深度半监督异常检测(Diversity-DeepSAD)方法,该方法通过用作假设损伤代理的连续辅助标签进行增强,克服了先前二元标签仅区分健康和故障状态而忽略中间退化的局限性;以及 (ii) 一种退化趋势约束变分自编码器(DTC-VAE),其中通过显式趋势约束嵌入了单调性准则。具有多个激励频率的导波用于监测疲劳载荷下的单加筋复合结构。对时域、频域和时频域表示进行了探索,并通过无监督集成学习融合了每频率HIs,以减轻频率依赖性并降低方差。使用快速傅里叶变换特征,增强型Diversity-DeepSAD模型达到了81.6%的性能,而DTC-VAE提供了最一致的HIs,性能达到92.3%,优于现有基线。 |
| 2025-10-28 | Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way | null | 基于扩散的大语言模型(dLLM)在并行文本生成方面展现出巨大潜力,与自回归模型相比,这可能实现更高效的生成。然而,当前的dLLM存在固定生成长度的问题,这意味着dLLM的生成长度必须在解码前作为超参数确定,从而导致效率和灵活性方面的挑战。为了解决这些问题,在这项工作中,我们提出训练一种具有原生可变生成长度的扩散大语言模型,简称dLLM-Var。具体而言,我们旨在训练一个模型来准确预测生成文本中的[EOS]标记,这使得dLLM能够以块扩散方式原生推理,同时仍能保持全局双向(完全)注意力和高并行性的能力。在标准基准上的实验表明,我们的方法比传统的dLLM推理范式实现了30.1倍的加速,并且相对于Qwen和Llama等自回归模型实现了2.4倍的加速。我们的方法实现了更高的准确性和更快的推理速度,将dLLM从单纯的学术新颖性提升,并支持其在实际应用中的实用性。代码和模型已发布。 |
| 2025-10-28 | A Novel XAI-Enhanced Quantum Adversarial Networks for Velocity Dispersion Modeling in MaNGA Galaxies | null | 当前的量子机器学习方法在平衡预测准确性、鲁棒性和可解释性方面常面临挑战。为解决此问题,我们提出一种新颖的量子对抗框架,该框架将混合量子神经网络(QNN)与经典深度学习层相结合,由一个具有基于LIME可解释性的评估器模型引导,并通过量子GAN和自监督变体进行扩展。在所提出的模型中,一个对抗性评估器通过计算反馈损失同时引导QNN,从而优化预测准确性和模型可解释性。经验评估表明,Vanilla模型实现了RMSE = 0.27,MSE = 0.071,MAE = 0.21和R^2 = 0.59,与对抗性对应模型相比,在回归指标上提供了最一致的性能。这些结果证明了结合量子启发方法与经典架构开发轻量级、高性能和可解释的预测模型的潜力,从而将QML的适用性推向超越当前限制。 |
| 2025-10-28 | Leveraging Scale Separation and Stochastic Closure for Data-Driven Prediction of Chaotic Dynamics | null | 模拟湍流的计算量非常大,因为它需要解析精细尺度结构并捕获跨多个尺度的复杂非线性相互作用。对于应用于真实世界湍流问题的直接数值模拟尤其如此。因此,许多研究都集中于从数据驱动的角度分析湍流。然而,由于这些系统复杂且混沌,传统模型往往会随着时间积累误差而变得不稳定,即使在短期预测中也会导致显著退化。为了解决这些局限性,我们提出了一种纯随机方法,该方法分别对大尺度相干结构的演化和高保真统计数据的闭合进行建模。具体而言,代表相干运动的滤波数据的动力学是使用结合了变分自编码器和Transformer架构的自回归模型学习的。VAE投影是概率性的,确保了模型随机性与流体统计特性之间的一致性。与测试集相比,我们模型中随机采样轨迹的平均实现分别显示出6%和10%的相对误差。此外,我们的框架允许构建有意义的置信区间,以最小的区间宽度实现了80%的预测区间覆盖概率。为了从滤波隐空间中恢复高保真速度场,我们采用了高斯过程回归。该策略已在柯尔莫哥洛夫流上进行了测试,该流展现出与真实世界湍流相似的混沌行为。 |
| 2025-10-28 | Toward a Physical Interpretation of Phase Field Models with Dynamic Boundary Conditions | null | 在最近几十年中,大量研究致力于具有动态边界条件的偏微分方程(PDEs)。然而,所涉及参数的物理释义往往不明确,这反过来限制了理论分析和数值计算。例如,在具有动态边界条件的热力学一致模型中使用的Robin边界条件,曾被误解为代表化学反应,或在许多工作中被不合理地推广。在本文中,我们将体相和表面视为一个封闭系统,并开发热力学一致的相场模型,以阐明控制方程和边界条件中参数的物理含义,特别关注通过将其与纳米热力学联系起来,揭示体相和表面之间的物质和能量交换。首先,我们从封闭系统中的质量和体积守恒定律开始,阐明了Robin边界条件的物理释义,证明了相关参数与系统的特征长度尺度相关,并在物质和能量交换中起着关键作用。此外,我们的分析证明了体相中的相变量与表面上的相变量不同的物理必要性。其次,我们使用广义Onsager原理构建了四个更通用的模型,能够描述不可逆过程和不可逆-可逆耦合过程。第三,我们揭示了守恒定律和耗散定律同时决定了迁移率算子和自由能,它们是两个对偶变量。最后,我们进行结构保持的数值模拟,系统地研究了可逆过程和特征长度如何影响图案形成。 |
| 2025-10-28 | Unbiased likelihood estimation of the Langevin diffusion for animal movement modelling | null | 资源选择函数提供了一种描述栖息地适宜性的模型,可用于预测物种的空间利用分布。追踪数据可以建模为点过程,但时间不规则自相关的存在使其复杂化。解决此问题的一种提议模型是连续时间朗之万扩散。然而,随着观测间隔的增加,当前的估计技术会得到越来越有偏的参数估计。在本文中,我们通过在重要性采样方案中使用布朗桥来改进朗之万扩散模型的似然近似,从而解决了这个问题。我们通过一系列仿真研究表明,这种方法在许多场景中能有效消除偏差。此外,我们发现该模型在较低采样率、较长持续时间下的表现,实际上优于较高采样频率、较短持续时间下的表现。这项研究拓宽了朗之万扩散模型在较粗分辨率遥测数据上的适用性。 |
| 2025-10-23 | LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas | null | 尽管现有个性化生成模型具有令人印象深刻的视觉保真度,但它们缺乏对空间构图的交互式控制,并且在处理多个主体时扩展性差。为了解决这些局限性,我们提出了LayerComposer,一个用于个性化、多主体文本到图像生成的交互式框架。我们的方法引入了两项主要贡献:(1) 分层画布,这是一种新颖的表示方法,其中每个主体都被放置在独立的层上,从而实现无遮挡构图;(2) 锁定机制,它能够高保真地保留选定层,同时允许其余层灵活适应周围环境。类似于专业的图像编辑软件,所提出的分层画布允许用户通过直观的图层操作来放置、调整大小或锁定输入主体。我们通用的锁定机制不需要架构上的改变,而是依赖于固有的位置编码,并结合了一种新的互补数据采样策略。大量实验表明,与多主体个性化图像生成领域中最先进的方法相比,LayerComposer实现了卓越的空间控制和身份保持。 |
| 2025-10-23 | Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge | null | 生成式建模的最新进展已将扩散模型定位为从复杂数据分布中采样的最先进工具。尽管这些模型在图像和音频等单模态领域取得了显著成功,但将其能力扩展到模态转换(MT)——即在不同感官模态之间转换信息——仍然是一个开放性挑战。现有方法通常依赖于限制性假设,包括共享维度、高斯源先验和模态特定架构,这限制了它们的通用性和理论基础。在这项工作中,我们提出了潜在去噪扩散桥模型(LDDBM),这是一个基于去噪扩散桥模型的潜在变量扩展的通用模态转换框架。通过在共享潜在空间中操作,我们的方法学习了任意模态之间的桥梁,而无需对齐维度。我们引入了一种对比对齐损失来强制配对样本之间的语义一致性,并设计了一种领域无关的编码器-解码器架构,专为潜在空间中的噪声预测而设计。此外,我们提出了一种预测损失来指导训练实现准确的跨领域转换,并探索了多种训练策略以提高稳定性。我们的方法支持任意模态对,并在各种MT任务上表现出色,包括多视图到3D形状生成、图像超分辨率和多视图场景合成。全面的实验和消融研究验证了我们框架的有效性,为通用模态转换建立了新的强大基线。更多信息请参阅我们的项目页面:https://sites.google.com/view/lddbm/home。 |
| 2025-10-23 | Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers | null | 受自回归大型语言模型 (LLM) 的性能和可扩展性启发,基于 Transformer 的模型近期在视觉领域取得了成功。本研究探讨了 Transformer 模型在视频预测中的适配,采用简单的端到端方法,并比较了各种时空自注意力布局。鉴于因果建模在随时间变化的物理模拟中是现有视频生成方法的常见不足,我们侧重于此,并尝试通过物理对象跟踪指标和在物理模拟数据集上的无监督训练来分离时空推理。我们引入了一种简单而有效的纯 Transformer 模型用于自回归视频预测,该模型利用连续像素空间表示进行视频预测。我们的方法无需复杂的训练策略或潜在特征学习组件,与现有潜在空间方法相比,将物理精确预测的时间跨度显著延长了高达 50%,同时在常见视频质量指标上保持了可比的性能。此外,我们通过探测模型进行了可解释性实验,以识别编码了有助于准确估计偏微分方程 (PDE) 模拟参数的网络区域,并发现这可以推广到分布外模拟参数的估计。这项工作为通过一种简单、参数高效且可解释的方法,进一步基于注意力的视频时空建模提供了一个平台。 |
| 2025-10-23 | ARGenSeg: Image Segmentation with Autoregressive Image Generation Model | null | 我们提出了一种新颖的基于自回归生成范式的图像分割方法(ARGenSeg),在统一框架内实现了多模态理解和像素级感知。先前将图像分割集成到多模态大语言模型(MLLM)中的工作通常采用边界点表示或专用分割头。这些方法依赖于离散表示或输入到任务特定解码器的语义提示,这限制了MLLM捕获细粒度视觉细节的能力。为了解决这些挑战,我们引入了一种基于图像生成的面向MLLM的分割框架,该框架能自然地为目标对象生成密集掩码。我们利用MLLM输出视觉token,并使用通用VQ-VAE将它们反token化为图像,使分割完全依赖于MLLM的像素级理解。为了降低推理延迟,我们采用了一种下一尺度预测策略来并行生成所需的视觉token。大量实验表明,我们的方法在多个分割数据集上超越了先前的最先进方法,显著提升了推理速度,同时保持了强大的理解能力。 |
| 2025-10-23 | BadGraph: A Backdoor Attack Against Latent Diffusion Model for Text-Guided Graph Generation | null | 图生成的快速进展引发了新的安全担忧,尤其是在后门漏洞方面。尽管先前的工作已经探索了图像扩散和无条件图生成中的后门攻击,但条件式,特别是文本引导的图生成仍然很大程度上未经研究。本文提出了BadGraph,一种针对文本引导图生成的潜在扩散模型的后门攻击方法。BadGraph利用文本触发器来污染训练数据,隐蔽地植入后门,这些后门在推理时当触发器出现时会诱导攻击者指定的子图,同时在干净输入上保持正常性能。在四个基准数据集(PubChem、ChEBI-20、PCDes、MoMu)上进行的大量实验证明了该攻击的有效性和隐蔽性:不到10%的投毒率即可达到50%的攻击成功率,而24%的投毒率足以实现超过80%的成功率,且对良性样本的性能退化可忽略不计。消融研究进一步揭示,后门是在VAE和扩散训练期间植入的,而非预训练期间。这些发现揭示了文本引导图生成的潜在扩散模型中的安全漏洞,强调了在药物发现等模型应用中存在的严重风险,并强调了在此类扩散模型中需要针对后门攻击的鲁棒防御措施。 |
| 2025-10-23 | CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image | null | 本文提出一种名为Cupid的基于生成的新型三维重建方法,能够从单一二维图像中准确推断物体的相机姿态、三维形状和纹理。Cupid将三维重建视为从学习到的三维物体分布中进行条件采样,并联合生成体素和像素-体素对应关系,从而在统一的生成框架下实现鲁棒的姿态和形状估计。通过将输入相机姿态和三维形状都表示为共享三维潜在空间中的分布,Cupid采用两阶段流匹配流程:(1) 粗略阶段,生成初始三维几何形状及相关的二维投影以用于姿态恢复;(2) 精细化阶段,整合姿态对齐的图像特征以增强结构保真度和外观细节。大量实验表明,Cupid超越了领先的三维重建方法,实现了超过3 dB的PSNR增益和超过10%的倒角距离(Chamfer Distance)降低,同时在姿态精度上与单目估计器相匹配,并且相对于基线三维生成模型提供了卓越的视觉保真度。如需沉浸式查看Cupid生成的三维结果,请访问cupid3d.github.io。 |
| 2025-10-23 | AlphaFlow: Understanding and Improving MeanFlow Models | link | MeanFlow最近作为一个强大的少步生成建模框架从头开始训练而出现,但其成功尚未完全理解。在这项工作中,我们表明MeanFlow目标函数自然地分解为两部分:轨迹流匹配和轨迹一致性。通过梯度分析,我们发现这些项之间存在强负相关,导致优化冲突和收敛缓慢。受这些发现的启发,我们引入了 $\alpha$-Flow,这是一系列广泛的目标函数,它将轨迹流匹配、Shortcut Model和MeanFlow统一在一个公式下。通过采用一种从轨迹流匹配平滑退火到MeanFlow的课程学习策略,$\alpha$-Flow解耦了冲突的目标函数,并实现了更好的收敛性。当使用经典DiT骨干网络在类别条件ImageNet-1K 256x256数据集上从头开始训练时,$\alpha$-Flow在不同尺度和设置下持续优于MeanFlow。我们最大的$\alpha$ -Flow-XL/2+模型使用经典DiT骨干网络取得了新的最先进结果,FID分数分别为2.58 (1-NFE)和2.15 (2-NFE)。 |
| 2025-10-23 | DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion | link | 扩散Transformer模型能够生成具有卓越保真度和细节的图像,然而,由于自注意力机制的计算成本随图像tokens数量呈二次方增长,在超高分辨率下训练它们仍然极其昂贵。在本文中,我们引入了动态位置外推(DyPE),这是一种新颖的免训练方法,能够使预训练的扩散Transformer在远超其训练数据的分辨率下合成图像,且无需额外的采样成本。DyPE利用了扩散过程中固有的频谱演进,其中低频结构早期收敛,而高频信息需要更多步才能解析。具体来说,DyPE在每个扩散步骤动态调整模型的位置编码,使其频率频谱与生成过程的当前阶段相匹配。这种方法使我们能够生成分辨率远超训练分辨率的图像,例如,使用FLUX生成1600万像素的图像。在多个基准测试中,DyPE持续提升了性能,并在超高分辨率图像生成中实现了最先进的保真度,且在更高分辨率下增益更加显著。项目页面可在https://noamissachar.github.io/DyPE/获取。 |
| 2025-10-23 | AutoScape: Geometry-Consistent Long-Horizon Scene Generation | null | 本文提出AutoScape,一个长时序驾驶场景生成框架。其核心是一个新颖的RGB-D扩散模型,它迭代生成稀疏的、几何一致的关键帧,作为场景外观和几何的可靠锚点。为了保持长距离几何一致性,模型1) 在共享的潜在空间中联合处理图像和深度,2) 明确地以先前生成的关键帧的现有场景几何(即渲染点云)为条件,3) 并通过一个形变一致性引导来引导采样过程。鉴于高质量的RGB-D关键帧,一个视频扩散模型随后在它们之间进行插值,以生成密集且连贯的视频帧。AutoScape生成了超过20秒的真实且几何一致的驾驶视频,使长时序FID和FVD分数分别比现有最先进技术提高了48.6%和43.0%。 |
| 2025-10-23 | Separating the what and how of compositional computation to enable reuse and continual learning | null | 持续学习、保留并运用技能以实现目标的能力是智能和高效行为的关键特征。然而,促进技能持续学习和灵活(重)组合的神经机制仍然难以捉摸。在本文中,我们采用一种新颖的双系统方法研究循环神经网络(RNN)模型中的持续学习和已学习计算的组合式重用:一个系统推断要执行的计算(“是什么”),另一个系统实现如何执行计算(“怎么做”)。我们专注于神经科学中常被研究的一组组合式认知任务。为了构建“是什么”系统,我们首先展示了大量任务可以通过概率生成模型系统地描述,其中组合性源于离散任务阶段的共享底层词汇表。共享的阶段结构使得这些任务本质上是组合式的。我们首先展示了这种组合性可以通过概率生成模型系统地描述。此外,我们开发了一种无监督在线学习方法,该方法可以在单次试验的基础上学习此模型,在接触新任务时逐步构建其词汇表,并在一次试验中将潜在阶段结构推断为时变计算上下文。我们将“怎么做”系统实现为一个RNN,其低秩分量根据“是什么”系统推断出的上下文进行组合。上下文推断促进了低秩RNN分量的创建、学习和重用,因为新任务是按顺序引入的,从而实现了持续学习而不会发生灾难性遗忘。使用一个示例任务集,我们展示了这种双系统学习框架的有效性和竞争性性能,其正向和反向迁移的潜力,以及对未见任务的快速组合泛化能力。 |
| 2025-10-21 | DP $^2$O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution | null | 得益于预训练文本到图像 (T2I) 扩散模型,真实世界图像超分辨率 (Real-ISR) 方法能够合成丰富逼真的细节。然而,由于T2I模型固有的随机性,不同的噪声输入经常导致输出的感知质量各不相同。尽管这种随机性有时被视为一种局限,但它也引入了更宽泛的感知质量范围,可以被利用来提升Real-ISR性能。为此,我们引入了用于真实世界图像超分辨率的直接感知偏好优化 (DP$^2$O-SR),这是一个无需昂贵的人工标注即可将生成模型与感知偏好对齐的框架。我们通过结合在大型人类偏好数据集上训练的全参考和无参考图像质量评估 (IQA) 模型,构建了一个混合奖励信号。这种奖励鼓励结构保真度和自然外观。为了更好地利用感知多样性,我们超越了标准的“最佳对最差”选择,并从同一模型的输出中构建了多个偏好对。我们的分析表明,最佳选择比例取决于模型容量:较小模型受益于更广泛的覆盖,而较大模型对监督中更强的对比度反应更佳。此外,我们提出了分层偏好优化,它根据组内奖励差距和组间多样性自适应地加权训练对,从而实现更高效和稳定的学习。在基于扩散和基于流的T2I骨干网络上的广泛实验证明,DP$^2$ O-SR显著提升了感知质量,并能很好地泛化到真实世界基准测试中。 |
| 2025-10-21 | Protein generation with embedding learning for motif diversification | null | 蛋白质设计的一个根本挑战在于在生成结构多样性与保留基序生物学功能之间取得平衡。当前最先进的方法,例如RFdiffusion中的部分扩散,往往无法解决这种权衡:小扰动产生的基序与天然结构几乎相同,而大扰动则会违反生物学功能所需的几何约束。我们引入了基于嵌入学习的蛋白质生成(PGEL),这是一个通用框架,它在扩散模型冻结去噪器的表示空间中学习编码目标基序序列和结构特征的高维嵌入,然后通过在嵌入空间中引入受控扰动来增强基序多样性。因此,PGEL能够在满足典型设计指标的同时放松几何约束,从而产生更多样化但可行的结构。我们在三个代表性案例中展示了PGEL:一个单体、一个蛋白质-蛋白质界面和一个癌症相关的转录因子复合物。与部分扩散相比,在所有案例中,PGEL都实现了更大的结构多样性、更好的可设计性和改进的自洽性。我们的结果确立了PGEL作为一种通用的嵌入驱动蛋白质生成策略,能够实现功能基序的系统性、可行多样化。 |
| 2025-10-21 | A Frequentist Statistical Introduction to Variational Inference, Autoencoders, and Diffusion Models | null | 尽管变分推断(VI)是变分自编码器(VAEs)和去噪扩散模型(DDMs)等现代生成模型的核心,但其教学方法在不同学科中存在分歧。在统计学中,VI通常被视为一种用于后验近似的贝叶斯方法。然而,在机器学习中,VAEs和DDMs是从频率学派观点发展而来的,其中VI用于近似最大似然估计器。这为统计学家造成了障碍,因为如果没有相应的频率学派对VI的介绍,VAEs和DDMs背后的原理就难以理解其背景。本文提供了这种介绍:我们从经典的期望最大化(EM)算法开始,纯粹从频率学派观点解释了VI、VAEs和DDMs的理论。我们展示了VI如何作为不可行E步的可扩展解决方案而出现,以及VAEs和DDMs如何成为该框架的自然、基于深度学习的扩展,从而弥合了经典统计推断与现代生成式人工智能之间的鸿沟。 |
| 2025-10-21 | UltraGen: High-Resolution Video Generation with Hierarchical Attention | null | 视频生成领域的最新进展使得生成具有视觉吸引力的视频成为可能,在内容创作、娱乐和虚拟现实等领域具有广泛应用。然而,大多数现有的基于扩散Transformer的视频生成模型由于注意力机制随着输出宽度和高度呈二次方的计算复杂度,仅限于低分辨率输出(<=720P)。这种计算瓶颈使得原生高分辨率视频生成(1080P/2K/4K)在训练和推理时均不切实际。为了解决这一挑战,我们提出了UltraGen,一个新颖的视频生成框架,实现了i)高效和ii)端到端的原生高分辨率视频合成。具体而言,UltraGen采用一种基于全局-局部注意力分解的分层双分支注意力架构,将完整注意力解耦为用于高保真区域内容的局部注意力分支和用于整体语义一致性的全局注意力分支。我们进一步提出一种空间压缩的全局建模策略以高效学习全局依赖,以及一种分层跨窗口局部注意力机制以降低计算成本同时增强不同局部窗口之间的信息流。大量实验表明,UltraGen能够首次有效地将预训练的低分辨率视频模型扩展到1080P甚至4K分辨率,在定性和定量评估中均优于现有的最先进方法以及基于超分辨率的两阶段流水线。 |
| 2025-10-21 | Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference | null | 因果推断对于开发和评估医疗干预措施至关重要,然而真实世界的医疗数据集由于监管障碍通常难以访问。这使得合成数据成为一个潜在的有价值的资产,能够支持这些医学分析以及新推断方法本身的开发。生成模型可以生成与真实数据分布高度近似的合成数据,然而现有方法没有考虑到下游因果推断任务,特别是那些关注治疗的任务所带来的独特挑战。我们建立了一组理想特性,包含治疗的合成数据应满足这些特性以最大化下游效用:保留 (i) 协变量分布,(ii) 治疗分配机制,和 (iii) 结果生成机制。基于这些理想特性,我们提出了一组评估指标用于评估此类合成数据。最后,我们提出了STEAM:一种新颖的医学治疗效果分析合成数据生成方法,该方法模仿了包含治疗数据的数据生成过程并针对我们的理想特性进行优化。我们通过实验证明,与现有生成模型相比,STEAM在我们的各项指标上实现了最先进的性能,特别是在真实数据生成过程的复杂性增加时。 |
| 2025-10-21 | Diffusion Buffer for Online Generative Speech Enhancement | null | 在线语音增强主要用于预测模型。这些模型的一个关键优势是,对于来自数据流的输入信号帧,模型只需调用一次即可进行增强。相比之下,生成式语音增强模型通常需要多次调用,导致计算复杂度过高,不适用于许多在线语音增强应用。本文提出了扩散缓冲区(Diffusion Buffer),这是一种基于生成扩散的语音增强模型,它对来自数据流的每个输入信号帧只需一次神经网络调用,并在消费级GPU上以在线方式执行增强。扩散缓冲区的核心思想是将物理时间与扩散时间步对齐。该方法通过物理时间逐步去噪帧,其中过去的帧被去除的噪声更多。因此,增强帧以由扩散缓冲区定义的延迟输出给听者,并且输出帧具有相应的超前量。在这项工作中,我们在之前工作的基础上,精心设计了一种2D卷积UNet架构,该架构特别与扩散缓冲区的超前量对齐。我们观察到,所提出的UNet提高了性能,尤其是在算法延迟较低时。此外,我们表明使用数据预测损失而不是去噪得分匹配损失,能够在推理期间灵活控制算法延迟和质量之间的权衡。配备了新颖神经网络和损失函数的扩展扩散缓冲区,将算法延迟从320 - 960毫秒大幅降低到32 - 176毫秒,同时性能甚至有所提升。尽管此前已经表明离线生成扩散模型在未见过的噪声语音数据上优于预测方法,但我们证实在线扩散缓冲区在未见过的噪声语音数据上也优于其预测对应模型。 |
| 2025-10-21 | SSD: Spatial-Semantic Head Decoupling for Efficient Autoregressive Image Generation | null | 例如Janus-Pro等自回归图像生成模型能生成高质量图像,但由于视觉token数量庞大,其代价是高内存占用和不断增长的计算需求。尽管KV缓存压缩在语言建模中已被广泛研究,但对于图像生成领域,它在很大程度上仍未被探索。在这项工作中,我们首先识别出一种独特而显著的注意力现象,我们将其命名为空间局部性和涌现语义汇聚。为了利用这一关键发现,我们提出了一种新颖的KV缓存压缩框架。具体来说,我们通过自适应地将注意力头解耦成两种类型来压缩所有视觉token的KV缓存:对于空间局部性头,我们的方法维护一个短期的最近token窗口;对于语义汇聚头,它策略性地保留一组紧凑的高关注度token。我们的大量实验表明,所提出的方法在仅带来极小视觉质量损失的情况下,实现了内存使用量减少5倍和整体吞吐量显著提升6.6倍,从而在资源受限的硬件上实现了高效的原生自回归图像生成。 |
| 2025-10-21 | MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation | null | 使用扩散Transformer (DiT) 进行长视频生成,其瓶颈在于全注意力机制随序列长度呈二次方扩展。由于注意力高度冗余,输出主要由一小部分查询-键对决定。现有稀疏方法依赖于块级粗略估计,其准确性-效率权衡受限于块大小。本文引入了组混合注意力 (MoGA),这是一种高效的稀疏注意力机制,它使用轻量级、可学习的token路由器来精确匹配token,而无需进行块级估计。通过语义感知路由,MoGA实现了有效的长程交互。作为一种无核方法,MoGA与包括FlashAttention和序列并行在内的现代注意力堆栈无缝集成。基于MoGA,我们开发了一个高效的长视频生成模型,能够端到端地生成分钟级、多镜头、480p分辨率、24帧/秒的视频,其上下文长度约为58万。在各种视频生成任务上的全面实验验证了我们方法的有效性。 |
| 2025-10-21 | Hydrogen redistribution in Zr-base cladding under gradients in temperature and stress | null | 这里使用计算模型来模拟轻水反应堆运行期间锆基核燃料包壳吸收的氢的扩散控制再分布。氢的轴向局部化导致氢化锆在靠近芯块间隙的低温区域局部析出,这一现象通过定制模型进行研究;而径向扩散导致在水侧氧化层下方形成富氢环,这一现象通过更通用模型进行研究。将计算结果与实验观测结果以及文献中报道的类似计算研究进行了比较。结果强调了氢再分布对于包壳管局部脆化的重要性。 |
| 2025-10-21 | ε-Seg: Sparsely Supervised Semantic Segmentation of Microscopy Data | null | 生物样本电子显微镜(EM)图像的语义分割在生命科学领域仍然是一个挑战。EM数据捕捉生物结构的细节,有时其复杂性甚至令人类观察者也感到难以应对。我们介绍了一种名为{\epsilon}-Seg的方法,它基于分层变分自编码器(HVAE),并采用了中心区域掩蔽、稀疏标签对比学习(CL)、高斯混合模型(GMM)先验以及免聚类标签预测。中心区域掩蔽和图像修复损失促使模型学习鲁棒且具有代表性的嵌入,以便区分所需类别,即使训练标签稀疏(占总图像数据的0.05%或更少)。为了获得最佳性能,我们采用CL和GMM先验来塑造HVAE的潜在空间,使得编码的输入图像块倾向于根据我们希望区分的语义类别进行聚类。最后,我们没有对潜在嵌入进行聚类以进行语义分割,而是提出了一个多层感知器(MLP)语义分割头,直接从潜在嵌入中预测类别标签。我们展示了{\epsilon}-Seg和基线方法在两个密集的生物组织EM数据集上的实证结果,并证明了我们的方法也适用于荧光显微镜数据。我们的结果表明,即使只有有限的训练标签可用,{\epsilon}-Seg也能够在复杂的生物图像数据上实现具有竞争力的稀疏监督分割结果。 |
| 2025-10-16 | Learning an Image Editing Model without Image Editing Pairs | link | 近期图像编辑模型在遵循自然语言编辑指令方面取得了令人印象深刻的成果,但它们依赖于使用大量输入-目标对数据集进行有监督微调。这是一个关键瓶颈,因为此类自然生成的对难以大规模收集。当前的权宜之计是使用利用现有模型零样本能力的合成训练对。然而,这可能会将预训练模型的伪影传播并放大到最终训练模型中。在这项工作中,我们提出了一种新的训练范式,完全消除了对成对数据的需求。我们的方法通过在训练过程中展开一个少步扩散模型并利用视觉-语言模型(VLMs)的反馈来直接优化它。对于每个输入和编辑指令,VLM评估编辑是否遵循指令并保留了未更改的内容,从而为端到端优化提供了直接梯度。为确保视觉保真度,我们引入了分布匹配损失(DMD),它限制了生成的图像保持在预训练模型学习到的图像流形内。我们在标准基准上评估了我们的方法,并进行了一项广泛的消融研究。在没有任何成对数据的情况下,我们的方法在少步设置下,表现与在大量有监督成对数据上训练的各种图像编辑扩散模型相当。在使用相同的VLM作为奖励模型的情况下,我们也优于基于强化学习(RL)的技术,例如Flow-GRPO。 |
| 2025-10-16 | Terra: Explorable Native 3D World Model with Point Latents | null | 世界模型因其对真实世界的全面建模能力而受到越来越多的关注。然而,大多数现有方法仍然依赖像素对齐表示作为世界演化的基础,忽略了物理世界固有的三维特性。这可能会损害世界模型的三维一致性并降低其建模效率。在本文中,我们提出了Terra,一个原生的三维世界模型,它在一个内在的三维潜在空间中表示和生成可探索的环境。具体来说,我们提出了一种新颖的点到高斯变分自编码器(P2G-VAE),它将三维输入编码为潜在点表示,然后将其解码为三维高斯基元,以联合建模几何和外观。随后我们引入了一个稀疏点流匹配网络(SPFlow),用于生成潜在点表示,该网络同时对点潜在空间的位置和特征进行去噪。我们的Terra凭借原生的三维表示和架构实现了精确的多视角一致性,并仅通过一次生成过程即可支持从任意视点进行灵活渲染。此外,Terra通过在点潜在空间中的渐进式生成实现了可探索的世界建模。我们在来自ScanNet v2的具有挑战性的室内场景上进行了广泛的实验。Terra在重建和生成方面均取得了最先进的性能,并具有高三维一致性。 |
| 2025-10-16 | Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation | link | 近距离人与人交互姿态传达关于交互动态的丰富上下文信息。基于这些姿态,人类可以直观地推断上下文并预测可能的过去和未来动态,这借鉴了人类行为的强大先验知识。受此观察启发,我们提出了Ponimator,一个锚定于近距离交互姿态的简单框架,用于多功能交互动画。我们的训练数据由来自运动捕捉交互数据集的紧密接触两人姿态及其周围时间上下文组成。利用交互姿态先验,Ponimator采用了两个条件扩散模型:(1) 一个利用时间先验从交互姿态生成动态运动序列的姿态动画生成器,以及 (2) 一个在交互姿态不可用时应用空间先验从单一姿态、文本或两者兼有合成交互姿态的姿态生成器。总之,Ponimator支持多种任务,包括基于图像的交互动画、反应动画和文本到交互合成,促进了交互知识从高质量运动捕捉数据到开放世界场景的转移。在不同数据集和应用上的实证实验证明了姿态先验的普适性以及我们框架的有效性和鲁棒性。 |
| 2025-10-16 | pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation | link | 少步扩散或流基生成模型通常将预测速度的教师模型蒸馏成预测通向去噪数据捷径的学生模型。这种格式不匹配导致了复杂的蒸馏过程,常常面临质量-多样性权衡。为解决此问题,我们提出了基于策略的流模型( $\pi$-Flow)。$\pi$-Flow修改学生流模型的输出层,使其在一个时间步预测一个无网络的策略。该策略随后在未来的子步中以几乎可忽略的开销产生动态流速度,从而实现这些子步上快速准确的ODE积分,无需额外的网络评估。为了使策略的ODE轨迹与教师模型的轨迹匹配,我们引入了一种新颖的模仿蒸馏方法,该方法通过使用标准的$\ell_2$流匹配损失,沿策略轨迹将策略的速度与教师模型的速度进行匹配。通过简单模仿教师模型的行为,$\pi$-Flow实现了稳定和可扩展的训练,并避免了质量-多样性权衡。在ImageNet 256$^2$上,它在1个NFE下取得了2.85的FID,优于采用相同DiT架构的MeanFlow。在4个NFE下,对FLUX.1-12B和Qwen-Image-20B,$\pi$ -Flow实现了显著更好的多样性,优于最先进的少步方法,同时保持了教师模型级别的质量。 |
| 2025-10-16 | RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion | null | 降水临近预报(即根据当前观测预测未来雷达回波序列)是一项关键但极具挑战性的任务,原因在于大气本身固有的混沌性以及时空动态的紧密耦合。尽管基于扩散模型的最新进展试图捕获大尺度运动和细粒度随机变异性,但它们常常面临可扩展性问题:潜在空间方法需要单独训练的自编码器,这增加了复杂性并限制了泛化能力;而像素空间方法计算密集,且通常忽略注意力机制,降低了其建模长程时空依赖的能力。为了解决这些局限性,我们提出了一种逐令牌注意力机制,并将其不仅集成到U-Net扩散模型中,还集成到时空编码器中,以动态捕获多尺度空间交互和时间演变。与现有方法不同,我们的方法将注意力原生集成到架构中,而无需承担像素空间扩散模型常见的高昂资源成本,从而消除了对单独潜在模块的需求。我们在各种数据集上进行的广泛实验和视觉评估表明,所提出的方法显著优于最先进的方法,在复杂降水预报场景中展现出卓越的局部保真度、泛化能力和鲁棒性。 |
| 2025-10-16 | RealDPO: Real or Not Real, that is the Preference | null | 视频生成模型近期在合成质量方面取得了显著进展。然而,生成复杂动作仍然是一个关键挑战,因为现有模型常常难以生成自然、平滑且上下文一致的运动。生成运动与真实世界运动之间的这种差距限制了它们的实际应用性。为了解决这个问题,我们引入了RealDPO,这是一种新颖的对齐范式,它利用真实世界数据作为偏好学习的正样本,从而实现更准确的运动合成。与提供有限纠正反馈的传统监督微调(SFT)不同,RealDPO采用直接偏好优化(DPO)结合定制的损失函数来增强运动的真实感。通过将真实世界视频与错误的模型输出进行对比,RealDPO实现了迭代自我校正,逐步提升运动质量。为了支持复杂运动合成的后训练,我们提出了RealAction-5K,这是一个精选的高质量视频数据集,捕捉了具有丰富而精确运动细节的人类日常活动。大量实验表明,与现有最先进模型和现有偏好优化技术相比,RealDPO显著提高了视频质量、文本对齐和运动真实感。 |
| 2025-10-16 | OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression | null | 全身多模态人体运动生成面临两个主要挑战:创建有效的运动生成机制以及将文本、语音和音乐等各种模态整合到一个统一的框架中。与以往通常采用离散掩码建模或自回归建模的方法不同,我们开发了一种连续掩码自回归运动Transformer,其中考虑到人体运动的序列特性,执行因果注意力。在这个Transformer中,我们引入了门控线性注意力和RMSNorm模块,它们促使Transformer关注关键动作,并抑制由异常运动或多模态中异构分布引起的不稳定性。为了进一步增强运动生成和多模态泛化能力,我们采用DiT结构来扩散从Transformer到目标的条件。为了融合不同模态,AdaLN和交叉注意力被利用来注入文本、语音和音乐信号。实验结果表明,我们的框架在所有模态上都优于以往方法,包括文本到运动、语音到手势和音乐到舞蹈。我们的方法代码将公开。 |
| 2025-10-16 | DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation | null | 像英语这样的接触语言表现出丰富的地域差异,以方言的形式存在,这些方言经常被方言使用者在与生成模型交互时使用。然而,多模态生成模型在给定方言文本输入的情况下能否有效地生成内容?在这项工作中,我们通过构建一个涵盖六种常见英语方言的新大规模基准来研究这个问题。我们与方言使用者合作,收集并验证了超过4200个独特的提示,并在17个图像和视频生成模型上进行了评估。我们的自动化和人工评估结果表明,当前最先进的多模态生成模型在提示中仅使用一个方言词时,会表现出32.26%至48.17%的性能下降。常见的缓解方法,如微调和提示重写,只能将方言性能提高很小的幅度(< 7%),同时可能导致标准美式英语(SAE)性能的显著下降。为此,我们设计了一种用于多模态生成模型的通用基于编码器的缓解策略。我们的方法旨在教会模型识别新的方言特征,同时保持SAE性能。在Stable Diffusion 1.5等模型上的实验表明,我们的方法能够同时将五种方言的性能提升至与SAE相当的水平(+34.4%),同时对SAE性能的损失几乎为零。 |
| 2025-10-16 | Decoding in the presence of ISI without interleaving ORBGRAND AI | null | 码间串扰 (ISI) 发生在各种信道中,是时间色散的结果。它可以通过均衡来减轻,但这会导致噪声着色。对于这种着色噪声,我们提出了一种名为有序可靠性比特猜测随机加性噪声解码 (ORBGRAND-AI) 的解码器,其灵感来源于统计物理学中近似独立性的发展。通过放弃交织,ORBGRAND-AI在ISI信道中,对于相同每信息比特能量,可以实现与使用交织器的最先进软输入解码器(例如循环冗余校验辅助逐次抵消列表 (CA-SCL) 解码)相同或更低的码块错误率 (BLER)。为了评估ORBGRAND-AI的解码性能,我们考虑了延迟抽头模型及其相关的着色噪声。具体而言,我们研究了一个两抽头双码ISI信道,以及一个源自物理信息建模与仿真工具RFView数据的ISI信道。我们在各种不完善信道状态信息假设下研究了双码和RFView信道,并表明二阶自回归模型足以描述RFView信道效应。 |
| 2025-10-16 | Sound Masking Strategies for Interference with Mosquito Hearing | null | 听觉掩蔽的使用在心理声学和工程应用中一直备受关注,旨在掩盖对人类或与我们栖息地重叠的物种造成干扰的声音。在大多数情况下,我们力求最大程度地减少对野生动物交流的干扰。然而,对于携带病原体的昆虫,我们可能希望最大化这些干扰,以此作为控制其种群的一种方式。在当前工作中,我们探索了主动听觉系统通用模型和蚊子听觉系统模型中的候选掩蔽策略。对于这两种模型,我们发现将所有声功率集中在一个或几个频率上的掩蔽表现最佳。我们提出,基于快速频率调制的掩蔽对于最大程度地破坏信息传输和最小化可懂度最为有效。我们希望这些结果将有助于指导声学信号的避免或选择,分别用于最大化或最小化交流。 |
| 2025-10-14 | UniFusion: Vision-Language Model as Unified Encoder in Image Generation | null | 尽管视觉生成领域的最新进展显著,但大多数现有架构仍依赖于图像和文本的独立编码器。这种分离限制了扩散模型执行跨模态推理和知识迁移的能力。之前弥合这一差距的尝试通常使用VLM的最后一层信息、采用多个视觉编码器,或者联合训练大型统一模型用于文本和图像生成,这需要大量的计算资源和大规模数据,从而限制了其可及性。我们提出了UniFusion,一个基于扩散的生成模型,它以一个冻结的大型视觉-语言模型(VLM)为条件,该VLM作为一个统一的多模态编码器。UniFusion的核心是层级注意力池化(LAP)机制,该机制从冻结VLM的文本和视觉token中提取高级语义和低级细节,以此来条件化扩散生成模型。我们证明了LAP在生成任务的文本-图像对齐方面以及将VLM的视觉信息忠实地迁移到扩散模型方面优于其他浅层融合架构,这对于编辑至关重要。我们提出了VLM使能的灵活推理重写注入(VERIFI),它仅以VLM在模型内提示重写过程中生成的文本token为条件来条件化扩散Transformer(DiT)。VERIFI结合了条件分布的对齐性与VLM的推理能力,以提高推理时的能力和灵活性。此外,在编辑任务上进行微调不仅改善了生成任务的文本-图像对齐,表明了跨模态知识迁移,而且展现出巨大的泛化能力。我们的模型在单图像编辑上训练后,能够零样本泛化到多个图像参考,进一步证明了UniFusion统一编码器设计的合理性。 |
| 2025-10-14 | MVP4D: Multi-View Portrait Video Diffusion for Animatable 4D Avatars | link | 数字人形象旨在模拟人类在虚拟环境中的动态外观,从而在游戏、电影、虚拟现实等领域实现沉浸式体验。然而,创建和动画化照片级真实感数字人形象的传统流程昂贵且耗时,需要大型摄像机捕捉设备和专业3D艺术家的 G大量手动工作。随着强大的图像和视频生成模型的出现,近期方法能够从目标对象的单张随意拍摄的参考图像自动渲染出真实感的动画形象。尽管这些技术显著降低了形象创建的门槛并提供了引人注目的真实感,但它们缺乏多视角信息或显式3D表示所提供的约束。因此,当从严重偏离参考图像的视角渲染时,图像质量和真实感会下降。在本文中,我们构建了一个视频模型,该模型基于单张参考图像和目标表情,生成数字人可动画化的多视角视频。我们的模型MVP4D基于最先进的预训练视频扩散模型,能同时从围绕目标对象360度变化的视角生成数百帧。我们展示了如何将该模型的输出提炼成一个可实时渲染的4D形象。与以往方法相比,我们的方法显著提高了生成形象的真实感、时间一致性和3D一致性。 |
| 2025-10-14 | FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution | link | 扩散模型最近在视频修复方面取得了进展,但由于高延迟、巨大的计算开销以及对超高分辨率的泛化能力差,将其应用于实际视频超分辨率 (VSR) 仍然充满挑战。本工作的目标是通过实现效率、可扩展性和实时性能,使基于扩散模型的 VSR 变得实用。为此,我们提出了 FlashVSR,首个基于扩散模型的一步式流媒体框架,旨在实现实时 VSR。FlashVSR 在单张 A100 GPU 上对 768x1408 视频的运行速度约为 17 FPS,这得益于它结合了三项互补的创新:(i) 一个易于训练的三阶段蒸馏管道,实现了流式超分辨率;(ii) 局部受限的稀疏注意力,减少了冗余计算,同时弥合了训练-测试分辨率鸿沟;(iii) 一个微小的条件解码器,加速了重建而不牺牲质量。为支持大规模训练,我们还构建了 VSR-120K,一个包含 120k 视频和 180k 图像的新数据集。大量实验表明,FlashVSR 可可靠地扩展到超高分辨率,并取得了最先进的性能,相比于之前的一步式扩散 VSR 模型,速度提升高达 12 倍。我们将发布代码、预训练模型和数据集,以促进未来在高效基于扩散模型的 VSR 方面的研究。 |
| 2025-10-14 | T(R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping | link | 灵巧抓取因其高维状态与动作空间的复杂性,在机器人学中仍然是一个核心挑战。我们提出了T(R,O) Grasp,一个基于扩散的框架,它能够高效地在多种机器人手上生成精确且多样的抓取。其核心是T(R,O) 图,这是一种统一表示,它对机器人手和物体之间的空间变换进行建模,同时编码它们的几何属性。一个图扩散模型,结合高效的逆运动学求解器,支持无条件和有条件的抓取合成。对多种灵巧手进行的大量实验表明,T(R,O) Grasp在NVIDIA A100 40GB GPU上实现了94.83%的平均成功率、0.21秒的推理速度和每秒41次抓取的吞吐量,显著优于现有基线。此外,我们的方法具有鲁棒性,并可在不同实现之间泛化,同时显著降低了内存消耗。更重要的是,高推理速度实现了闭环灵巧操作,凸显了T(R,O) Grasp发展成为灵巧抓取基础模型的潜力。 |
| 2025-10-14 | DiffEM: Learning from Corrupted Data with Diffusion Models via Expectation Maximization | null | 扩散模型已成为解决高维逆问题的强大生成先验,然而,当仅有受损或带噪声的观测可用时,学习这些模型仍然具有挑战性。在这项工作中,我们提出了一种使用期望最大化(EM)从受损数据中训练扩散模型的新方法。我们提出的方法DiffEM在E步中利用条件扩散模型从观测中重建干净数据,然后在M步中使用重建的数据来改进条件扩散模型。理论上,我们假设有适当的统计条件,为DiffEM迭代提供了单调收敛保证。我们通过在各种图像重建任务上的实验证明了我们方法的有效性。 |
| 2025-10-14 | Moment-based Posterior Sampling for Multi-reference Alignment | null | 我们提出了一种贝叶斯方法来解决多参考对齐问题,即从噪声干扰的随机偏移观测中恢复信号。尽管现有频率学方法能够在任意低信噪比下准确恢复信号,但它们需要大量样本。相比之下,我们提出的方法利用扩散模型作为数据驱动的即插即用先验,将这些先验条件化于样本功率谱(一种移不变统计量),从而实现准确的后验采样和不确定性量化。适当先验的使用显著减少了所需的样本数量,这在模拟实验中得到了证明,并与期望最大化和双谱反演等最先进方法进行了比较。这些发现确立了我们的方法作为解决其他轨道恢复问题(例如冷冻电子显微镜 (cryo-EM))的一个有前景的框架。 |
| 2025-10-14 | Contraction and entropy production in continuous-time Sinkhorn dynamics | null | 最近,在有限正则化参数 $\varepsilon$下,Sinkhorn算法的步长趋零极限被证明是概率测度空间中的一种镜像下降。我们给出了在由镜像Hessian诱导的两个时变度量下的$L^2$收缩准则,这等价于某些条件期望算子的强制性。接着我们给出了Sinkhorn流的熵产生率的一个精确恒等式,该熵产生率此前仅已知为非正。检查该速率表明,扩散过程的标准半群分析系统地扩展到Sinkhorn流。我们表明该流在目标边缘分布上诱导了可逆马尔可夫动力学,作为Onsager梯度流。我们定义了与其(非局部)无穷小生成元相关的Dirichlet形式,为其证明了一个Poincaré不等式,并表明在Sinkhorn流中,只要$\varepsilon > 0$ ,谱隙就严格为正。最后,我们表明熵衰减呈指数级当且仅当对数Sobolev不等式(LSI)成立。我们举例说明了Sinkhorn LSI的两个直接实际用例:作为生成模型训练的潜在空间的设计原则,以及作为离散时间算法的停止启发式。 |
| 2025-10-14 | Adapting Noise to Data: Generative Flows from 1D Processes | link | 我们引入了一个利用一维噪声过程构建生成模型的通用框架。除了扩散过程之外,我们还概述了证明我们方法灵活性的示例。受此启发,我们提出了一个新颖的框架,其中一维过程本身是可学习的,这通过使用适应数据的分位数函数来参数化噪声分布实现。我们的构建与包括流匹配和一致性模型在内的标准目标函数无缝集成。学习基于分位数的噪声在存在时能够自然地捕获厚尾和紧支撑。数值实验凸显了我们方法的灵活性和有效性。 |
| 2025-10-14 | Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training | null | 像素空间生成模型通常更难训练,并且与它们的潜在空间对应模型相比,性能普遍较差,留下了一个持续存在的性能和效率差距。在本文中,我们引入了一种新颖的两阶段训练框架,弥补了像素空间扩散模型和一致性模型的这一差距。在第一阶段,我们预训练编码器以从干净图像中捕获有意义的语义,同时将它们与沿着相同确定性采样轨迹的点对齐,该轨迹将点从先验分布演化到数据分布。在第二阶段,我们将编码器与随机初始化的解码器集成,并对扩散模型和一致性模型进行端到端的完整模型微调。我们的训练框架在ImageNet数据集上表现出强大的实验性能。具体而言,我们的扩散模型在ImageNet-256上实现了2.04的FID,在ImageNet-512上实现了2.35,仅需75次函数评估(NFE),在生成质量和效率上都大幅超越了之前的像素空间方法,同时在可比的训练成本下可与领先的基于VAE的模型相媲美。此外,在ImageNet-256上,我们的一致性模型在单次采样步骤中实现了8.82的惊人FID,显著超越了其潜在空间对应模型。据我们所知,这标志着首次成功地直接在高分辨率图像上训练一致性模型,而无需依赖预训练的VAE或扩散模型。 |
| 2025-10-14 | LayerSync: Self-aligning Intermediate Layers | null | 我们提出LayerSync,这是一种领域无关的方法,用于提升扩散模型的生成质量和训练效率。先前研究强调了生成质量与扩散模型学习到的表示之间的联系,表明对模型中间表示施加外部引导可以加速训练。我们通过使用扩散模型自身的中间表示进行正则化来重新构思这种范式。基于观察到表示质量在扩散模型层之间存在差异,我们表明语义最丰富的表示可以作为对较弱表示的内在引导,从而减少了对外部监督的需求。我们的方法LayerSync是一种自给自足的即插即用正则化项,对扩散模型训练没有额外开销,并且可以从视觉领域推广到其他模态。LayerSync不需要预训练模型,也不需要额外数据。我们广泛评估了该方法在图像生成任务上的表现,并展示了其对音频、视频和运动生成等其他领域的适用性。我们表明它持续提升了生成质量和训练效率。例如,在ImageNet数据集上,我们将基于流的Transformer的训练速度提高了8.75倍以上,并将生成质量提升了23.6%。代码可在https://github.com/vita-epfl/LayerSync获取。 |
| 2025-10-10 | BaNEL: Exploration Posteriors for Generative Modeling Using Only Negative Rewards | null | 当今的生成模型在大量有监督数据和表征生成质量的信息丰富奖励函数下表现出色。它们运作的假设是,有监督数据为模型预训练提供知识,而奖励函数提供关于如何进一步提高生成质量和正确性的密集信息。然而,在一些重要问题的最困难实例中,会遇到两个问题:(1) 基础生成模型获得的奖励信号接近于零,以及 (2) 调用奖励预言机的成本很高。这种设置带来了与标准基于奖励的后训练截然不同的根本性学习挑战。为了解决这一问题,我们提出了BaNEL(贝叶斯负面证据学习)算法,该算法仅利用失败尝试对模型进行后训练,同时最大限度地减少奖励评估次数(NREs)。我们的方法基于这样的理念:学习失败背后规律的问题可以被视为另一个循环内的生成建模问题。随后,我们利用该模型评估新数据是否与先前观察到的失败相似,并引导生成远离这些失败。实验表明,BaNEL 可以在不观察任何成功样本的情况下,在多个稀疏奖励任务上提高模型性能,其成功率比现有新颖性奖励方法高出数个数量级,同时使用的奖励评估次数更少。 |
| 2025-10-10 | STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging | null | 时间序列数据通常包含潜在的时间结构、局部平稳状态之间的转换、重复模式以及变异性爆发,这些在标准表示学习流程中很少被利用。现有模型通常在原始序列或固定窗口序列上操作,将所有时间步视为信息量相等,这导致在长序列或噪声序列中出现低效率、鲁棒性差和可扩展性有限的问题。我们提出了STaTS,一个轻量级、无监督的结构感知时间序列摘要框架,它能自适应地将单变量和多变量时间序列压缩成紧凑的、信息保留的令牌序列。STaTS使用基于BIC的统计散度准则,跨多个时间分辨率检测变化点,然后使用均值等简单函数或GMMs等生成模型对每个片段进行总结。这个过程实现了高达30倍的序列压缩,同时保留了核心时间动态。STaTS作为一个模型无关的预处理器运行,可以与现有无监督时间序列编码器集成,无需重新训练。在150多个数据集上进行了广泛实验,包括UCR-85、UCR-128和UEA-30档案上的分类任务,以及ETTh1、ETTh2、ETTm1和Electricity上的预测任务,结果表明STaTS能够实现全模型性能的85-90%,同时显著降低计算成本。此外,STaTS提高了噪声下的鲁棒性,并保留了判别性结构,优于基于均匀和聚类的压缩基线。这些结果将STaTS定位为一种高效、结构感知时间序列建模的原则性通用解决方案。 |
| 2025-10-10 | Zero-shot Structure Learning and Planning for Autonomous Robot Navigation using Active Inference | null | 在未知环境中进行自主导航,要求机器人在不依赖预定义地图或大量训练的情况下,在不确定性下同时进行探索、定位和规划。我们提出了一种受生物学启发、基于主动推断的框架,名为主动推断映射与规划 (AIMAPP)。该模型在一个单一的生成模型中统一了映射、定位和决策。受海马体导航的启发,它利用拓扑推理、位置细胞编码和情景记忆来指导行为。智能体在线构建和更新稀疏拓扑地图,动态学习状态转换,并通过最小化预期自由能来规划行动。这使其能够平衡目标导向行为和探索行为。我们实现了一个ROS兼容的导航系统,该系统与传感器和机器人无关,能够与各种硬件配置集成。它以完全自监督的方式运行,对漂移具有弹性,并且无需任何预训练即可支持探索和目标导向导航。我们在大规模真实和模拟环境中展示了对比最先进规划模型的强大性能,突出了系统对模糊观测、环境变化和传感器噪声的适应性。该模型为非结构化环境中的可扩展、自监督导航提供了一种受生物学启发、模块化的解决方案。AIMAPP可在https://github.com/decide-ugent/AIMAPP获取。 |
| 2025-10-10 | TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control | null | 当前的可控扩散模型通常依赖于固定架构,通过修改中间激活来注入基于新模态的引导。这种方法针对动态、多阶段的去噪过程采用静态条件策略,限制了模型随着生成过程从粗略结构演变到精细细节时调整其响应的能力。我们引入了TC-LoRA(时间调制条件LoRA),这是一种新范式,通过直接调节模型权重实现了动态、上下文感知的控制。我们的框架使用超网络实时生成LoRA适配器,在每个扩散步骤中基于时间和用户条件为冻结骨干网络定制权重修改。这种机制使模型能够学习并执行一种明确的、自适应的策略,以在整个生成过程中应用条件引导。通过在各种数据域上的实验,我们证明了这种动态、参数化的控制相比于静态的、基于激活的方法,显著提高了生成保真度以及对空间条件的依从性。TC-LoRA建立了一种替代方法,其中模型的条件策略通过对其权重的更深层次的功能性适应进行修改,使控制与任务和生成阶段的动态需求保持一致。 |
| 2025-10-10 | SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models | link | 扩散大语言模型(dLLMs)因其能够并行解码多个tokens的能力,正作为自回归模型的一种高效替代方案而兴起。然而,通过强化学习(RL)使dLLMs与人类偏好或任务特定奖励对齐具有挑战性,因为它们难以处理的对数似然阻碍了标准策略梯度方法的直接应用。尽管先前的研究使用证据下界(ELBO)等替代量,但这些单边近似会引入显著的策略梯度偏差。为了解决这个问题,我们提出了夹心策略梯度(SPG),它同时利用了真实对数似然的上限和下限。实验表明,SPG显著优于基于ELBO或一步估计的基线方法。具体而言,SPG在dLLMs的最新强化学习方法上,于GSM8K任务中将准确率提高了3.6%,在MATH500中提高了2.6%,在Countdown中提高了18.4%,在Sudoku中提高了27.0%。 |
| 2025-10-10 | Conditional Flow Matching for Bayesian Posterior Inference | null | 我们提出了一种基于流匹配的生成式多元后验采样器。它提供了一个简单的训练目标,并且无需进行似然评估。该方法学习数据和参数联合空间中的动态分块三角速度场,从而得到从源分布到目标后验的确定性传输映射。其逆映射(称为向量秩)可以通过对速度进行可逆时间积分来获得。利用动态设计具有优势:对速度施加适当约束可以产生单调映射,进而得到条件Brenier映射,从而能够快速同时生成贝叶斯可信集,其等高线对应于Monge-Kantorovich数据深度的水平集。相比于基于GAN和基于扩散的对应方法,我们的方法计算成本更低,并且能够捕获复杂的后验结构。最后,我们提供了关于恢复的后验分布及其相应贝叶斯可信集的一致性的频率学理论保证。 |
| 2025-10-10 | Precoder Design in Multi-User FDD Systems with VQ-VAE and GNN | null | 通过生成模型结合传播环境的学习统计数据,鲁棒预编码在频分双工(FDD)系统中可高效实现。我们基于先前成功设计站点特定预编码器的工作,该工作结合了高斯混合模型(GMM)和图神经网络(GNN)。在本文中,通过利用矢量量化变分自编码器(VQ-VAE),我们规避了GMM的一个主要缺点,即GMM组件的数量随反馈比特呈指数级增长的问题。此外,VQ-VAE的深度学习架构使我们能够将GNN与VQ-VAE以及导频优化联合训练,形成一个端到端(E2E)模型,从而为多用户无线系统带来和速率的显著性能提升。仿真结果表明,所提出的框架优于涉及子离散傅里叶变换(DFT)导频矩阵和迭代预编码算法的传统方法,从而能够部署具有更少导频或反馈比特的系统。 |
| 2025-10-10 | CRPS-LAM: Regional ensemble weather forecasting from matching marginals | null | 天气预报中的机器学习越来越依赖集成方法来提供概率预报。基于扩散的模型在局地模式建模 (LAM) 中表现出强大的性能,但在采样时计算成本仍然很高。借鉴基于连续等级概率评分 (CRPS) 训练的全球天气预报模型的成功经验,我们引入了CRPS-LAM,这是一种使用基于CRPS的目标函数训练的概率性LAM预报模型。通过采样并将单个潜在噪声向量注入模型,CRPS-LAM在单个前向传播中生成集成成员,实现了比基于扩散的模型快高达39倍的采样速度。我们在MEPS区域数据集上评估了该模型,结果显示CRPS-LAM的误差与扩散模型相当。通过同时保留精细尺度的预报细节,该方法作为一种有效的概率性区域天气预报方法而脱颖而出。 |
| 2025-10-10 | Efficient Autoregressive Inference for Transformer Probabilistic Models | link | 用于摊销概率推断的基于Transformer的模型,如神经过程、先验拟合网络和表格基础模型,擅长单次通过的边际预测。然而,许多现实世界应用,从信号插值到多列表格预测,都需要捕获预测之间依赖关系的连贯联合分布。虽然纯自回归架构能高效生成此类分布,但它们牺牲了使这些模型在元学习中强大的灵活集合条件化能力。相反,从基于集合的模型获取联合分布的标准方法需要在每个自回归步骤中对整个增强条件集进行昂贵的重新编码。我们引入了一种因果自回归缓冲区,它保留了这两种范式的优点。我们的方法将上下文编码与条件集更新解耦。模型一次性处理上下文并将其缓存。然后,一个动态缓冲区捕获目标依赖关系:当目标被纳入时,它们进入缓冲区并关注缓存的上下文和先前缓冲的目标。这使得高效的批量自回归生成和单次通过的联合对数似然评估成为可能。一个统一的训练策略允许以最小的额外成本无缝集成基于集合和自回归模式。在合成函数、脑电图信号、认知模型和表格数据上,我们的方法匹配了强大基线的预测精度,同时提供了高达20倍的联合采样速度。我们的方法结合了自回归生成模型的效率和基于集合条件化的表示能力,使联合预测对于基于Transformer的概率模型变得实用。 |
| 2025-10-10 | Few-shot multi-token DreamBooth with LoRa for style-consistent character generation | null | 视听行业正在经历深刻变革,它不仅整合人工智能发展以自动化日常任务,还以此启发新的艺术形式。本文旨在解决生成几乎无限数量的新颖角色的问题,这些角色能保留一小部分人类设计的参考角色的艺术风格和共享视觉特征,从而拓宽动画、游戏及相关领域的创作可能性。我们的解决方案基于DreamBooth(一种成熟的文本到图像扩散模型微调技术),并对其进行调整以解决两个核心挑战:捕捉超出文本提示的复杂角色细节以及训练数据的少样本特性。为此,我们提出了一种多token策略,该策略使用聚类将独立的token分配给单个角色及其集体风格,并结合了基于LoRA的参数高效微调。通过移除类别特定的正则化集并在生成过程中引入随机token和嵌入,我们的方法允许无限的角色创建,同时保留学习到的风格。我们在五个小型专用数据集上评估了我们的方法,并使用定量指标和人类评估研究将其与相关基线进行了比较。我们的结果表明,我们的方法生成了高质量、多样化的角色,同时保留了参考角色独特的审美特征,人类评估进一步证实了其有效性并凸显了我们方法的潜力。 |
| 2025-10-09 | Who Said Neural Networks Aren’t Linear? | null | 神经网络以其非线性而闻名。然而,线性是相对于一对向量空间 $f\(:\)X\(\to\)Y$定义的。是否有可能识别一对非标准向量空间,使得一个通常非线性的函数实际上是线性的?本文介绍了一种通过构造使这些向量空间显式化的方法。我们发现,如果我们将一个线性算子$A$夹在两个可逆神经网络之间,即$f(x)=g_y^{-1}(A g_x(x))$,那么相应的向量空间$X$和$Y$将由源自$g_x$和$g_y$的新定义的加法和标量乘法运算诱导。我们将这种架构称为线性化器(Linearizer)。该框架使得线性代数的全部工具,包括奇异值分解(SVD)、伪逆、正交投影等,都可应用于非线性映射。此外,我们证明了共享一个神经网络的两个线性化器(Linearizer)的组合也是一个线性化器。我们利用这一特性,证明了使用我们的架构训练扩散模型可以将数百个采样步骤合并为一个步骤。我们进一步利用该框架在网络上强制执行幂等性(即$f(f(x))=f(x)$ ),从而得到一个全局投影生成模型,并展示了模块化风格迁移。 |
| 2025-10-09 | NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos | null | 使机器人能够零样本执行新颖的抓取操作任务是机器人学的一个核心目标。大多数现有方法假设任务在已知分布内,或依赖于特定形态数据的微调,从而限制了跨平台的迁移。我们提出了NovaFlow,一个自主操作框架,它无需任何演示即可将任务描述转换为目标机器人的可执行计划。给定任务描述,NovaFlow使用视频生成模型合成视频,并利用现成的感知模块将其提炼为3D可操作物体流。从物体流中,它计算刚性物体的相对位姿,并通过抓取方案和轨迹优化将其实现为机器人动作。对于可变形物体,此流作为基于粒子动力学模型的模型化规划的跟踪目标。通过将任务理解与低层控制解耦,NovaFlow能够自然地跨形态迁移。我们在一个桌面Franka机械臂和一台Spot四足移动机器人上,对刚性、铰接式和可变形物体操作任务进行了验证,并实现了无需演示或特定形态训练的有效零样本执行。项目网站:https://novaflow.lhy.xyz/。 |
| 2025-10-09 | MultiCOIN: Multi-Modal COntrollable Video INbetweening | null | 视频中间帧生成在两个图像帧之间创建平滑自然的过渡,使其成为视频编辑和长视频合成不可或缺的工具。该领域现有工作无法生成大型、复杂或精细的运动。特别是,它们无法适应用户意图的多样性,并且普遍缺乏对中间帧细节的精细控制,导致与创作理念不符。为了弥补这些空白,我们引入了\modelname{},一个视频中间帧生成框架,它允许多模态控制,包括深度过渡和分层、运动轨迹、文本提示以及用于运动定位的目标区域,同时在灵活性、易用性和精细视频插值的精度之间取得平衡。为实现这一点,我们采用扩散Transformer(DiT)架构作为我们的视频生成模型,因为它已被证明能够生成高质量长视频。为确保DiT与我们的多模态控制兼容,我们将所有运动控制映射到一个通用的稀疏且用户友好的基于点的表示作为视频/噪声输入。此外,为了尊重在不同粒度和影响力层面操作的各种控制,我们将内容控制和运动控制分离为两个分支,以编码所需的特征,然后引导去噪过程,从而产生两个生成器,一个用于运动,另一个用于用于内容。最后,我们提出了一种分阶段训练策略,以确保我们的模型平稳学习多模态控制。大量的定性定量实验表明,多模态控制能够实现更具动态性、可定制性和上下文准确性的视觉叙事。 |
| 2025-10-09 | VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning | null | 我们引入了任意时空视频补全任务,其中视频是从放置在任意空间位置和时间戳上的任意用户指定块生成的,类似于在视频画布上作画。这种灵活的表述自然地将许多现有的可控视频生成任务——包括首帧图像到视频、修复、扩展和插值——统一到一个单一、连贯的范式下。然而,实现这一愿景在现代潜在视频扩散模型中面临一个根本障碍:因果VAE引入的时间模糊性,其中多个像素帧被压缩成单个潜在表示,使得精确的帧级条件控制在结构上变得困难。我们通过VideoCanvas解决了这一挑战,这是一个新颖的框架,它将上下文条件控制(ICC)范式应用于这种细粒度控制任务,且零新增参数。我们提出了一种混合条件控制策略,解耦了空间和时间控制:空间放置通过零填充处理,而时间对齐则通过时序RoPE插值实现,该插值为每个条件在潜在序列中分配一个连续的分数位置。这解决了VAE的时间模糊性,并实现了在冻结骨干网络上像素帧感知的控制。为了评估这项新能力,我们开发了VideoCanvasBench,这是第一个用于任意时空视频补全的基准,涵盖了场景内保真度和场景间创造力。实验证明,VideoCanvas显著优于现有条件控制范式,在灵活统一的视频生成领域建立了新的最先进水平。 |
| 2025-10-09 | Permutation-Invariant Spectral Learning via Dyson Diffusion | null | 扩散模型是生成建模的核心,并通过扩散邻接矩阵表示已应用于图。对于具有 $n$个节点的图,多达$n!$ 种这样的表示所带来的挑战,仅通过使用置换等变学习架构得到了部分缓解。尽管它们计算效率高,但现有的图扩散模型难以区分某些图族,除非图数据通过特别设计的特征进行增强。这一缺点源于在学习架构内部强制施加归纳偏置。在这项工作中,我们利用随机矩阵理论解析地提取扩散过程的谱性质,使我们能够将归纳偏置从架构中推入动力学中。基于此,我们引入了戴森扩散模型,该模型采用戴森布朗运动来捕获邻接矩阵上厄恩斯坦-乌伦贝克过程的谱动力学,同时保留所有非谱信息。我们证明戴森扩散模型能准确学习图谱,并优于现有的图扩散模型。 |
| 2025-10-09 | Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing | null | 基于指令的图像编辑提供了一种通过自然语言操纵图像的强大而直观的方式。然而,仅仅依赖文本指令限制了对编辑程度的细粒度控制。我们引入了Kontinuous Kontext,这是一种指令驱动的编辑模型,它提供了对编辑强度的新维度控制,使用户能够以平滑连续的方式,逐步将编辑从无变化调整到完全实现的结果。Kontinuous Kontext扩展了一个最先进的图像编辑模型,使其能够接受一个额外的输入,即一个标量编辑强度,该强度随后与编辑指令配对,从而实现对编辑程度的显式控制。为了注入这种标量信息,我们训练了一个轻量级投影网络,将输入标量和编辑指令映射到模型调制空间中的系数。为了训练我们的模型,我们利用现有生成模型合成了一个多样化的图像-编辑-指令-强度四元组数据集,随后进行过滤阶段以确保质量和一致性。Kontinuous Kontext为指令驱动的编辑提供了一种统一方法,可实现从微妙到强烈的编辑强度的细粒度控制,涵盖风格化、属性、材质、背景和形状变化等多种操作,且无需进行属性特定训练。 |
| 2025-10-09 | X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering | null | 我们提出了X2Video,这是首个扩散模型,能够渲染由反照率、法线、粗糙度、金属性和辐照度等内在通道引导的逼真视频,同时支持通过参考图像以及针对全局和局部区域的文本提示进行直观的多模态控制。内在引导允许对颜色、材质、几何形状和光照进行精确操纵,而参考图像和文本提示在缺乏内在信息时提供直观调整。为实现这些功能,我们将内在引导的图像生成模型XRGB扩展到视频生成,采用了新颖高效的混合自注意力机制(Hybrid Self-Attention),该机制确保了视频帧之间的时间一致性并增强了对参考图像的保真度。我们进一步开发了一种掩码交叉注意力机制(Masked Cross-Attention),以解耦全局和局部文本提示,并将其有效地应用于各自的局部和全局区域。对于长视频生成,我们新颖的递归采样方法(Recursive Sampling)结合了渐进式帧采样、关键帧预测和帧插值,以保持长程时间一致性并防止误差累积。为支持X2Video的训练,我们构建了一个名为InteriorVideo的视频数据集,包含来自295个室内场景的1,154个房间,并配有可靠的真实内在通道序列和平滑的摄像机轨迹。定性和定量评估均表明,X2Video能够生成由内在条件引导的长时间、时间一致且逼真的视频。此外,X2Video有效地适应了通过参考图像、全局和局部文本提示进行的多模态控制,并通过参数调整同时支持对颜色、材质、几何形状和光照的编辑。项目页面:https://luckyhzt.github.io/x2video |
| 2025-10-09 | FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control | null | 我们提出了FlexTraj,一个具有灵活点轨迹控制的图像到视频生成框架。FlexTraj引入了一种统一的基于点的运动表示,该表示为每个点编码了一个分割ID、一个时间一致的轨迹ID以及一个用于外观线索的可选颜色通道,从而实现了密集和稀疏的轨迹控制。相较于通过token拼接或ControlNet将轨迹条件注入视频生成器,FlexTraj采用了一种高效的序列拼接方案,该方案实现了更快的收敛、更强的可控性和更高效的推理,同时在未对齐条件下保持了鲁棒性。为了训练这样一个统一的点轨迹控制视频生成器,FlexTraj采用了一种退火训练策略,该策略逐步减少了对完整监督和对齐条件的依赖。实验结果表明,FlexTraj实现了多粒度、与对齐无关的视频生成轨迹控制,支持运动克隆、拖拽式图像到视频、运动插值、摄像机重定向、灵活动作控制和网格动画等多种应用。 |
| 2025-10-09 | InstructX: Towards Unified Visual Editing with MLLM Guidance | null | 随着多模态大语言模型(MLLMs)在视觉理解和推理方面展现出强大能力,利用它们提升扩散模型编辑性能的兴趣日益增长。尽管进展迅速,但大多数研究缺乏对MLLM设计选择的深入分析。此外,在视频编辑等一些困难任务中,MLLM与扩散模型的集成仍然是一个开放性挑战。在本文中,我们提出了InstructX,一个用于图像和视频编辑的统一框架。具体而言,我们对集成MLLM和扩散模型以进行指令驱动的跨任务编辑进行了全面研究。基于这项研究,我们分析了图像和视频在统一建模中的协作与区别。(1)我们表明,在图像数据上进行训练可以在没有明确监督的情况下产生涌现的视频编辑能力,从而缓解了稀缺视频训练数据所带来的限制。(2)通过整合模态特定的MLLM特征,我们的方法有效地在单个模型中统一了图像和视频编辑任务。大量实验表明,我们的方法可以处理广泛的图像和视频编辑任务,并取得了最先进的性能。 |
| 2025-10-09 | Universality and kernel-adaptive training for classically trained, quantum-deployed generative models | null | 瞬时量子多项式(IQP)量子电路玻恩机器(QCBM)已被提出作为一种有前景的针对比特串的量子生成模型。最近的工作表明,IQP-QCBM 的训练在所谓的基于高斯核的最大均值差异(MMD)损失函数方面是经典可处理的,同时仍保持其在采样本身方面具备量子优势的潜力。然而,该模型在多个方面需要改进以提升其更广泛的实用性:(1) 已知基本模型不具备普适性,即它无法表示任意分布,并且此前尚不清楚是否可以通过添加隐藏(辅助)量子比特来实现普适性;(2) MMD 损失中使用的固定高斯核可能导致训练问题,例如梯度消失。在本文中,我们解决了第一个问题,并在第二个问题上取得了决定性进展。我们证明,对于一个 $n$ 量子比特的 IQP 生成器,添加 $n + 1$ 个隐藏量子比特可以使模型具有普适性。对于后者,我们提出了一种核自适应训练方法,其中核通过对抗性方式进行训练。我们表明,在核自适应方法中,MMD 值的收敛性意味着生成器在分布上的弱收敛。我们还解析地分析了基于 MMD 的训练方法的局限性。最后,我们通过专门设计用于突显所提出方法改进的数据集,验证了其性能优势。结果表明,核自适应训练在总变差距离方面优于固定高斯核,并且该差距随数据集维度的增加而增大。这些修改和分析阐明了这些新型量子生成方法的局限性和潜力,即使在无法访问可扩展量子计算机的情况下,它们也能首次提供关于经典模型与量子模型比较能力方面真正可扩展的见解。 |
| 2025-10-07 | Fine-grained Defocus Blur Control for Generative Image Models | null | 当前的文本到图像扩散模型在生成多样化、高质量图像方面表现出色,然而它们难以整合细粒度相机元数据,例如精确的光圈设置。在这项工作中,我们引入了一种新颖的文本到图像扩散框架,该框架利用相机元数据(即通常嵌入在图像文件中的EXIF数据),并侧重于生成可控的镜头模糊。我们的方法模仿物理图像形成过程,首先生成一个全聚焦图像,估计其单目深度,利用一种新颖的焦点距离变换器预测一个合理的焦点距离,然后利用现有的可微分镜头模糊模型形成一个散焦图像。梯度通过整个过程反向传播,使我们能够无需显式监督进行学习,以根据内容元素和提供的EXIF数据生成散焦效果。在推理时,这使得用户能够对散焦效果进行精确的交互式控制,同时保留场景内容,这是现有扩散模型无法实现的。实验结果表明,我们的模型实现了卓越的细粒度控制,而不会改变所描绘的场景。 |
| 2025-10-07 | Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models | null | 生成模型近期进展为自动驾驶汽车领域带来了令人振奋的新机遇。具体而言,视频生成模型正在被探索用作可控的虚拟测试环境。与此同时,端到端(E2E)驾驶模型已成为传统模块化自动驾驶系统的精简替代方案,因其简洁性和可扩展性而广受欢迎。然而,这些技术在仿真和规划中的应用提出了重要问题。首先,尽管视频生成模型可以生成越来越逼真的视频,但这些视频能否忠实地遵循指定条件并足够真实以用于E2E自动驾驶规划器评估?其次,鉴于数据对于理解和控制E2E规划器至关重要,我们如何才能更深入地了解它们的偏差并提高它们泛化到分布外场景的能力?在本文中,我们通过弥合驾驶模型与生成式世界模型(Drive&Gen)之间的鸿沟来解决这些问题。我们提出了新颖的统计度量,利用E2E驾驶员来评估生成视频的真实性。通过利用视频生成模型的可控性,我们进行了有针对性的实验,以研究影响E2E规划器性能的分布差距。最后,我们表明视频生成模型产生的合成数据为真实世界数据收集提供了一种经济高效的替代方案。这种合成数据有效地提高了E2E模型在现有运行设计域之外的泛化能力,促进了自动驾驶汽车服务向新运行场景的扩展。 |
| 2025-10-07 | StarEmbed: Benchmarking Time Series Foundation Models on Astronomical Observations of Variable Stars | null | 时间序列基础模型 (TSFMs) 正越来越多地被采纳为高性能通用时间序列表示学习器。尽管它们的训练语料库庞大,但它们排除了天文时间序列数据。对恒星的观测产生了具有独特挑战的拍字节级时间序列数据,这些挑战包括不规则采样和异方差性。我们引入了 StarEmbed,这是第一个用于在恒星时间序列观测(“光变曲线”)上严谨和标准化评估最先进TSFMs的公开基准。我们在三个科学驱动的下游任务上进行基准测试:无监督聚类、有监督分类和分布外源检测。StarEmbed 整合了来自兹威基瞬变设施的多变量光变曲线和一份专家审核的标签目录,产生了分布在七个天体物理类别中的约4万条手动标注光变曲线。我们评估了三个TSFMs(MOIRAI、Chronos、Chronos-Bolt)和一个领域专用transformer(Astromer)的零样本表示能力,并将其与手工特征提取(天体物理学文献中长期存在的基线方法)进行了对比。我们的结果表明,这些TSFMs,尤其是Chronos模型(它们是在与天文观测数据完全不同的数据上训练的),可以在某些任务中超越已有的天体物理学专用基线,并有效地泛化到全新的数据上。特别是,TSFMs在我们的分布外源检测基准上提供了最先进的性能。通过对天文时间序列数据上TSFMs的首次基准测试,我们测试了它们泛化的极限,并推动了时域天文学的范式转变,即从使用特定任务的、完全有监督的流程转向采用通用基础模型表示来分析来自即将到来的观测站的拍字节级数据集。 |
| 2025-10-07 | Thermodynamic Performance Limits for Score-Based Diffusion Models | null | 我们通过推导基于熵率的性能极限,建立了基于分数的扩散模型与非平衡热力学之间的根本联系。我们的主要理论贡献是数据负对数似然的一个下界,它将模型性能与扩散过程的熵率联系起来。我们在一个合成数据集上数值验证了这个界限并考察了它的紧致性。通过建立与熵率——系统熵、内在熵和交换熵——的桥梁,我们为这些模型的热力学操作提供了新的见解,并将其与麦克斯韦妖进行类比,以及对热力学计算硬件的启示。我们的框架通过随机热力学将生成建模性能与基本物理原理联系起来。 |
| 2025-10-07 | Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images | link | 我们旨在解决从单张图像预测日常场景中双手三维手部运动与姿态的问题。为了弥补多样化场景中三维手部标注的不足,我们设计了一个标注流程,其中包含一个扩散模型,用于将二维手部关键点序列提升为四维手部运动。对于预测模型,我们采用扩散损失以考虑到手部运动分布中的多模态性。在6个数据集上进行的大量实验表明,在具有插补标签的多样化数据上进行训练带来了显著益处(14%的改进),并且我们的提升(42%的提升)和预测(16.4%的增益)模型相较于最佳基线具有显著有效性,尤其在对日常图像的零样本泛化能力方面表现突出。 |
| 2025-10-07 | Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation | null | 生成式医疗模型的最新进展受限于模态特异性场景,这阻碍了图像、病理和临床笔记中互补证据的整合。这种碎片化限制了它们发展成为能够学习并推理整个生物医学数据范围的基础模型。我们提出了MeDiM,首个医学离散扩散模型,它在没有模态特异性组件的情况下,学习跨模态的共享分布。MeDiM统一了多种生成任务:在图像和文本之间进行翻译,并根据提示在不同领域联合生成图像-报告对。基于离散扩散框架,MeDiM通过共享的概率空间连接了视觉和语言表示。为了实现统一和灵活的医学生成,我们采用多模态大语言模型(MLLM)作为扩散骨干,利用其先验知识和跨模态推理能力。引入了两项关键设计:(1) 移除因果注意力掩码以实现双向上下文,以及 (2) 注入连续时间步嵌入以增强扩散感知。实验表明高保真医学生成(MIMIC-CXR上的FID为16.60,PathGen上的FID为24.19)和准确的报告生成(METEOR分别为0.2650和0.2580)。联合生成的图像-报告对进一步提升了下游性能(BLEU-1提高6.43%,BLEU-2提高18.57%,BLEU-3提高31.58%,METEOR提高4.80%),表明MeDiM支持连贯且具有临床依据的多模态输出。 |
| 2025-10-07 | Towards Data-Efficient Medical Imaging: A Generative and Semi-Supervised Framework | null | 医学影像中的深度学习常受限于稀缺且不平衡的标注数据。我们提出了SSGNet,一个统一的框架,它结合了类别特定的生成建模与迭代半监督伪标签,以提升分类和分割性能。SSGNet并非作为独立模型运行,而是通过使用StyleGAN3生成的图像扩展训练数据,并通过迭代伪标签细化标签来增强现有基线模型。在多个医学影像基准测试上的实验证明了分类和分割性能的持续提升,同时Frechet Inception Distance分析证实了生成样本的高质量。这些结果突出了SSGNet作为一种实用的策略,能够缓解标注瓶颈并提高医学图像分析的鲁棒性。 |
| 2025-10-07 | PolyGraph Discrepancy: a classifier-based metric for graph generation | null | 现有用于评估图生成模型的方法主要依赖于基于图描述符的最大均值差异(MMD)指标。尽管这些指标可以对生成模型进行排序,但它们不提供绝对的性能度量。它们的值也高度依赖于外部参数,即核函数和描述符的参数化,这使得它们在不同的图描述符之间不可比较。我们引入了PolyGraph差异(PGD),这是一个旨在解决这些局限性的新评估框架。它通过拟合二元分类器来区分由这些描述符特征化的真实图和生成图,从而近似图分布的Jensen-Shannon距离。这些分类器的数据对数似然近似了这两个分布之间JS距离的变分下界。所得指标被限制在单位区间[0,1]内,并且在不同的图描述符之间是可比较的。我们进一步推导了一个有理论依据的汇总指标,该指标结合了这些单独的指标,为给定描述符提供了距离的最大紧密下界。彻底的实验表明,与MMD指标相比,PGD提供了更鲁棒和更富有洞察力的评估。用于基准测试图生成模型的PolyGraph框架已在https://github.com/BorgwardtLab/polygraph-benchmark公开提供。 |
| 2025-10-07 | Mechanistic-statistical inference of mosquito dynamics from mark-release-recapture data | null | 针对蚊媒疾病的生物防治策略,例如不育昆虫技术 (SIT)、RIDL 和基于沃尔巴克氏菌的释放,需要可靠地估计所释放雄性的扩散和存活情况。我们提出了一个用于标记-释放-再捕获 (MRR) 数据的机制-统计框架,将基于个体的二维扩散模型与其反应-扩散极限相结合。推断基于求解宏观系统并将其嵌入每日诱捕计数的泊松观测模型中,不确定性通过参数自举法量化。我们使用模拟数据验证了可识别性,并将该模型应用于古巴哈瓦那埃尔卡诺的一次城市MRR活动,该活动涉及四次每周释放不育埃及伊蚊雄性。最受支持的模型表明平均预期寿命约为五天,典型位移约为180米。与存活或扩散的经验拟合不同,我们的机制方法联合估计了移动、死亡率和捕获,产生了生物学上可解释的参数,并为设计和评估基于SIT的干预措施提供了一个有原则的框架。 |
| 2025-10-07 | Controllable Audio-Visual Viewpoint Generation from 360° Spatial Information | null | 随着扩散模型的出现,有声视频的生成取得了显著进展。然而,现有方法通常缺乏从大型沉浸式360度环境中生成视点特定内容所需的细粒度控制。这一局限性限制了创建能够感知画外事件的视听体验。据我们所知,这是首次提出一个用于可控视听生成的框架,解决了这一未被探索的空白。具体而言,我们通过引入一组源自完整360度空间的强大条件信号,提出了一个扩散模型:即用于识别感兴趣区域的全景显著图、用于定义目标视点的边界框感知的有符号距离图以及整个场景的描述性文本。通过整合这些控制,我们的模型生成了受更广泛、不可见环境背景连贯影响的空间感知视点视频和音频,引入了对真实和沉浸式视听生成至关重要的强大可控性。我们展示了视听示例,证明了我们框架的有效性。 |
| 2025-10-03 | Wave-GMS: Lightweight Multi-Scale Generative Model for Medical Image Segmentation | link | 为了在医院和医疗机构中公平部署AI工具,我们需要高性能且可在内存有限、批次大小大的经济高效GPU上训练的深度分割网络。在这项工作中,我们提出了Wave-GMS,一个用于医学图像分割的轻量级高效多尺度生成模型。Wave-GMS的可训练参数数量大幅减少,无需加载内存密集型预训练视觉基础模型,并支持在内存有限的GPU上使用大批次大小进行训练。我们在四个公开可用数据集(BUS、BUSI、Kvasir-Instrument和HAM10000)上进行了广泛实验,结果表明Wave-GMS实现了最先进的分割性能和卓越的跨域泛化能力,同时仅需约2.6M的可训练参数。代码可在https://github.com/ATPLab-LUMS/Wave-GMS获取。 |
| 2025-10-03 | Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner | null | 扩散语言模型,特别是掩码离散扩散模型,最近取得了巨大成功。尽管一些理论和初步的实证结果表明,循环Transformer或连续思维链的潜在推理具有优势,但连续扩散模型通常不如其离散对应物。在本文中,我们认为扩散语言模型不一定需要在离散空间中。具体而言,我们证明了连续扩散模型比离散扩散和循环Transformer具有更强的表达能力。我们将理论表达能力与经验性能之间的矛盾归因于它们的实际可训练性:虽然连续扩散提供了循环Transformer所缺乏的中间监督,但它们在将token从连续表示空间解码到离散token空间时引入了额外的困难。因此,我们提出了协同演化连续离散扩散(Coevolutionary Continuous Discrete Diffusion, CCDD),它在连续表示空间和离散token空间的并集上定义了一个联合多模态扩散过程,利用一个单一模型在联合空间中同时去噪。通过结合两种模态,CCDD在潜在空间中具有丰富的语义表达能力,并通过显式离散token的帮助,实现了良好的可训练性和样本质量。我们还为CCDD提出了有效的架构和先进的训练/采样技术,这在对真实世界任务进行的大量语言建模实验中展现出强大的经验性能。 |
| 2025-10-03 | Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft | null | 自回归视频扩散模型已被证明对世界建模和交互式场景生成有效,Minecraft游戏玩法是其代表性应用。为了忠实地模拟游戏过程,模型必须在探索新场景时生成自然内容,并在重新访问已探索区域时保持空间一致性。在有限的计算预算下,它必须在有限的上下文窗口内压缩和利用历史线索,这暴露了一个权衡:仅限时间记忆缺乏长期空间一致性,而添加空间记忆则能增强一致性,但当模型过度依赖不足的空间上下文时,可能会降低新场景生成质量。我们提出了记忆强制(Memory Forcing),这是一种将训练协议与几何索引空间记忆相结合的学习框架。混合训练揭示了不同的游戏玩法机制,指导模型在探索期间依赖时间记忆,并在重新访问时结合空间记忆。链式前向训练通过模型推演扩展了自回归训练,其中链式预测创建了更大的姿态变化,并鼓励依赖空间记忆来保持一致性。点到帧检索通过将当前可见点映射到其源帧来有效地检索历史记录,而增量三维重建则维护并更新一个显式三维缓存。大量实验表明,记忆强制在不同环境中实现了卓越的长期空间一致性和生成质量,同时为扩展序列保持了计算效率。 |
| 2025-10-03 | Product-Quantised Image Representation for High-Quality Image Synthesis | null | 乘积量化(PQ)是一种用于可伸缩向量编码的经典方法,但在高保真图像生成中的潜在表示方面应用有限。在这项工作中,我们提出了PQGAN,这是一种量化图像自编码器,它将PQ集成到知名的VQGAN的向量量化(VQ)框架中。PQGAN在重建性能方面比最先进的方法实现了显著改进,包括量化方法及其连续对应物。我们实现了37dB的PSNR分数,而先前工作为27dB,并且能够将FID、LPIPS和CMMD分数降低高达96%。我们成功的关键是对码本大小、嵌入维度和子空间分解之间相互作用的深入分析,其中向量量化和标量量化是特殊情况。我们获得了新颖的发现,例如在缩放嵌入维度时,VQ和PQ的性能表现出相反的方式。此外,我们的分析展示了PQ的性能趋势,有助于指导最佳超参数选择。最后,我们证明了PQGAN可以无缝集成到预训练扩散模型中。这使得生成显著更快、更计算高效,或者在无额外成本的情况下使输出分辨率翻倍,将PQ定位为图像合成中离散潜在表示的强大扩展。 |
| 2025-10-03 | UniShield: An Adaptive Multi-Agent Framework for Unified Forgery Image Detection and Localization | null | 随着图像生成技术的飞速发展,合成图像变得越来越逼真,带来了严重的社会风险,例如虚假信息和欺诈。因此,伪造图像检测与定位 (FIDL) 对于维护信息完整性和社会安全变得至关重要。尽管现有的领域专用检测方法表现出色,但它们的实际应用性仍然有限,主要归因于它们的狭窄专业化、糟糕的跨领域泛化能力以及缺乏一个集成的自适应框架。为解决这些问题,我们提出了UniShield,一个新颖的基于多智能体的统一系统,能够跨越图像篡改、文档篡改、深度伪造和AI生成图像等不同领域检测和定位图像伪造。UniShield创新性地集成了感知智能体与检测智能体。感知智能体智能地分析图像特征以动态选择合适的检测模型,而检测智能体则将各种专家检测器整合到一个统一框架中并生成可解释的报告。大量实验表明,UniShield取得了最先进的结果,超越了现有的统一方法和领域专用检测器,凸显了其卓越的实用性、适应性和可扩展性。 |
| 2025-10-03 | Mask2IV: Interaction-Centric Video Generation via Mask Trajectories | null | 生成以交互为中心的视频,例如描绘人类或机器人与物体交互的视频,对于具身智能至关重要,因为它们为机器人学习、操作策略训练和可供性推理提供了丰富多样的视觉先验。然而,现有方法通常难以建模此类复杂动态的交互。尽管最近的研究表明掩码可以作为有效的控制信号并提升生成质量,但获取密集精确的掩码标注仍然是实际应用中的主要挑战。为了克服这一局限,我们引入了Mask2IV,这是一个专门为以交互为中心的视频生成设计的新颖框架。它采用解耦的两阶段流程,首先预测执行者和物体的合理运动轨迹,然后基于这些轨迹生成视频。这种设计消除了用户提供密集掩码输入的需要,同时保留了操纵交互过程的灵活性。此外,Mask2IV支持多功能且直观的控制,允许用户指定交互的目标物体,并通过动作描述或空间位置线索引导运动轨迹。为了支持系统的训练和评估,我们创建了两个基准,涵盖了人-物交互和机器人操作场景中多样化的动作和物体类别。大量实验表明,与现有基线相比,我们的方法实现了卓越的视觉真实感和可控性。 |
| 2025-10-03 | HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion | null | 从大脑活动中重建视觉信息促进了神经科学与计算机视觉之间的跨学科融合。然而,现有方法在准确恢复高度复杂的视觉刺激方面仍面临挑战。这一困难源于自然场景的特点:低级特征表现出异质性,而高级特征由于上下文重叠显示出语义纠缠。受视觉皮层分层表征理论的启发,我们提出了HAVIR模型,该模型将视觉皮层分为两个分层区域,并从每个区域提取不同的特征。具体而言,结构生成器从空间处理体素中提取结构信息并将其转换为潜在扩散先验,而语义提取器将语义处理体素转换为CLIP嵌入。这些组件通过多功能扩散模型集成以合成最终图像。实验结果表明,HAVIR即使在复杂场景中也能提高重建的结构和语义质量,并且优于现有模型。 |
| 2025-10-03 | Distilled Protein Backbone Generation | null | 扩散和流基生成模型最近在蛋白质骨架生成任务中表现出强大性能,为从头蛋白质设计提供了前所未有的能力。然而,尽管在生成质量方面取得了显著性能,这些模型受限于其生成速度,通常在逆扩散过程中需要数百个迭代步骤。这一计算瓶颈限制了它们在大规模蛋白质发现中的实际效用,因为大规模发现需要数千到数百万个候选结构。为解决这一挑战,我们探索了分数蒸馏技术,该技术在视觉领域已成功减少采样步骤数并保持高生成质量。然而,直接改编这些方法会导致不可接受的低可设计性。通过广泛研究,我们确定了如何适当调整最先进的分数蒸馏策略——分数恒等蒸馏(SiD),以训练少步蛋白质骨架生成器,从而显著减少采样时间,同时保持与预训练教师模型相当的性能。特别是,多步生成与推理时噪声调制相结合是成功的关键。我们证明,我们蒸馏出的少步生成器在采样速度上实现了超过20倍的提升,同时在可设计性、多样性和新颖性方面达到了与Proteina教师模型相似的水平。推理成本的降低使得大规模计算机辅助蛋白质设计成为可能,从而使扩散模型更接近实际蛋白质工程应用。 |
| 2025-10-03 | Latent Diffusion Unlearning: Protecting Against Unauthorized Personalization Through Trajectory Shifted Perturbations | null | 文生图扩散模型在快速且高保真个性化方面表现出显著成效,即使只提供少量用户图像。然而,个性化技术的有效性引发了关于数据隐私、知识产权保护和未经授权使用的担忧。为了缓解这种未经授权的使用和模型复制,利用图像投毒技术生成“不可学习”训练样本的想法已经出现。现有的相关方法隐蔽性有限,因为它们在像素空间中操作,导致图像中出现噪声和伪影。在这项工作中,我们提出了一种新颖的基于模型的扰动策略,该策略在扩散模型的潜在空间中操作。我们的方法在去噪和反演之间交替,同时修改去噪轨迹的起始点。这种轨迹偏移采样确保扰动后的图像保持与原始输入的高视觉保真度,同时能够抵抗下游生成模型的反演和个性化。这种方法将不可学习性集成到潜在扩散模型(LDMs)的框架中,从而实现了一种实用且不易察觉的防御,以对抗未经授权的模型适应。我们在四个基准数据集上验证了我们的方法,以证明其对最先进反演攻击的鲁棒性。结果表明,我们的方法在隐蔽性(在PSNR、SSIM和FID等感知指标上约为8%至10%)和鲁棒性(在五种对抗性设置下平均约为10%)方面取得了显著改进,突显了其在保护敏感数据方面的有效性。 |
| 2025-10-03 | What Drives Compositional Generalization in Visual Generative Models? | null | 组合泛化,即生成已知概念新颖组合的能力,是视觉生成模型的关键要素。然而,并非所有促成或抑制它的机制都已完全理解。在这项工作中,我们系统性地研究了各种设计选择如何以积极或消极的方式影响图像和视频生成中的组合泛化。通过受控实验,我们确定了两个关键因素:(i) 训练目标是作用于离散分布还是连续分布,以及 (ii) 训练期间条件作用在多大程度上提供了关于构成概念的信息。基于这些见解,我们展示了通过辅助的基于JEPA的连续目标来放松MaskGIT的离散损失,可以提高像MaskGIT这样的离散模型中的组合性能。 |
| 2025-10-02 | Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity | null | 文生图(T2I)模型在单实体提示下表现出色,但难以处理多主体描述,经常出现属性泄露、身份纠缠和主体遗漏。我们提出了首个理论框架,其具有原则性、可优化的目标,用于引导采样动态以实现多主体保真度。通过随机最优控制(SOC)视角审视流匹配(FM),我们将主体解耦问题公式化为对已训练FM采样器的控制。这产生了两种与架构无关的算法:(i) 一种无需训练的测试时控制器,通过单次更新扰动基础速度;以及 (ii) 伴随匹配 (Adjoint Matching),一种轻量级微调规则,将控制网络回归到反向伴随信号,同时保留基础模型能力。相同的公式统一了先前的注意力启发式方法,通过流-扩散对应关系扩展到扩散模型,并提供了首个明确为多主体保真度设计的微调路径。经验上,在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上,两种算法都持续改进了多主体对齐,同时保持了基础模型的风格。测试时控制在商用GPU上高效运行,并且在有限提示下训练的微调控制器能够泛化到未见过的提示。我们进一步强调了FOCUS(解耦主体的流最优控制),它在各种模型上实现了最先进的多主体保真度。 |
| 2025-10-02 | Inferring Dynamic Physical Properties from Video Foundation Models | null | 我们研究从视频中预测动态物理属性的任务。更具体地说,我们考虑需要时间信息才能推断的物理属性:弹跳物体的弹性、流动液体的粘度以及物体在表面上滑动时的动摩擦。为此,我们做出了以下贡献:(i) 我们为每种物理属性收集了一个新的视频数据集,包含合成训练和测试划分,以及用于真实世界评估的真实划分。(ii) 我们探索了三种从视频中推断物理属性的方法:(a) 一种预言机方法,我们使用经典计算机视觉技术提供本质上反映该属性的视觉线索;(b) 一种简单的读出机制,使用视觉提示和可训练提示向量在预训练视频生成模型和自监督模型上进行交叉注意力;(c) 针对多模态大型语言模型(MLLMs)的提示策略。(iii) 我们表明,以生成式或自监督方式训练的视频基础模型取得了相似的性能,尽管落后于预言机方法,并且MLLMs目前逊于其他模型,尽管它们的性能可以通过合适的提示得到改善。 |
| 2025-10-02 | NoiseShift: Resolution-Aware Noise Recalibration for Better Low-Resolution Image Generation | null | 在固定分辨率集上训练的文生图扩散模型,即使被要求生成低于训练时所见分辨率的图像时,其泛化能力也往往不足。目前,高分辨率文生图生成器难以轻松地为那些可能不需要高分辨率图像的用户提供一种开箱即用且经济高效的替代方案。我们发现了扩散模型中的一个关键技术洞察,解决它有助于克服这一局限性:噪声调度器在不同分辨率下具有不等的感知效果。相同水平的噪声从低分辨率图像中移除的信号比从高分辨率图像中移除的更多,这导致了训练与测试的不匹配。我们提出了NoiseShift,这是一种无需训练的方法,它可以根据分辨率大小重新校准去噪器的噪声水平。NoiseShift无需更改模型架构或采样调度,且与现有模型兼容。当应用于Stable Diffusion 3、Stable Diffusion 3.5和Flux-Dev时,低分辨率下的图像质量得到显著提升。在LAION-COCO数据集上,NoiseShift平均将SD3.5的FID提高了15.89%,SD3提高了8.56%,Flux-Dev提高了2.44%。在CelebA数据集上,NoiseShift平均将SD3.5的FID提高了10.36%,SD3提高了5.19%,Flux-Dev提高了3.02%。这些结果证明了NoiseShift在缓解分辨率相关伪影和提高低分辨率图像生成质量方面的有效性。 |
| 2025-10-02 | Diffusion Models and the Manifold Hypothesis: Log-Domain Smoothing is Geometry Adaptive | null | 扩散模型已取得最先进的性能,在各种领域展现出卓越的泛化能力。然而,支撑这些强大能力的机制仍仅部分被理解。一个主要猜想,基于流形假设,将此成功归因于它们适应数据中低维几何结构的能力。本工作为此猜想提供了证据,侧重于这种现象如何通过分数匹配的学习问题表述而产生。我们通过研究平滑经验分数匹配目标极小值点的效果来考察隐式正则化的作用。我们的理论和经验结果证实,平滑分数函数——或等价地,在对数密度域中进行平滑——会产生与数据流形相切的平滑。此外,我们表明,扩散模型泛化所沿的流形可以通过选择适当的平滑来控制。 |
| 2025-10-02 | Knowledge Distillation Detection for Open-weights Models | link | 我们提出了知识蒸馏检测任务,旨在确定一个学生模型是否由给定的教师模型蒸馏而来,且仅在可获取学生模型权重和教师模型API的实际设置下进行。这个问题源于对模型来源和通过蒸馏进行未经授权复制的日益增长的担忧。为了解决这项任务,我们引入了一个与模型无关的框架,该框架结合了无数据输入合成和统计分数计算来检测蒸馏。我们的方法适用于分类模型和生成模型。在用于图像分类和文本到图像生成的多种架构上的实验表明,我们的方法在检测准确性方面比最强的基线提高了,具体为在CIFAR-10上提高了59.6%,在ImageNet上提高了71.2%,以及在文本到图像生成任务上提高了20.0%。代码可在https://github.com/shqii1j/distillation_detection获取。 |
| 2025-10-02 | Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models | null | 我们引入了平衡匹配(EqM),一个从平衡动力学视角构建的生成建模框架。EqM 摒弃了传统扩散模型和基于流的生成模型中的非平衡、时间条件动力学,转而学习隐式能量景观的平衡梯度。通过这种方法,我们可以在推理时采用基于优化的采样过程,其中样本通过在所学景观上进行梯度下降获得,并可使用可调节步长、自适应优化器和自适应计算。经验上,EqM 在生成性能上超越了扩散/流模型,在ImageNet 256 $\times$ 256数据集上实现了1.90的FID。EqM 在理论上也证明能够从数据流形中学习和采样。除了生成之外,EqM 是一个灵活的框架,可以自然地处理包括部分加噪图像去噪、OOD检测和图像合成在内的任务。通过用统一的平衡景观替代时间条件速度,EqM 在基于流的模型和基于能量的模型之间提供了更紧密的桥梁,并为优化驱动的推理提供了一个简单途径。 |
| 2025-10-02 | Continual Personalization for Diffusion Models | null | 在增量设置下更新扩散模型在实际应用中具有实用性,但在计算上具有挑战性。我们提出了一种新颖的学习策略——概念神经元选择(CNS),这是一种在持续学习方案中执行个性化的简单而有效的方法。CNS独特地识别扩散模型中与目标概念密切相关的神经元。为了缓解灾难性遗忘问题,同时保留零样本文本到图像生成能力,CNS以增量方式微调概念神经元,并共同保留了先前概念学到的知识。真实世界数据集的评估表明,CNS以最少的参数调整实现了最先进的性能,在单概念和多概念个性化工作中均优于以前的方法。CNS还实现了无融合操作,减少了持续个性化的内存存储和处理时间。 |
| 2025-10-02 | Test-Time Anchoring for Discrete Diffusion Posterior Sampling | link | 我们研究了使用预训练离散扩散基础模型进行后验采样的问题,旨在无需重新训练特定任务模型即可从带噪声测量中恢复图像。尽管扩散模型在生成建模方面取得了显著成功,但大多数进展依赖于连续高斯扩散。相比之下,离散扩散提供了一个统一框架,用于联合建模文本和图像等类别数据。除了统一性之外,离散扩散还提供更快的推理、更精细的控制以及原则上无需训练的贝叶斯推理,使其特别适合后验采样。然而,现有离散扩散后验采样方法面临严峻挑战:无导数引导产生稀疏信号,连续松弛限制了适用性,分裂吉布斯采样器遭受维度灾难。为克服这些局限性,我们为掩码扩散基础模型引入了锚定后验采样(APS),该方法基于两项关键创新——在离散嵌入空间中用于类梯度引导的量化期望,以及用于自适应解码的锚定重掩码。我们的方法在标准基准测试的线性和非线性逆问题上,在离散扩散采样器中实现了最先进的性能。我们进一步展示了我们方法在免训练风格化和文本引导编辑中的优势。 |
| 2025-10-02 | MultiModal Action Conditioned Video Generation | link | 当前视频模型作为世界模型表现不佳,因为它们缺乏细粒度控制。通用家用机器人需要实时精细运动控制,以处理精细任务和紧急情况。在这项工作中,我们引入了细粒度多模态动作来捕捉这种精确控制。我们考虑了本体感觉、动觉、力触觉和肌肉激活等感知能力。这种多模态感知自然地实现了细粒度交互,而这些交互是文本条件生成模型难以模拟的。为了有效模拟细粒度多感官动作,我们开发了一种特征学习范式,该范式对这些模态进行对齐,同时保留每种模态提供的独特信息。我们进一步提出了一种正则化方案,以增强动作轨迹特征在表示复杂交互动力学时的因果关系。实验表明,结合多模态感知可以提高模拟精度并减少时间漂移。广泛的消融研究和下游应用证明了我们工作的有效性和实用性。 |
| 2025-10-02 | Learning to Generate Object Interactions with Physics-Guided Video Diffusion | null | 近期视频生成模型已取得显著进展,现已应用于电影、社交媒体制作和广告。除了其创造性潜力,此类模型还有望成为用于机器人技术和具身决策的世界模拟器。然而,尽管取得了巨大进步,当前方法在生成物理上可信的物体交互方面仍面临挑战,并且缺乏基于物理的控制机制。为了解决这一局限性,我们引入了KineMask,一种物理引导的视频生成方法,能够实现逼真的刚体控制、交互和效果。给定单张图像和指定的物体速度,我们的方法生成具有推断运动和未来物体交互的视频。我们提出了一种两阶段训练策略,通过物体掩码逐步移除未来运动监督。利用这一策略,我们在简单交互的合成场景中训练视频扩散模型(VDM),并展示了真实场景中物体交互的显著改进。此外,KineMask通过预测性场景描述将低级运动控制与高级文本条件结合,有效支持了复杂动态现象的合成。大量实验表明,KineMask相比于规模相似的近期模型取得了显著改进。消融研究进一步强调了VDM中低级和高级条件的互补作用。我们的代码、模型和数据将公开可用。 |
| 2025-09-30 | Stitch: Training-Free Position Control in Multimodal Diffusion Transformers | null | 近年来,文生图(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改善了空间关系遵循能力。然而,随着架构演进以提升图像质量,这些技术与现代模型变得不兼容。我们提出了Stitch,一种免训练方法,通过自动生成的边界框将外部位置控制整合到多模态扩散Transformer(MMDiT)中。Stitch通过在指定边界框内生成单个对象并将其无缝拼接,生成的图像既空间准确又视觉美观。我们发现,定向注意力头能够捕获必要信息,在生成过程中隔离并剪切单个对象,而无需完全完成图像。我们在PosEval上评估了Stitch,这是我们针对基于位置的T2I生成的基准。PosEval包含五个新任务,将位置概念扩展到超越基本GenEval任务的范围,表明即使是顶级模型,在基于位置的生成方面仍有显著提升空间。在Qwen-Image、FLUX和SD3.5上进行测试,Stitch持续增强了基础模型,甚至将FLUX在GenEval的位置任务上提升了218%,在PosEval上提升了206%。Stitch在PosEval上与Qwen-Image结合取得了最先进的结果,相较于现有模型提升了54%,所有这些都是在免训练的情况下将位置控制整合到领先模型中实现的。代码可在https://github.com/ExplainableML/Stitch获取。 |
| 2025-09-30 | Query-Kontext: An Unified Multimodal Model for Image Generation and Editing | null | 统一多模态模型(UMMs)在文本到图像生成(T2I)和编辑(TI2I)方面表现出卓越的性能,无论是作为将强大的视觉-语言模型(VLM)与基于扩散的生成器耦合的组装式统一框架,还是作为理解与生成模态早期融合的朴素统一多模态模型。我们认为,在当前的统一框架中,多模态生成推理的关键能力,即涵盖指令理解、接地以及用于身份保持和忠实重建的图像指代,与高保真合成内在纠缠。在这项工作中,我们引入了Query-Kontext,这是一种新颖的方法,通过由从多模态输入中编码的语义线索和粗粒度图像条件组成的多模态“kontext”来连接VLM和扩散模型。这种设计将多模态生成推理的复杂能力委托给强大的VLM,同时保留扩散模型用于高质量视觉合成的作用。为此,我们提出了一种三阶段渐进式训练策略。首先,我们通过多模态kontext令牌将VLM连接到轻量级扩散头部,以释放VLM的生成推理能力。其次,我们将此头部扩展到大型预训练扩散模型,以增强视觉细节和真实感。最后,我们引入一个低级图像编码器来提高图像保真度,并在下游任务上执行指令微调。此外,我们构建了一个综合数据管道,集成了真实、合成和开源数据集,涵盖了多样化的多模态图像参考场景,包括图像生成、指令驱动编辑、定制生成和多主体组合。实验表明,我们的方法与强大的统一基线相匹配,在某些情况下甚至超越了特定任务的最先进方法。 |
| 2025-09-30 | Video Object Segmentation-Aware Audio Generation | link | 现有的多模态音频生成模型通常缺乏精确的用户控制,这限制了它们在专业拟音工作流程中的应用性。特别是,这些模型侧重于整个视频,并且未能提供精确的方法来优先处理场景中的特定对象,导致生成不必要的背景声音或将注意力集中在错误的对象上。为弥补这一不足,我们提出了一项新颖的视频对象分割感知音频生成任务,该任务明确地将声音合成与对象级分割图进行条件关联。我们提出了SAGANet,这是一种新的多模态生成模型,它通过利用视觉分割掩码以及视频和文本提示来实现可控音频生成。我们的模型为用户提供了对音频生成的细粒度和视觉局部化控制。为了支持这项任务并进一步研究分割感知拟音,我们提出了Segmented Music Solos,这是一个包含分割信息的乐器演奏视频基准数据集。我们的方法在现有最先进方法的基础上取得了显著改进,并为可控、高保真拟音合成树立了新标准。代码、样本和Segmented Music Solos可在https://saganet.notion.site获取。 |
| 2025-09-30 | Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation | null | 视频生成领域的最新进展已能实现从用户提供的提示词生成高保真视频。然而,现有模型和基准未能捕捉专业视频生成的复杂性和要求。为此,我们引入了稳定电影计量学 (Stable Cinemetrics),这是一个结构化评估框架,将电影制作控制规范为四个相互独立、层级化的分类体系:设置、事件、光照和摄像机。这些分类体系共同定义了76个根植于行业实践的细粒度控制节点。利用这些分类体系,我们构建了一个与专业用例相符的提示词基准,并开发了一个用于提示词分类和问题生成的自动化流程,从而能够独立评估每个控制维度。我们进行了一项大规模人工研究,涵盖10多个模型和2万个视频,由80多名电影专业人士组成的团队进行标注。我们的分析,无论是粗粒度还是细粒度,都揭示出即使是目前最强大的模型也存在显著差距,尤其是在事件和摄像机相关控制方面。为了实现可扩展的评估,我们训练了一个自动评估器,这是一个与专家标注对齐的视觉-语言模型,其性能优于现有的零样本基线。SCINE是将专业视频生成置于视频生成模型领域中的首个方法,它引入了以电影控制为核心的分类体系,并通过结构化评估流程和详细分析来支持这些体系,以指导未来的研究。 |
| 2025-09-30 | The Unheard Alternative: Contrastive Explanations for Speech-to-Text Models | null | 对比解释,即说明AI系统为何产生某个输出(目标)而非另一个输出(对照),在可解释AI领域被广泛认为比标准解释更具信息量和可解释性。然而,为语音转文本(S2T)生成模型获取此类解释仍然是一个开放的挑战。借鉴特征归因技术,我们提出了第一个在S2T中获取对比解释的方法,通过分析输入语谱图的哪些部分影响了在不同输出之间的选择。通过一项关于语音翻译中性别分配的案例研究,我们表明我们的方法能够准确识别驱动选择一种性别而非另一种性别的音频特征。通过将对比解释的范围扩展到S2T,我们的工作为更好地理解S2T模型提供了基础。 |
| 2025-09-30 | HilbertA: Hilbert Attention for Image Generation with Diffusion Models | null | 为扩散Transformer设计稀疏注意力需要协调二维空间局部性与GPU效率,这是当前方法难以实现的权衡。现有方法强制保证二维空间局部性,但通常会导致非合并内存访问。我们提出了HilbertA,一种二维感知且GPU高效的稀疏注意力机制。HilbertA沿着希尔伯特曲线重新排序图像token,以实现连续内存布局同时保留空间邻域,并跨层采用滑动调度,从而在没有重复或非合并内存访问的情况下实现长距离信息传播。为进一步增强跨瓦片通信和位置感知,HilbertA引入了一个小型中央共享区域。在Triton中实现后,HilbertA在Flux.1-dev上与先前方法相比,在提供可比图像质量的同时实现了显著加速,证明了硬件对齐的二维稀疏注意力在高分辨率图像生成中的可行性。HilbertA在生成 $1024\times 1024$图像时提供了$2.3\times$的注意力加速,在$2048\times 2048$时高达$4.17\times$ ,同时实现了与基线相当或超越基线的图像质量。 |
| 2025-09-30 | Interdisciplinary Digital Twin Engine InterTwin for calorimeter simulation | null | 量能器簇射模拟计算成本高昂,而生成模型提供了一种高效的替代方案。然而,在准确性和速度之间取得平衡仍然是一个挑战,其中分布尾部建模是主要的限制。可逆生成网络CaloINN在模拟质量和效率之间提供了一种权衡。正在进行的研究旨在引入一系列针对分析级可观测值的后处理修改,以提高分布尾部的准确性。作为开发开源数字孪生引擎的interTwin项目倡议的一部分,我们在interTwin AI框架内实现了CaloINN。 |
| 2025-09-30 | STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models | null | 统一多模态理解与生成模型(UMM)在理解和生成任务中都展现了卓越的能力。然而,我们发现UMM中存在一个源于生成-理解耦合的漏洞。攻击者可以利用生成功能制作一个信息丰富的对抗性图像,然后利用理解功能在单次处理中吸收该图像,我们称之为跨模态生成注入(CMGI)。当前针对恶意指令的攻击方法通常局限于单一模态,并且依赖于带有语义漂移的提示重写,这使得UMM的独特漏洞未被探索。我们提出了STaR-Attack,这是首个利用UMM独特安全弱点且不带语义漂移的多轮越狱攻击框架。具体而言,我们的方法在时空上下文中定义了一个与目标查询强相关的恶意事件。STaR-Attack利用三幕叙事理论,生成事件前和事件后的场景,同时将恶意事件隐藏为高潮。在执行攻击策略时,最初两轮利用UMM的生成能力为这些场景生成图像。随后,通过利用其理解能力,引入了一种基于图像的问题猜测和回答游戏。STaR-Attack将原始恶意问题嵌入良性候选问题中,迫使模型在给定叙事上下文的情况下选择并回答最相关的问题。大量实验表明,STaR-Attack持续超越现有方法,在Gemini-2.0-Flash上实现高达93.06%的ASR,并超越了最强的现有基线FlipAttack。我们的工作揭示了一个关键但未充分开发的漏洞,并强调了UMM中安全对齐的必要性。 |
| 2025-09-30 | DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick | null | 向量量化在深度模型中很常见,但其硬分配会阻断梯度并阻碍端到端训练。我们提出DiVeQ,它将量化视为添加一个模仿量化失真的误差向量,从而保持前向传播的硬性,同时允许梯度流动。我们还提出了一种空间填充变体(SF-DiVeQ),它分配到一个由连接码字的线构建的曲线,从而实现更小的量化误差和码本的充分利用。这两种方法都无需辅助损失或温度调度即可进行端到端训练。在各种数据集上的VQ-VAE压缩和VQGAN生成任务中,它们相较于其他量化方法改进了重建和样本质量。 |
| 2025-09-30 | Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models | null | 扩散模型能够生成高质量图像,但由于其高计算需求而面临部署挑战。尽管8比特离群值感知训练后量化 (PTQ) 能够达到与全精度相当的性能,但将PTQ扩展到4比特仍然充满挑战。4比特量化中更大的步长会放大密集、低幅度激活中的舍入误差,导致精细纹理的丢失。我们假设不仅离群值,小幅度激活也对纹理保真度至关重要。为此,我们提出了一种用于扩散模型的4比特PTQ方案,即通过残差截断和零抑制的量化 (QuaRTZ)。QuaRTZ采用8比特min-max量化处理离群值,并通过前导零抑制压缩到4比特以保留最低有效位 (LSB),从而保留纹理细节。我们的方法通过平衡离群值保留和最低有效位 (LSB) 精度,减少了舍入误差并提高了量化效率。理论推导和经验评估均表明QuaRTZ在不同激活分布下具有良好的泛化能力。值得注意的是,4比特QuaRTZ在FLUX.1-schnell上实现了6.98的FID,优于需要辅助FP16分支的SVDQuant。 |
| 2025-09-26 | Pixel Motion Diffusion is What We Need for Robot Control | null | 我们提出了DAWN (Diffusion is All We Need for robot control),这是一个统一的基于扩散的框架,用于语言条件下的机器人操作,它通过结构化的像素运动表示桥接了高级运动意图和低级机器人动作。在DAWN中,高级和低级控制器都被建模为扩散过程,从而产生了一个完全可训练的端到端系统,具有可解释的中间运动抽象。DAWN在具有挑战性的CALVIN基准测试中取得了最先进的结果,展示了强大的多任务性能,并进一步在MetaWorld上验证了其有效性。尽管模拟与现实之间存在显著的领域差距且现实世界数据有限,我们仍展示了仅需少量微调即可实现可靠的真实世界迁移,阐明了基于扩散的运动抽象在机器人控制中的实际可行性。我们的结果表明,将扩散建模与以运动为中心的表示相结合,可作为可扩展和鲁棒机器人学习的强大基线。项目页面:https://nero1342.github.io/DAWN/ |
| 2025-09-26 | RefAM: Attention Magnets for Zero-Shot Referral Segmentation | null | 目前大多数指代分割方法仅通过微调或组合多个预训练模型来实现强大性能,这通常以额外训练和架构修改为代价。同时,大规模生成扩散模型编码了丰富的语义信息,使其作为通用特征提取器具有吸引力。在这项工作中,我们引入了一种新方法,直接利用来自扩散Transformer的特征(即注意力分数)进行下游任务,既不需要架构修改也不需要额外训练。为了系统地评估这些特征,我们通过涵盖图像和视频的视觉-语言基础任务扩展了基准。我们的关键见解是停用词充当注意力磁铁:它们累积过剩注意力,并且可以通过过滤来减少噪声。此外,我们识别出在更深层出现的全局注意力汇聚点(GAS),并表明它们可以安全地被抑制或重定向到辅助词元,从而得到更清晰、更准确的基础图。我们进一步提出了一种注意力再分配策略,其中添加的停用词将背景激活划分成更小的簇,产生更清晰、更局部的热图。基于这些发现,我们开发了RefAM,一个简单的免训练基础框架,它结合了交叉注意力图、GAS处理和再分配。在零样本指代图像和视频分割基准上,我们的方法始终优于现有方法,在无需微调或额外组件的情况下建立了新的领先水平。 |
| 2025-09-26 | Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs | null | 人类能否识别AI生成(伪造)视频并提供有根据的理由?尽管视频生成模型发展迅速,但一个关键维度——即人类能否在生成的视频中检测到深度伪造痕迹(也就是揭示视频为机器生成的时空有依据的视觉伪影)——却在很大程度上被忽视了。我们引入了DeeptraceReward,这是首个细粒度、空间感知和时间感知的基准,用于标注人类感知到的伪造痕迹,以作为视频生成奖励。该数据集包含4.3K条详细标注,涵盖3.3K个高质量生成视频。每条标注都提供自然语言解释,精确指出包含感知痕迹的边界框区域,并标记精确的起始和结束时间戳。我们将这些标注整合为9个主要类别的深度伪造痕迹,这些痕迹使人类能够识别视频为AI生成,并训练多模态语言模型(LMs)作为奖励模型,以模仿人类的判断和定位。在DeeptraceReward上,我们的7B奖励模型在伪造线索识别、定位和解释方面平均比GPT-5高出34.7%。有趣的是,我们观察到一个一致的难度梯度:二元真假分类明显比细粒度深度伪造痕迹检测更容易;在后者中,性能从自然语言解释(最容易)到空间定位,再到时间标注(最难)逐渐下降。通过突出人类感知的深度伪造痕迹,DeeptraceReward为实现具有社会意识和值得信赖的视频生成提供了一个严谨的测试平台和训练信号。 |
| 2025-09-26 | Language Models Can Learn from Verbal Feedback Without Scalar Rewards | link | 大型语言模型(LLMs)通常通过人类或AI反馈进行强化学习(RL)训练,然而此类方法通常将细致的反馈压缩成标量奖励,丢弃了其大部分丰富性并导致尺度不平衡。我们提出将语言反馈视为条件信号。受文本到图像生成中语言先验的启发(这使得从未见过的提示也能生成新颖的输出),我们引入了反馈条件策略(FCP)。FCP直接从响应-反馈对中学习,通过离线数据的最大似然训练来近似反馈条件后验。我们进一步开发了一个在线自举阶段,在该阶段中,策略在积极条件下生成并接收新的反馈以完善自身。这重新定义了反馈驱动学习为条件生成而非奖励优化,为LLMs直接从语言反馈中学习提供了一种更具表达力的方式。我们的代码可在https://github.com/sail-sg/feedback-conditional-policy获取。 |
| 2025-09-26 | Scale-Wise VAR is Secretly Discrete Diffusion | null | 自回归(AR)Transformer已成为视觉生成领域的一种强大范式,这主要归因于它们的可扩展性、计算效率以及与语言和视觉统一的架构。其中,下一尺度预测视觉自回归生成(VAR)最近展现出卓越性能,甚至超越了基于扩散的模型。在这项工作中,我们重新审视了VAR,并揭示了一个理论见解:当配备马尔可夫注意力掩码时,VAR在数学上等同于离散扩散。我们将这种重新解释命名为基于离散扩散的可扩展视觉细化(SRDD),从而在AR Transformer与扩散模型之间建立了一个原则性桥梁。利用这一新视角,我们展示了如何直接引入扩散模型的优势,例如迭代细化,并减少VAR中的架构低效性,从而带来更快的收敛、更低的推理成本以及改进的零样本重建。在多个数据集上,我们表明VAR的基于扩散的视角在效率和生成方面带来了持续的提升。 |
| 2025-09-26 | Training-Free Synthetic Data Generation with Dual IP-Adapter Guidance | null | 小样本图像分类由于标注样本数量有限而仍具挑战。近期方法探索了使用文本到图像扩散模型生成合成训练数据,但通常需要大量的模型微调或外部信息源。我们提出了一种新颖的免训练方法DIPSY,它利用IP-Adapter进行图像到图像翻译,仅使用现有的小样本生成高度判别性的合成图像。DIPSY引入了三项关键创新:(1)一种扩展的无分类器引导方案,能够独立控制正向和负向图像条件;(2)一种基于类别相似度的采样策略,用于识别有效的对比样本;以及(3)一个简单而有效的流程,无需模型微调或外部字幕生成和过滤。在十个基准数据集上的实验表明,我们的方法达到了最先进或可比的性能,同时消除了对生成模型适应或对用于字幕生成和图像过滤的外部工具的依赖。我们的结果突出了利用双图像提示结合正负向引导在生成类别判别性特征方面的有效性,特别是对于细粒度分类任务。 |
| 2025-09-26 | A Theoretical Analysis of Discrete Flow Matching Generative Models | null | 我们对端到端训练的离散流匹配(DFM)生成模型提供了理论分析。DFM是一种有前景的离散生成建模框架,它通过训练神经网络来近似变换速度场,从而学习底层的生成动力学。我们的分析通过分解最终的分布估计误差,建立了一系列明确的保证。我们首先证明,生成分布与目标分布之间的全变差距离受所学速度场的风险控制。接着,我们通过分析该风险的两个主要来源来对其进行约束:(i) 近似误差,我们量化了Transformer架构表示真实速度的能力;以及 (ii) 估计误差,我们推导了统计收敛速度,以限制在有限数据集上训练所产生的误差。通过综合这些结果,我们首次提供了正式证明,表明随着训练集规模的增加,经过训练的DFM模型生成的分布可证明地收敛到真实数据分布。 |
| 2025-09-26 | LongLive: Real-time Interactive Long Video Generation | null | 我们提出了LongLive,一个帧级自回归(AR)框架,用于实时交互式长视频生成。长视频生成在效率和质量方面都面临挑战。扩散模型和强制扩散模型可以生成高质量视频,但由于双向注意力机制而效率低下。因果注意力AR模型支持KV缓存以加速推理,但由于长视频训练期间的内存挑战,在长视频上质量往往下降。此外,除了静态提示生成之外,交互能力(例如流式提示输入)对于动态内容创建至关重要,使用户能够实时引导叙事。这种交互式需求显著增加了复杂性,尤其是在确保提示转换期间的视觉一致性和语义连贯性方面。为了解决这些挑战,LongLive采用了因果的帧级AR设计,该设计集成了KV重缓存机制(该机制用新提示刷新缓存状态,以实现平滑、一致的切换)、流式长时微调(以支持长视频训练并对齐训练与推理,即“训练长,测试长”)以及短窗口注意力机制与帧级注意力槽(简称“帧槽”)相结合(在实现更快生成的同时保持长程一致性)。凭借这些关键设计,LongLive仅需32个GPU日就将一个13亿参数的短片段模型微调至分钟级视频生成。在推理时,LongLive在单个NVIDIA H100上保持20.7 FPS,并在短视频和长视频的VBench测试中都取得了优异性能。LongLive在单个H100 GPU上支持长达240秒的视频。LongLive进一步支持INT8量化推理,且仅有微小的质量损失。 |
| 2025-09-26 | Transport Based Mean Flows for Generative Modeling | null | 流匹配生成模型已成为连续数据生成的一种强大范式,在图像、3D形状和点云等领域取得了最先进的结果。尽管它们取得了成功,但这些模型由于需要大量顺序采样步骤而面临推理速度慢的问题。近期工作旨在通过减少采样步骤数量来加速推理。特别是,均值流提供了一种一步生成方法,在保持强大生成性能的同时显著提高了速度。然而,在许多连续域中,均值流未能忠实地近似原始多步流匹配过程的行为。在这项工作中,我们通过将基于最优传输的采样策略整合到均值流框架中来解决这一局限性,从而使一步生成器能够更好地保留原始多步流过程的真实性和多样性。在受控低维设置以及图像生成、图像到图像翻译和点云生成等高维任务上的实验表明,我们的方法在一步生成建模中实现了卓越的推理准确性。 |
| 2025-09-26 | EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation | null | 基于模仿学习的策略在机器人操作中表现良好,但当它们从单一自我中心视角训练时,在自我中心视角偏移下性能通常会下降。为解决此问题,我们提出了EgoDemoGen,这是一个通过在新自我中心帧中重定向动作并使用我们提出的生成式视频修复模型EgoViewTransfer合成相应自我中心观察视频来生成成对新自我中心视演示的框架,该模型以新视角重投影的场景视频和从重定向关节动作渲染的仅包含机器人的视频为条件。EgoViewTransfer使用自监督双重重投影策略从预训练的视频生成模型进行微调。我们在仿真(RoboTwin2.0)和真实世界机器人上评估了EgoDemoGen。在使用EgoDemoGen生成的新自我中心视演示和原始标准自我中心视演示的混合数据进行训练后,策略成功率在标准自我中心视角下绝对提高了+17.0%,并在仿真中,在新自我中心视角下绝对提高了+17.7%。在真实世界机器人上,绝对改进分别为+18.3%和+25.8%。此外,随着EgoDemoGen生成演示比例的增加,性能持续提升,但回报递减。这些结果表明EgoDemoGen为实现对自我中心视角鲁棒的机器人操作提供了一条实用的途径。 |
| 2025-09-25 | SD3.5-Flash: Distribution-Guided Distillation of Generative Flows | null | 我们提出了SD3.5-Flash,这是一个高效的少步蒸馏框架,将高质量图像生成普及到消费级设备。我们的方法通过专门针对少步生成重新设计的分布匹配目标,蒸馏了计算成本高昂的修正流模型。我们引入了两项关键创新:“时间步共享”以减少梯度噪声,以及“分步时间步微调”以提高提示对齐。结合文本编码器重构和专用量化等全面的流水线优化,我们的系统实现了跨不同硬件配置的快速生成和内存高效部署。这使得从手机到台式电脑等全系列设备都能普及访问。通过包括大规模用户研究在内的广泛评估,我们证明SD3.5-Flash始终优于现有少步方法,使先进的生成式AI真正可用于实际部署。 |
| 2025-09-25 | NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics | null | 当今大规模文本到视频生成的主要瓶颈是物理一致性和可控性。尽管近期取得了进展,但最先进的模型通常会产生不真实的运动,例如物体向上坠落,或速度和方向的突然变化。此外,这些模型缺乏精确的参数控制,难以在不同的初始条件下生成物理一致的动力学。我们认为,这一根本性局限源于当前模型仅从外观学习运动分布,而缺乏对底层动力学的理解。在这项工作中,我们提出了NewtonGen,一个将数据驱动合成与可学习物理原理相结合的框架。其核心是可训练的神经牛顿动力学(NND),它能够建模和预测多种牛顿运动,从而将潜在的动力学约束注入视频生成过程。通过联合利用数据先验和动力学指导,NewtonGen能够实现具有精确参数控制的物理一致视频合成。 |
| 2025-09-25 | Taxonomy-aware Dynamic Motion Generation on Hyperbolic Manifolds | null | 机器人的人形动作生成通常借鉴生物力学研究,这些研究常将复杂的人体动作归类到层级分类体系中。尽管这些分类法提供了关于动作之间如何相互关联的丰富结构信息,但这种信息在动作生成模型中经常被忽视,导致生成的动作与其底层层级结构之间存在脱节。本文介绍了GPHDM,这是一种新颖的方法,它学习潜在表示,同时保留动作的层级结构和时间动态性,以确保物理一致性。我们的模型通过将高斯过程动力学模型(GPDM)的动力学先验扩展到双曲流形,并将其与分类法感知的归纳偏置相结合来实现这一点。基于这种几何和分类法感知框架,我们提出了三种新颖的机制,用于生成既具有分类结构又物理一致的动作:两种概率递归方法和一种基于回拉度量测地线的方法。在手抓取分类法上生成逼真动作序列的实验表明,所提出的GPHDM忠实地编码了底层分类法和时间动态性,并生成了新颖的物理一致轨迹。 |
| 2025-09-25 | Does FLUX Already Know How to Perform Physically Plausible Image Composition? | null | 图像合成旨在将用户指定对象无缝插入新场景,但现有模型难以处理复杂光照(例如,精确阴影、水面反射)以及多样化、高分辨率的输入。现代文本到图像扩散模型(例如,SD3.5、FLUX)已编码基本的物理和分辨率先验知识,但缺乏一个框架来释放它们,而无需诉诸于潜在空间反演(这常将物体姿态锁定在上下文不合适的方向上)或脆弱的注意力操作。我们提出了SHINE,一个用于消除误差的无缝高保真插入的免训练框架。SHINE引入了流形引导锚点损失,利用预训练定制适配器(例如,IP-Adapter)来引导潜在表示,以实现忠实的主体表示,同时保持背景完整性。我们还提出了降级抑制引导和自适应背景融合,以进一步消除低质量输出和可见接缝。为解决缺乏严格基准的问题,我们引入了ComplexCompo,它具有多样化的分辨率和挑战性条件,例如低光照、强光照、复杂阴影和反射表面。在ComplexCompo和DreamEditBench上的实验表明,SHINE在标准度量(例如,DINOv2)和与人类感知一致的分数(例如,DreamSim、ImageReward、VisionReward)上均表现出最先进的性能。代码和基准将在发布时公开可用。 |
| 2025-09-25 | Un-Doubling Diffusion: LLM-guided Disambiguation of Homonym Duplication | link | 同形异义词是指拼写相同但意义不同的词语,它们对许多生成模型构成了挑战。当提示中出现同形异义词时,扩散模型可能会同时生成该词的多种含义,这被称为同形异义词重复问题。这个问题因盎格鲁中心偏见而进一步复杂化,这种偏见在文本到图像模型流程之前包含一个额外的翻译步骤。结果是,即使在原始语言中并非同形异义词的词语,在翻译成英语后也可能变成同形异义词并失去其原义。在本文中,我们介绍了一种衡量重复率的方法,并使用基于视觉-语言模型(VLM)的自动评估和人工评估两种方式,对不同的扩散模型进行了评估。此外,我们研究了通过提示扩展来缓解同形异义词重复问题的方法,证明了这种方法也能有效减少与盎格鲁中心偏见相关的重复。自动评估流程的代码已公开可用。 |
| 2025-09-25 | Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation | null | 在语言模型和视觉-语言模型中,幻觉被广义地理解为模型基于其先验知识或偏见而非给定输入生成的内容。尽管这种现象已在这些领域得到研究,但尚未为文本到图像(T2I)生成模型明确界定。现有评估主要关注对齐性,检查提示中指定的元素是否出现,但忽视了模型在提示之外生成的内容。我们主张将T2I中的幻觉定义为偏见驱动的偏差,并提出了一个包含三类别的分类法:属性幻觉、关系幻觉和对象幻觉。这种界定方式为评估引入了上限并揭示了隐藏的偏见,为T2I模型更丰富的评估提供了基础。 |
| 2025-09-25 | Federated Flow Matching | link | 当今数据是去中心化的,在各种设备和机构中生成和存储,而隐私、所有权和法规阻碍了数据的集中化。这促使了对无需中央聚合,直接从本地分布式数据中训练生成模型的需求。在本文中,我们介绍了联邦流匹配 (FFM),一个在隐私约束下训练流匹配模型的框架。具体来说,我们首先研究了FFM-vanilla,其中每个客户端使用独立的源和目标耦合在本地训练,保持了隐私但产生了弯曲的流,这减慢了推理速度。接着我们开发了FFM-LOT,它采用局部最优传输耦合以改善每个客户端内的流的直度,但在异构数据下缺乏全局一致性。最后,我们提出了FFM-GOT,一种基于最优传输半对偶公式的联邦策略,其中一个共享的全局势函数协调了跨客户端的耦合。在合成数据集和图像数据集上的实验表明,FFM 实现了隐私保护的训练,同时在联邦设置中提高了流的直度和样本质量,性能可与集中式基线相媲美。 |
| 2025-09-25 | Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets | link | 原生3D生成模型的最新进展加速了游戏、电影和设计领域的资产创建。然而,大多数方法仍然主要依赖于图像或文本条件,并且缺乏细粒度的跨模态控制,这限制了其可控性和实际应用。为了弥补这一空白,我们提出了Hunyuan3D-Omni,一个基于Hunyuan3D 2.1构建的、用于细粒度可控3D资产生成的统一框架。除了图像,Hunyuan3D-Omni还接受点云、体素、边界框和骨骼姿态先验作为条件信号,从而实现了对几何、拓扑和姿态的精确控制。与为每个模态设置独立头部不同,我们的模型在一个单一的跨模态架构中统一了所有信号。我们采用一种渐进式、难度感知采样策略进行训练,该策略在每个样本中选择一种控制模态,并偏向于更难的信号(例如骨骼姿态)采样,同时降低较容易信号(例如点云)的权重,这促进了鲁棒的多模态融合以及对缺失输入的优雅处理。实验表明,这些额外的控制提高了生成精度,实现了几何感知变换,并增强了生产工作流程的鲁棒性。 |
| 2025-09-25 | Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation | null | 文本到图像生成已取得快速进展,但评估输出是否真正捕捉到提示中描述的对象、属性和关系仍然是一个核心挑战。这一领域的评估严重依赖自动化指标,然而这些指标通常是出于惯例或流行度而被采用,而非经过人类判断的验证。由于该领域的评估和报告的进展直接依赖于这些指标,了解它们在多大程度上反映了人类偏好至关重要。为了解决这个问题,我们对广泛用于组合式文本-图像评估的指标进行了一项广泛研究。我们的分析超越了简单的相关性,考察了它们在各种组合挑战中的表现,并比较了不同指标家族与人类判断的一致性。结果表明,没有单一指标在所有任务中表现一致:性能随组合问题的类型而变化。值得注意的是,基于VQA的指标尽管流行,但并非普遍优越,而某些基于嵌入的指标在特定情况下表现更强。正如预期,仅基于图像的指标对组合式评估贡献甚微,因为它们是为感知质量而非对齐而设计的。这些发现强调了仔细和透明地选择指标的重要性,既为了可信赖的评估,也为了将它们用作生成中的奖励模型。项目页面可在该网址获取:\href{https://amirkasaei.com/eval-the-evals/}{this URL}。 |
| 2025-09-25 | MeanSE: Efficient Generative Speech Enhancement with Mean Flows | null | 语音增强(SE)改善了降质语音的质量,其中流匹配等生成模型因其卓越的感知质量而受到关注。然而,基于流的模型需要多次函数评估(NFEs)才能实现稳定和令人满意的性能,导致计算负载高且单次函数评估(1-NFE)性能较差。在本文中,我们提出了 MeanSE,一种使用均值流的高效生成式语音增强模型,它对平均速度场进行建模,以实现高质量的单次函数评估(1-NFE)增强。实验结果表明,我们提出的 MeanSE 在单次函数评估(NFE)下显著优于流匹配基线,展现出极佳的域外泛化能力。 |
| 2025-09-23 | CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching | null | 条件生成建模旨在从包含数据-条件对的样本中学习条件数据分布。为此,扩散和基于流的方法已取得引人注目的结果。这些方法使用学习到的(流)模型将忽略条件的初始标准高斯噪声传输到条件数据分布。因此,模型需要学习质量传输和条件注入。为了减轻模型的需求,我们提出了流匹配的条件感知重参数化(CAR-Flow)——一种轻量级的、学习到的偏移,其对源分布、目标分布或两者进行条件化。通过重新定位这些分布,CAR-Flow缩短了模型必须学习的概率路径,从而在实践中实现更快的训练。在低维合成数据上,我们可视化并量化了CAR的效果。在更高维度的自然图像数据(ImageNet-256)上,为SiT-XL/2配备CAR-Flow将FID从2.07降低到1.68,同时引入不到0.6%的额外参数。 |
| 2025-09-23 | Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation | link | 生成虚拟环境的能力对于从游戏到机器人学、自动驾驶和工业AI等物理AI领域的应用至关重要。当前基于学习的3D重建方法依赖于捕获的真实世界多视角数据,而这些数据并非总是容易获得。视频扩散模型在最近的进展展示了卓越的想象能力,然而它们的2D本质限制了应用,仅限于机器人需要在环境中导航和交互的仿真场景。在本文中,我们提出了一种自蒸馏框架,旨在将视频扩散模型中的隐式3D知识蒸馏到显式3D高斯溅射(3DGS)表示中,从而消除了对多视角训练数据的需求。具体来说,我们用一个3DGS解码器增强了典型的RGB解码器,该解码器由RGB解码器的输出进行监督。在这种方法中,3DGS解码器可以纯粹地用视频扩散模型生成的合成数据进行训练。在推理时,我们的模型可以从文本提示或单张图像合成3D场景,用于实时渲染。我们的框架进一步扩展到从单目输入视频生成动态3D场景。实验结果表明,我们的框架在静态和动态3D场景生成中取得了最先进的性能。 |
| 2025-09-23 | OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps | null | 尽管布局到图像生成取得了稳步进展,但当前方法在处理包含显著边界框重叠的布局时仍然面临挑战。我们确定了两个主要挑战:(1) 大面积重叠区域和 (2) 语义区分度极小的重叠实例。通过定性示例和定量分析,我们证明了这些因素如何降低生成质量。为了系统地评估这个问题,我们引入了 OverLayScore,一个量化重叠边界框复杂性的新颖度量指标。我们的分析表明,现有基准偏向于 OverLayScore 值较低的简单案例,从而限制了它们在更具挑战性条件下评估模型性能的有效性。为了弥补这一差距,我们提出了 OverLayBench,一个具有高质量标注并在不同 OverLayScore 水平上呈现平衡分布的新基准。作为改进复杂重叠性能的初步步骤,我们还提出了 CreatiLayout-AM,一个在精选的非模态掩码数据集上微调的模型。综合来看,我们的贡献为在真实和具有挑战性的场景下实现更鲁棒的布局到图像生成奠定了基础。项目链接:https://mlpc-ucsd.github.io/OverLayBench。 |
| 2025-09-23 | A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models | null | 求解病态逆问题需要强大而灵活的先验。我们提出通过一种名为扩散正则化 Wasserstein 梯度流 (DWGF) 的新型免训练方法,利用预训练的潜在扩散模型来完成此任务。具体而言,我们将后验采样问题表述为潜在空间中 Kullback-Leibler 散度的正则化 Wasserstein 梯度流。我们使用 StableDiffusion (Rombach et al., 2022) 作为先验,在标准基准测试上展示了我们方法的性能。 |
| 2025-09-23 | Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps | null | 连续人体运动理解因其高维度和固有的冗余性,在计算机视觉领域仍然是一个核心挑战。高效的压缩和表示对于分析复杂运动动态至关重要。在这项工作中,我们引入了一个对抗性精炼的VQ-GAN框架,该框架采用密集运动标记化技术来压缩时空热图,同时保留人体运动的细粒度轨迹。我们的方法结合了密集运动标记化与对抗性精炼,消除了非对抗性基线中观察到的重建伪影,例如运动拖影和时间错位。我们在CMU Panoptic数据集上的实验提供了我们方法优越性的确凿证据,其SSIM指标优于dVAE基线9.31%,并降低了37.1%的时间不稳定性。此外,我们的密集标记化策略实现了一种新颖的运动复杂性分析,揭示了2D运动可以用紧凑的128个标记词汇表进行最佳表示,而3D运动的复杂性则需要一个大得多的1024个标记码本才能实现忠实重建。这些结果确立了该方法在各种运动分析应用中的实际部署可行性。本工作的代码库可在https://github.com/TeCSAR-UNCC/Pose-Quantization获取。 |
| 2025-09-23 | Lavida-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation | null | 我们提出了Lavida-O,一个统一的多模态掩码扩散模型(MDM),能够执行图像理解和生成任务。与现有仅支持简单图像级理解任务和低分辨率图像生成的多模态扩散语言模型(如MMaDa和Muddit)不同,Lavida-O展现了许多新能力,例如目标定位、图像编辑和高分辨率(1024像素)图像合成。它也是第一个利用其理解能力,通过规划和迭代自反思来改进图像生成和编辑结果的统一MDM。为了实现有效和高效的训练和采样,Lavida-O引入了许多新颖技术,例如弹性混合Transformer架构、通用文本条件化和分层采样。我们在RefCOCO目标定位、GenEval文本到图像生成和ImgEdit图像编辑等广泛基准测试中取得了最先进的性能,优于现有的自回归和连续扩散模型(如Qwen2.5-VL和FluxKontext-dev),同时在推理时提供了显著的加速。 |
| 2025-09-23 | Enabling Plant Phenotyping in Weedy Environments using Multi-Modal Imagery via Synthetic and Generated Training Data | null | 在热成像中进行精确的植物分割仍然是高通量田间表型分析面临的重大挑战,尤其是在室外环境中,植物与杂草之间对比度低以及频繁的遮挡阻碍了性能。为此,我们提出了一个框架,该框架利用合成RGB图像、有限的真实标注集以及基于GAN的跨模态对齐来增强热图像中的语义分割。我们使用1,128张包含作物和杂草植物复杂混合的合成图像训练了模型,以生成作物和杂草植物的图像分割掩膜。我们还评估了在训练过程中使用不同采样策略整合少至五张真实、手动分割的田间图像所带来的益处。当将所有合成图像与少量标注的真实图像结合时,与完整的真实数据基线相比,我们观察到杂草类别最大相对改进为22%,植物类别为17%。通过使用CycleGAN-turbo将RGB图像转换为热图像实现了跨模态对齐,从而实现了无需校准的鲁棒模板匹配。结果表明,将合成数据与有限的手动标注以及通过生成模型进行的跨域转换相结合,可以显著提升复杂田间环境中多模态图像的分割性能。 |
| 2025-09-23 | GSTM-HMU: Generative Spatio-Temporal Modeling for Human Mobility Understanding | null | 人类出行轨迹,通常记录为签到序列,为短期访问模式和持久生活规律提供了独特的视角。在这项工作中,我们引入了GSTM-HMU,一个生成式时空框架,旨在通过明确建模人类运动的语义和时间复杂性来推进出行分析。该框架包含四项关键创新。首先,时空概念编码器(STCE)将地理位置、POI类别语义和周期性时间节奏整合到统一的向量表示中。其次,认知轨迹记忆(CTM)自适应地过滤历史访问,强调近期和行为显著的事件,以更有效地捕捉用户意图。第三,生活方式概念库(LCB)贡献了结构化的人类偏好线索,例如活动类型和生活模式,以增强可解释性和个性化。最后,面向任务的生成头将学习到的表示转化为多个下游任务的预测。我们在Gowalla、WeePlace、Brightkite和FourSquare等四个广泛使用的真实世界数据集上进行了广泛实验,并在三个基准任务上评估了性能:下一位置预测、轨迹-用户识别和时间估计。结果表明,与强大的基线相比,性能有持续且显著的提升,证实了GSTM-HMU在从复杂出行数据中提取语义规律的有效性。除了原始性能提升外,我们的发现还表明生成式建模为构建更鲁棒、可解释和可推广的人类出行智能系统提供了有前景的基础。 |
| 2025-09-23 | World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation | null | 机器人操作策略通常通过模仿学习进行初始化,但其性能受限于专家数据的稀缺性和覆盖范围狭窄。强化学习能够改进策略以缓解这一局限,然而真实机器人训练成本高昂且不安全,而在模拟器中训练则存在从模拟到真实世界的鸿沟。生成模型在近期取得的进展在真实世界模拟中展现出卓越的能力,扩散模型尤其擅长生成。这引出了一个问题:如何结合基于扩散模型的世界模型来增强机器人操作中的预训练策略。在这项工作中,我们提出了World4RL,一个利用基于扩散的世界模型作为高保真模拟器,完全在想象环境中改进机器人操作预训练策略的框架。与以往主要利用世界模型进行规划的工作不同,我们的框架实现了直接的端到端策略优化。World4RL围绕两个原则设计:预训练一个能够在多任务数据集中捕获多样化动力学的扩散世界模型,以及完全在一个冻结的世界模型中改进策略以避免在线的真实世界交互。我们进一步设计了一种针对机器人操作的two-hot动作编码方案,并采用扩散骨干网络以提高建模保真度。大量的模拟和真实世界实验表明,World4RL提供了高保真环境建模并实现了持续的策略改进,取得了比模仿学习和其他基线方法显著更高的成功率。更多可视化结果可在https://world4rl.github.io/获取。 |
| 2025-09-23 | WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Reconstruction | null | 3D高斯泼溅 (3DGS) 已成为一种强大的基于图像的对象重建表示方法,但在稀疏视角设置下其性能急剧下降。先前工作通过采用扩散模型修复受损渲染来解决这一局限性,随后将其用作后续优化的伪真值。尽管有效,此类方法在扩散模型微调和修复步骤中带来了巨大的计算开销。我们提出了WaveletGaussian,一个用于更高效稀疏视角3D高斯对象重建的框架。我们的核心思想是将扩散转移到小波域:扩散仅应用于低分辨率LL子带,而高频子带通过轻量级网络进行精炼。我们进一步提出了一种高效的在线随机掩码策略来构建扩散模型微调的训练对,取代了常用的但效率低下的留一法策略。在Mip-NeRF 360和OmniObject3D这两个基准数据集上的实验表明,WaveletGaussian在实现具有竞争力的渲染质量的同时,大幅缩短了训练时间。 |
| 2025-09-19 | MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer | null | 能够理解和生成视觉内容的统一多模态大语言模型(LLM)具有巨大的潜力。然而,现有的开源模型往往在这些能力之间面临性能权衡。我们提出了Manzano,一个简单且可扩展的统一框架,通过结合混合图像分词器和精心设计的训练方案,显著缓解了这种矛盾。一个单一的共享视觉编码器驱动两个轻量级适配器,在共同的语义空间内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散token。一个统一的自回归LLM以文本和图像token的形式预测高层次语义,随后一个辅助扩散解码器将图像token转换为像素。该架构,结合涵盖理解和生成数据的统一训练方案,实现了这两种能力的可扩展联合学习。Manzano在统一模型中取得了最先进的结果,并与专业模型具有竞争力,尤其是在富文本评估方面。我们的研究表明,任务冲突极小,并且随着模型规模的扩大能持续获得性能提升,从而验证了我们选择混合分词器的设计决策。 |
| 2025-09-19 | Quantum Generative Adversarial Autoencoders: Learning latent representations for quantum data generation | null | 本工作中,我们引入了量子生成对抗自编码器 (QGAA),这是一种用于生成量子数据的量子模型。QGAA 由两个组成部分构成:(a) 用于压缩量子态的量子自编码器 (QAE),以及 (b) 用于学习已训练 QAE 潜在空间的量子生成对抗网络 (QGAN)。这种方法赋予 QAE 生成能力。QGAA 的效用在两个代表性场景中得到证明:(a) 纯纠缠态的生成,以及 (b) H $_2$ 和 LiH 的参数化分子基态的生成。在多达 6 量子比特的模拟中,经训练的 QGAA 估计的能量平均误差对于 H$_2$ 为 0.02 Ha,对于 LiH 为 0.06 Ha。这些结果表明了 QGAA 在量子态生成、量子化学和近期量子机器学习应用方面的潜力。 |
| 2025-09-19 | AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models | null | 文生图(T2I)模型近期在根据文本描述生成图像方面取得了显著成功。然而,在准确渲染以动作和交互为主要语义焦点的复杂场景时,挑战依然存在。本文的关键观察是,T2I模型经常难以捕捉动作描绘中固有的微妙且通常隐含的属性,导致生成的图像缺乏关键的上下文细节。为了实现系统性评估,我们引入了AcT2I,这是一个旨在评估T2I模型在根据以动作为中心的提示生成图像方面的性能的基准。我们通过实验验证,主流T2I模型在AcT2I上表现不佳。我们进一步假设这一缺点源于现有T2I模型训练语料库中固有属性和上下文依赖的表示不完整。我们在此基础上开发了一种无需训练的知识蒸馏技术,利用大型语言模型来解决这一局限性。具体而言,我们通过整合三个维度上的密集信息来增强提示,观察到向提示注入时间细节显著提高了图像生成准确性,我们的最佳模型实现了72%的增长。我们的发现突出了当前T2I方法在生成需要复杂推理的图像方面的局限性,并证明以系统方式整合语言知识可以显著促进细致入微且上下文准确的图像生成。 |
| 2025-09-19 | Dynamic Classifier-Free Diffusion Guidance via Online Feedback | null | 无分类器引导 (CFG) 是文生图扩散模型的基石,然而其有效性受限于静态引导尺度的使用。这种“一刀切”的方法未能适应不同提示词的多样化需求;此外,先前诸如基于梯度的校正或固定启发式调度等解决方案引入了额外复杂性且难以泛化。在这项工作中,我们通过引入一个用于动态CFG调度的框架来挑战这种静态范式。我们的方法利用来自一系列通用和专用的小规模潜在空间评估(例如,用于对齐的CLIP、用于保真度的判别器以及人类偏好奖励模型)的在线反馈,以在逆向扩散过程的每一步评估生成质量。基于此反馈,我们执行贪婪搜索以选择每个时间步的最佳CFG尺度,从而为每个提示词和样本创建独特的量身定制的引导调度。我们在小规模模型和最先进的Imagen 3上证明了我们方法的有效性,显示出在文本对齐、视觉质量、文本渲染和数值推理方面取得了显著改进。值得注意的是,与默认的Imagen 3基线相比,我们的方法在整体偏好方面实现了高达53.8%的人类偏好胜率,在针对文本渲染等特定能力的提示词上,这一数字增加到55.5%。我们的工作确立了最佳引导调度本质上是动态且依赖于提示词的,并提供了一个高效且可泛化的框架来实现它。 |
| 2025-09-19 | DiffusionNFT: Online Diffusion Reinforcement with Forward Process | null | 在线强化学习 (RL) 对语言模型的后训练至关重要,但由于难以处理的似然,其在扩散模型上的扩展仍然充满挑战。最近的工作离散化了逆向采样过程以实现GRPO风格的训练,然而它们却继承了根本性的缺点,包括求解器限制、前向-逆向不一致性以及与无分类器指导 (CFG) 的复杂集成。我们引入了扩散负样本感知微调 (DiffusionNFT),这是一种新的在线强化学习范式,它通过流匹配直接在前向过程中优化扩散模型。DiffusionNFT对比正负生成来定义一个隐式的策略改进方向,自然地将强化信号融入监督学习目标中。这种公式化方法使得能够使用任意黑盒求解器进行训练,消除了似然估计的需要,并且只需要干净图像而非采样轨迹来进行策略优化。在直接对比中,DiffusionNFT比FlowGRPO效率提升高达25倍,同时无需CFG。例如,DiffusionNFT在1k步内将GenEval分数从0.24提高到0.98,而FlowGRPO在超过5k步和额外CFG使用下达到0.95。通过利用多个奖励模型,DiffusionNFT显著提升了SD3.5-Medium在所有测试的基准中的性能。 |
| 2025-09-19 | PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems | null | 扩散模型现已普遍用于解决计算成像中的逆问题。然而,大多数基于扩散的逆求解器需要完全了解前向算子才能使用。在这项工作中,我们引入了一种新颖的、带有测量条件扩散先验(PRISM)的概率且鲁棒的逆求解器,以有效解决盲逆问题。相较于现有方法,PRISM通过将强大的测量条件扩散模型整合到理论上严谨的后验采样方案中,提供了一项技术进步。在盲图像去模糊上的实验验证了所提出方法的有效性,证明了PRISM在图像和模糊核恢复方面均优于最先进的基线方法。 |
| 2025-09-19 | Blind-Spot Guided Diffusion for Self-supervised Real-World Denoising | null | 本文提出盲点引导扩散(Blind-Spot Guided Diffusion),一种用于真实世界图像去噪的新颖自监督框架。我们的方法解决了两个主要挑战:一是盲点网络(BSN)的局限性,这类网络由于空间独立性假设,常牺牲局部细节并引入像素不连续性;二是将扩散模型应用于自监督去噪的困难。我们提出了一种双分支扩散框架,它结合了一个基于BSN的扩散分支(用于生成半干净图像)和一个捕获底层噪声分布的传统扩散分支。为了在没有配对数据的情况下实现有效训练,我们利用基于BSN的分支来引导采样过程,在捕获噪声结构的同时保留局部细节。在SIDD和DND数据集上进行的广泛实验证明了最先进的性能,确立了我们的方法作为一种高效的真实世界去噪自监督解决方案。代码和预训练模型已发布于:https://github.com/Sumching/BSGD。 |
| 2025-09-19 | Randomized Smoothing Meets Vision-Language Models | null | 随机平滑(RS)是确保机器学习模型正确性的突出技术之一,通过它可以解析推导出逐点鲁棒性认证。尽管RS在分类领域已得到充分理解,但其在生成模型中的应用尚不明确,因为生成模型的输出是序列而非标签。我们通过将生成输出与一个预言机分类任务联系起来解决了这个问题,并表明RS仍然可以启用:最终响应可以被分类为离散动作(例如,视觉语言行动模型VLAs中的服务机器人指令),或分类为有害与无害(视觉语言模型VLMs中的内容审核或有害信息检测),甚至可以应用预言机将答案聚类为语义等价的类别。假设预言机分类器比较的错误率有界,我们发展了将样本数量与相应鲁棒性半径关联起来的理论。我们进一步解析推导了改进的缩放定律,将认证半径和准确性与样本数量关联起来,表明早期结果,即减少2到3个数量级的样本量即可满足要求且损失最小,在更弱的假设下仍然有效。总之,这些进展使鲁棒性认证对于最先进的视觉语言模型VLMs既有明确定义又在计算上可行,这一点已通过针对最近的越狱式对抗性攻击的验证得到证实。 |
| 2025-09-19 | Rethinking Molecule Synthesizability with Chain-of-Reaction | null | 分子生成模型的一个众所周知的缺陷是它们不能保证生成可合成的分子。为解决此问题已进行了大量尝试,但考虑到可合成分子指数级大的组合空间,现有方法在空间覆盖方面表现出局限性,并且分子优化性能不佳。为解决这些问题,我们引入了ReaSyn,这是一个用于可合成投影的生成框架,模型通过生成合成路径来探索给定分子在可合成空间中的邻域,从而得到可合成类似物。为了充分利用合成路径中包含的化学知识,我们提出了一种新颖的视角,将合成路径视为大型语言模型 (LLM) 中的推理路径。具体而言,受LLM中思维链 (CoT) 推理的启发,我们引入了反应链 (CoR) 表示法,该表示法明确说明了路径中每一步的反应物、反应类型和中间产物。借助CoR表示法,ReaSyn可以在每个反应步骤中获得密集监督,从而在监督训练期间明确学习化学反应规则并执行逐步推理。此外,为了进一步增强ReaSyn的推理能力,我们提出了基于强化学习 (RL) 的微调以及专为可合成投影定制的目标导向的测试时计算扩展。ReaSyn在可合成分子重建中实现了最高的重建率和路径多样性,在可合成目标导向分子优化中实现了最高的优化性能,并在可合成命中扩展方面显著优于先前的可合成投影方法。这些结果突显了ReaSyn在组合规模庞大的可合成化学空间中导航的卓越能力。 |
| 2025-09-19 | Generating Detailed Character Motion from Blocking Poses | null | 我们专注于使用生成扩散模型解决运动细节化任务:将以稀疏的、姿态粗糙且时间不精确的阻挡姿态表示的角色动画粗略版本,转换为细节丰富、自然逼真的角色动画。当前的扩散模型可以解决校正时间不精确姿态的时间问题,但我们发现,目前尚无好的解决方案可以利用扩散先验来为稀疏的阻挡姿态集增加额外的姿态细节。我们通过一个简单的推理时技巧克服了这一挑战。在特定的扩散步骤中,我们使用每个阻挡姿态的容差权重,将无条件扩散模型的输出与输入的阻挡姿态约束进行融合,并将此结果作为输入条件传递给一个预先存在的运动重定时模型。我们发现,这种方法显著优于现有尝试通过融合模型输出或将阻挡姿态约束表示为引导来添加细节的方法。结果是首个能够鲁棒地将阻挡级别姿态转换为合理细节化角色动画的扩散模型。 |
| 2025-09-18 | Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model | null | 为了从标定图像重建三维几何,基于学习的多视图立体(MVS)方法通常执行多视图深度估计,然后将深度图融合为网格或点云。为了提高计算效率,许多方法会初始化一个粗糙深度图,然后逐步以更高分辨率对其进行细化。最近,扩散模型在生成任务中取得了巨大成功。扩散模型从随机噪声开始,通过迭代去噪过程逐步恢复样本。在本文中,我们提出了一种新颖的MVS框架,将扩散模型引入MVS。具体来说,我们将深度细化公式化为一个条件扩散过程。考虑到深度估计的判别性特征,我们设计了一个条件编码器来指导扩散过程。为了提高效率,我们提出了一种结合轻量级2D U-Net和卷积GRU的新颖扩散网络。此外,我们提出了一种新颖的基于置信度的采样策略,以根据扩散模型估计的置信度自适应地采样深度假设。基于我们新颖的MVS框架,我们提出了两种新颖的MVS方法:DiffMVS和CasDiffMVS。DiffMVS在运行时间和GPU内存方面达到了最先进的效率,并取得了有竞争力的性能。CasDiffMVS在DTU、Tanks & Temples和ETH3D数据集上实现了最先进的性能。代码可在以下网址获取:https://github.com/cvg/diffmvs。 |
| 2025-09-18 | RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation | link | 本文提出了RynnVLA-001,一个基于人类演示的大规模视频生成式预训练构建的视觉-语言-动作(VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段,即以自我为中心的视频生成式预训练,利用1200万个以自我为中心的操作视频训练一个图像到视频模型,以初始帧和语言指令为条件预测未来帧。第二阶段,即以人为中心的轨迹感知建模,通过联合预测未来的关键点轨迹来扩展此方法,从而有效地弥合了视觉帧预测与动作预测之间的鸿沟。此外,为了增强动作表示,我们提出了ActionVAE,这是一个变分自编码器,它将动作序列压缩成紧凑的潜在嵌入,从而降低了VLA输出空间的复杂性。在相同的下游机器人数据集上进行微调时,RynnVLA-001取得了优于最先进基线方法的卓越性能,证明了所提出的预训练策略为VLA模型提供了更有效的初始化。 |
| 2025-09-18 | Fair-GPTQ: Bias-Aware Quantization for Large Language Models | null | 大型生成语言模型的高内存需求使得量化技术备受关注,该技术通过将模型权重映射到低精度整数来降低计算成本、内存使用和延迟。GPTQ等方法能有效最小化量化过程中的输入-权重乘积误差;然而,最近的实证研究表明,它们可能增加有偏输出并降低公平性基准测试上的性能,目前尚不清楚是哪些特定权重导致了这个问题。在这项工作中,我们通过在量化目标中添加明确的群体公平性约束,在量化与模型公平性之间建立了新的联系,并引入了Fair-GPTQ,这是第一个明确设计用于减少大型语言模型中不公平性的量化方法。所添加的约束指导舍入操作的学习,以实现对受保护群体偏见更少的文本生成。具体来说,我们关注涉及职业偏见的刻板印象生成以及跨越性别、种族和宗教的歧视性语言。Fair-GPTQ对性能影响极小,在零样本基准测试上至少能保持90%的基线准确率,相对于半精度模型减少了不公平性,并保留了4比特量化的内存和速度优势。我们还将Fair-GPTQ的性能与现有去偏方法进行了比较,发现在种族刻板印象基准测试上,其性能与迭代零空间投影去偏方法相当。总的来说,这些结果验证了我们针对带有群体偏置项的量化问题的理论解决方案,突出了其在生成模型量化时减少群体偏置的适用性,并表明我们的方法还可以进一步用于分析量化过程中通道和权重层面对公平性的贡献。 |
| 2025-09-18 | Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning | null | 自回归(AR)语言模型逐个token生成文本,这限制了它们的推理速度。基于扩散的语言模型提供了一种有前景的替代方案,因为它们可以并行解码多个token。然而,我们发现了当前扩散语言模型中的一个关键瓶颈:长解码窗口问题,即远离输入上下文生成的token经常变得不相关或重复。像半自回归这样的先前解决方案通过将窗口分成块来解决这个问题,但这牺牲了速度和双向性,从而消除了扩散模型的主要优势。为了克服这个问题,我们提出了卷积解码(Conv),这是一种基于归一化的方法,它在不进行硬性分段的情况下缩小了解码窗口,从而带来了更好的流畅性和灵活性。此外,我们引入了基于拒绝规则的微调(R2FT),这是一种事后训练方案,可以更好地对齐远离上下文位置的token。我们的方法在开放式生成基准测试(例如,AlpacaEval)中,在扩散语言模型基线中取得了最先进的结果,且步长显著低于先前工作,证明了速度和质量的双重提升。 |
| 2025-09-18 | Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation | null | 近期研究证明了高质量视觉表征在图像生成中的重要性,并突出了生成模型在图像理解方面的局限性。作为一种最初为自然语言设计的生成范式,自回归模型也面临着类似的挑战。在这项工作中,我们首次系统地研究了将下一个token预测范式应用于视觉领域的机制。我们确定了三个阻碍高层视觉语义学习的关键特性:局部和条件依赖性、步间语义不一致性以及空间不变性不足。我们表明,通过在训练过程中引入自监督目标,这些问题可以得到有效解决,从而形成了一种新颖的训练框架:自回归模型自引导训练(ST-AR)。ST-AR无需依赖预训练表征模型,显著增强了自回归模型的图像理解能力,并提升了生成质量。具体而言,ST-AR在LlamaGen-L上实现了约42%的FID提升,在LlamaGen-XL上实现了49%的FID提升,同时保持了相同的采样策略。 |
| 2025-09-18 | A Race Bias Free Face Aging Model for Reliable Kinship Verification | link | 亲属关系验证中的年龄差距问题是指父母和子女照片之间的时间差。此外,他们的同龄照片通常难以获得,且人脸老化模型存在种族偏见,这会影响照片的逼真度。因此,我们提出了一种人脸老化GAN模型RA-GAN,它由两个新模块RACEpSp和特征混合器组成,旨在生成无种族偏见的图像。这些无偏见的合成照片被用于亲属关系验证,以研究验证同龄父母-子女图像的效果。实验表明,在种族准确性方面,我们的RA-GAN在所有年龄组中平均优于SAM-GAN 13.14%,并在60岁以上年龄组中优于CUSP-GAN 9.1%。此外,RA-GAN在所有年龄组中保留主体身份的能力优于SAM-GAN和CUSP-GAN。此外,我们证明将KinFaceW-I和KinFaceW-II数据集中的父母和子女图像转换为同龄可以提高所有年龄组的验证准确性。在KinFaceW-I数据集上,使用我们的RA-GAN,父子、父女、母子和母女等亲属关系的准确性分别提高了5.22%、5.12%、1.63%和0.41%。此外,在KinFaceW-II数据集上,父女、父子和母子关系的准确性分别提高了2.9%、0.39%和1.6%。代码可在Github上获取。 |
| 2025-09-18 | Watermarking and Anomaly Detection in Machine Learning Models for LORA RF Fingerprinting | null | 射频指纹识别(RFFI)通过无线设备模拟电路的微小差异来区分它们,从而避免繁重的密码认证。尽管基于频谱图的深度学习提高了准确性,但模型仍然容易受到复制、篡改和规避的攻击。我们提出了一个更强大的RFFI系统,它结合了用于所有权证明的水印技术和用于发现可疑输入的异常检测。使用基于对数梅尔频谱图的ResNet-34,我们嵌入了三种水印:一个简单触发器、一个对噪声和滤波具有鲁棒性的对抗性训练触发器,以及一个隐藏的梯度/权重签名。一个带有Kullback-Leibler(KL)热启动和free-bits的卷积变分自编码器(VAE)用于标记离分布查询。在LoRa数据集上,我们的系统实现了94.6%的准确率、98%的水印成功率和0.94的AUROC,提供了可验证、防篡改的认证。 |
| 2025-09-18 | AnoF-Diff: One-Step Diffusion-Based Anomaly Detection for Forceful Tool Use | null | 多元时间序列异常检测对于识别意外事件至关重要,在机器学习领域已被探索了几十年。然而,将这些方法直接应用于强力工具使用任务的数据具有挑战性,因为现实世界中的流式传感器数据本质上是嘈杂的,表现出非平稳行为,并且在不同任务和工具之间存在差异。为了解决这些挑战,我们提出了一种名为AnoF-Diff的方法,该方法基于扩散模型从时间序列数据中提取力矩特征,并利用力矩特征来检测异常。我们将我们的方法与四项强力工具使用任务上的其他最先进方法在F1分数和受试者工作特征曲线下面积(AUROC)方面进行了比较,结果表明我们的方法具有更好的性能,并且对噪声数据集更鲁棒。我们还提出了一种基于一步扩散的并行异常分数评估方法,并展示了我们的方法如何在多项强力工具使用实验中用于在线异常检测。 |
| 2025-09-18 | WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance | null | 近期视频扩散模型因其丰富的潜在世界先验知识,在空间智能任务中展现出强大潜力。然而,这种潜力受到其有限的可控性和几何不一致性的阻碍,在它们的强大先验知识与3D/4D任务中的实际应用之间造成了差距。因此,现有方法通常依赖于重新训练或微调,这可能导致预训练知识退化并产生高昂的计算成本。为此,我们提出了WorldForge,一个免训练、推理时框架,由三个紧密耦合的模块组成。步内递归细化在推理过程中引入了一种递归细化机制,该机制在每个去噪步骤中反复优化网络预测,以实现精确的轨迹注入。流门控潜在融合利用光流相似性,在潜在空间中将运动与外观解耦,并选择性地将轨迹引导注入到运动相关通道中。双路径自校正引导比较有引导和无引导的去噪路径,以自适应地纠正由噪声或未对齐的结构信号引起的轨迹漂移。这些组件共同作用,在无需训练的情况下注入细粒度、轨迹对齐的引导,实现了精确的运动控制和逼真的内容生成。在各种基准上进行的大量实验验证了我们方法在真实感、轨迹一致性和视觉保真度方面的优越性。这项工作引入了一种新颖的即插即用范式用于可控视频合成,为利用生成先验知识进行空间智能提供了一个新视角。 |
| 2025-09-18 | Learning Mechanistic Subtypes of Neurodegeneration with a Physics-Informed Variational Autoencoder Mixture Model | link | 建模神经退行性疾病的潜在机制需要能够从稀疏、高维神经影像数据中捕捉异质且空间变化的动态的方法。将基于偏微分方程(PDE)的物理知识与机器学习相结合,相较于经典数值方法,提供了增强的可解释性和实用性。然而,当前物理集成机器学习方法仅限于考虑单个PDE,这严重限制了它们在多种机制导致不同组(即亚型)疾病中的应用,并加剧了模型误设定和退化的问题。在本文中,我们提出了一种深度生成模型,用于学习由基于物理的PDEs控制的潜在动态模型混合,超越了假设单一PDE结构的传统方法。我们的方法将反应扩散PDEs集成到变分自编码器(VAE)混合模型框架中,支持从神经影像数据中推断可解释潜在变量(例如扩散系数和反应速率)的亚型。我们在合成基准上评估了我们的方法,并展示了其在从正电子发射断层扫描(PET)数据中揭示阿尔茨海默病进展的机制亚型方面的潜力。 |