awesome_ai_paper

Updated on 2024.12.04

Usage instructions: here

Table of Contents
  1. <a href=#多模态>多模态</a>
  2. <a href=#6dof-object-pose>6DOF Object Pose</a>
  3. <a href=#nerf>nerf</a>
  4. <a href=#分类/检测/识别/分割>分类/检测/识别/分割</a>
  5. <a href=#生成模型>生成模型</a>
  6. <a href=#llm>LLM</a>
  7. <a href=#transformer>Transformer</a>

多模态

Publish Date Title Code Abstract  
2024-12-03 CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs null 本文分析了小型语言模型 (SLM) 和视觉语言模型 (VLM) 的性能,并评估了在四个基本任务(图像描述、视觉问答 (VQA)、对话摘要和文本到 SQL 转换)中模型性能和碳排放之间的权衡。文中选择了属于 Qwen 和 LLaMA 架构系列的各种 SLM 和 VLM,并评估了基于模型大小(参数数量、量化级别和微调参数)的变体。计算了模型变体的性能和碳排放。为了量化模型性能和碳排放之间的权衡,我们引入了一个名为 CEGI(碳效率增益指数)的新指标。该指标表示每百万可训练参数每单位百分比增益的碳排放量。该指标提供了一个标准化指标,用于比较模型在性能改进方面的效率与其环境成本。实验结果表明,微调 SLM 和 VLM 可以达到与大型语言模型 (LLM) 相当的性能水平,同时产生的碳排放量显着减少。我们的研究结果表明,大型模型带来的边际精度提升并不能证明碳排放量的大幅增加是合理的。利用较低比特的量化级别,所提出的指标可以进一步提高能源效率,而不会影响性能。这项研究强调了高性能和环境可持续性之间的平衡。它为选择适合环境友好型 AI 开发的模型提供了一个有价值的指标。  
2024-12-03 SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection null 尽管视觉语言理解取得了进步,但在多模态架构中实现图像分割仍然是现代人工智能系统中的一个根本挑战。现有的视觉语言模型主要依赖于骨干架构或基于 CLIP 的嵌入学习,在精细空间定位和操作能力方面表现出固有的局限性。本文介绍了 SJTU:多模态模型中的空间判断——通过坐标检测实现统一分割,这是一个利用空间坐标理解来桥接视觉语言交互和精确分割的新颖框架,能够通过自然语言指令实现准确的目标识别。该框架提出了一种基于多模态空间推理,将分割技术与视觉语言模型相结合的新方法。通过利用边界框的归一化坐标检测并将其转换为可操作的分割输出,我们探索了整合多模态空间和语言表示的可能性。基于所提出的技术方法,该框架在各种基准数据集上展现出卓越的性能以及准确的目标分割。在 COCO 2017 通用目标检测数据集和 Pascal VOC 语义分割数据集上的结果证明了该框架的泛化能力。  
2024-12-03 BYE: Build Your Encoder with One Sequence of Exploration Data for Long-Term Dynamic Scene Understanding null 动态场景理解仍然是机器人应用中一项持续的挑战。早期的动态建图方法侧重于通过掩蔽或跟踪特定类别来减轻短期动态物体对相机运动估计的负面影响,但这往往难以适应长期场景变化。最近的研究尝试使用在合成数据集上训练的神经网络来解决长期动态环境中的物体关联问题,但它们仍然依赖于预定义的物体形状和类别。其他方法结合了视觉、几何或语义启发式方法进行关联,但通常缺乏鲁棒性。在这项工作中,我们引入了BYE,一个与类别无关的、针对每个场景的点云编码器,它无需预定义的类别、形状先验或大量的关联数据集。BYE只需在单个探索数据序列上进行训练,即可有效地在动态变化的场景中执行物体关联。我们进一步提出了一种集成方案,将视觉语言模型 (VLM) 的语义优势与BYE的场景特定专业知识相结合,在物体关联任务中实现了7%的改进和95%的成功率。代码和数据集可在https://byencoder.github.io获取。  
2024-12-03 Initial Study On Improving Segmentation By Combining Preoperative CT And Intraoperative CBCT Using Synthetic Data null 计算机辅助介入(Computer-Assisted Interventions)使临床医生能够执行精确的微创手术,通常依赖于先进的成像方法。锥形束计算机断层扫描(CBCT)可用于辅助计算机辅助介入,尽管它经常受到伪影的影响,给准确解释带来了挑战。虽然图像质量下降会影响图像分析,但高质量的术前扫描的可用性提供了改进的潜力。我们在此考虑一种术前CT和术中CBCT扫描均可用的情况,然而,扫描之间的对齐(配准)并不完美,以模拟真实场景。我们提出了一种多模态学习方法,融合粗略对齐的CBCT和CT扫描,并研究其对分割性能的影响。在本实验中,我们使用包含真实CT和合成CBCT体积以及相应体素标注的合成生成数据。结果表明,在20个研究设置中,有18个设置的分割性能得到了改进。  
2024-12-03 CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy null 大型多模态模型 (LMMs) 在使用自然语言指令识别文档图像方面表现出令人印象深刻的性能。然而,目前尚不清楚其在具有丰富结构和细粒度视觉挑战的文本理解能力方面的程度。目前的领域缺乏一个全面的基准来有效衡量 LMMs 的文本理解能力。现有的基准通常受到狭窄场景和特定任务的限制。为此,我们引入了 CC-OCR,这是一个包含各种场景、任务和挑战的综合基准。CC-OCR 包含四个以 OCR 为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。它包含 39 个子集,共 7,058 张完整标注的图像,其中 41% 来自实际应用,首次发布。此外,我们评估了九个著名的 LMMs,并揭示了这些模型的优势和劣势,特别是在文本定位、多方向和重复幻觉方面。CC-OCR 旨在全面评估 LMMs 在以 OCR 为中心的各项任务上的能力,从而推动 LMMs 的发展。  
2024-12-03 LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models null 开放世界三维布局生成是指根据语言指令排列未标记的三维资产。大型语言模型 (LLM) 难以生成物理上合理的 3D 场景并遵守输入指令,尤其是在杂乱的场景中。我们引入了 LayoutVLM,这是一个框架和场景布局表示,它利用视觉语言模型 (VLM) 的语义知识并支持可微分优化以确保物理合理性。LayoutVLM 使用 VLM 从视觉标记图像生成两个相互增强的表示,以及一个自洽的解码过程来改进 VLM 的空间规划。我们的实验表明,LayoutVLM 克服了现有 LLM 和基于约束的方法的局限性,生成了更符合输入语言指令语义意图的物理上合理的 3D 布局。我们还证明了使用从现有场景数据集中提取的提出的场景布局表示对 VLM 进行微调可以提高性能。  
2024-12-03 VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding link 近来,大型视频多模态模型 (LMM) 的进步显著提升了其视频理解和推理能力。然而,在训练数据中代表性不足的分布外 (OOD) 任务上,它们的性能会下降。传统的微调方法由于计算成本高,在 OOD 数据集上不切实际。虽然上下文学习 (ICL) 通过示例演示在语言任务和图像-语言任务中展现了良好的泛化性能,无需微调,但将 ICL 应用于视频-语言任务面临挑战,因为视频 LMM 的上下文长度有限,而视频需要更长的标记长度。为了解决这些问题,我们提出了 VideoICL,一个用于 OOD 任务的新型视频上下文学习框架,它引入了基于相似度的相关示例选择策略和基于置信度的迭代推理方法。这允许选择最相关的示例并根据相似度对其进行排序,用于推理。如果生成的响应置信度低,我们的框架会选择新的示例并再次执行推理,迭代地改进结果,直到获得高置信度的响应。这种方法通过扩展有效上下文长度来提高 OOD 视频理解性能,而不会产生高昂的成本。在多个基准测试上的实验结果表明,该方法取得了显著的性能提升,尤其是在特定领域场景下,为更广泛的视频理解应用奠定了基础。代码将发布在 https://github.com/KangsanKim07/VideoICL  
2024-12-03 VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning null 大型视觉语言模型 (LVLMs) 的批判和纠正自身推理能力是其自我改进的关键组成部分。然而,目前仍缺乏对此类 LVLMs 能力的系统性分析。我们提出了 VISCO,这是第一个广泛分析 LVLMs 细粒度批判和纠正能力的基准测试。相比于现有工作使用单一标量值来批判整个推理过程 [4],VISCO 具有密集且细粒度的批判特性,要求 LVLMs 评估思维链中每个步骤的正确性,并提供自然语言解释来支持其判断。对 24 个 LVLMs 的广泛评估表明,人工编写的批判能显著提高纠正后的性能,展现了自我改进策略的潜力。然而,模型生成的批判作用较小,有时甚至会损害性能,这表明批判是关键瓶颈。我们确定了批判失败的三个常见模式:未能批判视觉感知、不愿“说不”以及夸大错误传播的假设。为了解决这些问题,我们提出了一种有效的 LookBack 策略,即重新审视图像以验证初始推理中每条信息的正确性。LookBack 可以将批判和纠正性能显著提高 13.5%。  
2024-12-02 X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models link 上下文生成是大型语言模型 (LLM) 开放任务泛化能力的关键组成部分。通过利用少量示例作为上下文,LLM 可以执行域内和域外任务。建立在 LLM 之上的自回归视觉语言模型 (VLM) 的最新进展在文本到图像生成方面展现了令人印象深刻的性能。然而,上下文学习在一般图像生成任务中的潜力很大程度上仍未得到探索。为了解决这个问题,我们引入了 X-Prompt,这是一个纯自回归的大型视觉语言模型,旨在在统一的上下文学习框架内,在各种已见和未见图像生成任务中提供具有竞争力的性能。X-Prompt 采用了一种专门的设计,可以有效地压缩上下文示例中的宝贵特征,支持更长的上下文标记序列,并提高其泛化到未见任务的能力。用于文本和图像预测的统一训练任务使 X-Prompt 能够处理一般的图像生成,并通过上下文示例增强任务感知能力。大量实验验证了该模型在各种已见图像生成任务中的性能及其泛化到先前未见任务的能力。  
2024-12-02 VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models null 近来,来自诸如GPT-4V等闭源视觉语言模型(VLM)的高质量视觉指令微调样本的激增加速了各种规模开源VLM的发布。然而,使用更大的模型扩展VLM以提高性能带来了巨大的计算挑战,尤其是在资源受限的设备(如移动平台和机器人)上进行部署时。为了解决这个问题,我们提出了VLsI:Verbalized Layers-to-Interactions,这是一个新的VLM系列,模型大小为2B和7B,它优先考虑效率而不牺牲准确性。VLsI利用独特的逐层蒸馏过程,引入中间“verbalizers”,将每一层的特征映射到自然语言空间,从而允许较小的VLM灵活地与较大VLM的推理过程对齐。这种方法减轻了输出模仿中经常遇到的训练不稳定性,并且超越了典型的最终层微调,通过将小型VLM的逐层进展与大型VLM的逐层进展对齐。我们在十个具有挑战性的视觉语言基准上验证了VLsI,在无需模型缩放、合并或架构更改的情况下,相比GPT-4V实现了显著的性能提升(2B模型提升11.0%,7B模型提升17.4%)。  
2024-11-29 SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition null 多模态对话情感识别 (MERC) 旨在利用文本、音频和视觉模态特征对语句的情感进行分类。大多数现有的 MERC 方法假设每个语句都具有完整的模态,忽略了现实场景中常见的模态缺失问题。近年来,图神经网络 (GNNs) 在不完整多模态对话情感识别 (IMERC) 中取得了显著成果。然而,传统的 GNNs 侧重于节点之间的二元关系,限制了其捕获更复杂的高阶信息的能力。此外,重复的消息传递会导致过度平滑,降低其保留关键高频细节的能力。为了解决这些问题,我们提出了一种用于对话情感识别中不完整多模态学习的谱域重建图神经网络 (SDR-GNN)。SDR-GNN 基于说话者和上下文关系,使用滑动窗口构建语句语义交互图,以建模情感依赖关系。为了捕获高阶和高频信息,SDR-GNN 利用加权关系聚合,确保跨语句一致的语义特征提取。此外,它在谱域中进行多频聚合,通过提取高频和低频信息,能够有效地恢复不完整的模态。最后,应用多头注意力机制来融合和优化用于情感识别的特征。在各种真实世界数据集上的大量实验表明,我们的方法在不完整多模态学习中是有效的,并且优于当前最先进的方法。  
2024-11-29 SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks link 视觉语言模型 (VLM) 在医学任务中具有巨大潜力,例如视觉问答 (VQA),它们可以作为患者和临床医生的交互助手。然而,它们对未见数据分布变化的鲁棒性仍然是安全部署的关键问题。评估这种鲁棒性需要一个受控的实验设置,以便系统地了解模型的行为。然而,我们证明了目前的设置无法提供足够彻底的评估,限制了它们准确评估模型鲁棒性的能力。为了弥补这一差距,我们的工作引入了一个名为 SURE-VQA 的新框架,该框架围绕三个关键要求构建,以克服当前的缺陷并系统地分析 VLM 的鲁棒性:1) 由于合成偏移的鲁棒性不一定转化为现实世界的偏移,因此鲁棒性应该在 VQA 数据固有的现实世界偏移上进行测量;2) 传统的标记匹配指标通常无法捕捉潜在的语义,因此需要使用大型语言模型 (LLM) 进行更准确的语义评估;3) 由于缺少健全性基线,模型性能通常缺乏可解释性,因此应报告有意义的基线,以便评估多模态对 VLM 的影响。为了证明该框架的相关性,我们对三种医学数据集上的各种微调方法在四种不同类型的分布偏移下的鲁棒性进行了研究。我们的研究揭示了几个重要发现:1) 不使用图像数据的健全性基线可以表现得 surprisingly well;2) 我们确认 LoRA 是表现最佳的 PEFT 方法;3) 没有一种 PEFT 方法在应对偏移的鲁棒性方面始终优于其他方法。代码位于 https://github.com/IML-DKFZ/sure-vqa。  
2024-11-29 CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation null 大型视觉-语言-动作(VLA)模型的进步显著提高了机器人操作在语言引导任务执行和泛化到未见场景方面的能力。虽然现有的由预训练大型视觉-语言模型(VLM)改进而来的VLA已经展现出良好的泛化性,但它们的性能仍然不尽如人意,不同环境下的低任务成功率就证明了这一点。在本文中,我们提出了一种源自VLM的新型高级VLA架构。与先前直接通过简单的动作量化将VLM用于动作预测的工作不同,我们提出了一个组件化的VLA架构,它包含一个专门的动作模块,并以VLM输出为条件。我们系统地研究了动作模块的设计,并展示了使用扩散动作Transformer进行动作序列建模的强大性能提升及其良好的扩展性。我们还进行了全面的实验和消融研究,以评估我们模型在不同设计下的有效性。在模拟和真实世界中对5种机器人实体的评估表明,我们的模型不仅在任务性能上显著优于现有的VLA,而且对新机器人表现出卓越的适应性,并能泛化到未见过的物体和背景。在模拟评估中,它的平均成功率比模型规模(7B)相似的OpenVLA高出35%以上,在真实机器人实验中高出55%以上。它还比大型RT-2-X模型(55B)在模拟中的绝对成功率高出18%。代码和模型可以在我们的项目页面 (https://cogact.github.io/) 上找到。  
2024-11-29 Interleaved-Modal Chain-of-Thought null 思维链(CoT)提示引导大型语言模型(LLM)在得出最终答案之前生成一系列中间推理步骤。然而,当过渡到视觉语言模型(VLM)时,它们仅文本的推理难以表达与原始图像的细粒度关联。在本文中,我们提出了一种结合图像的多模态思维链,名为\textbf{交错模态思维链(ICoT)},它生成由成对的视觉和文本推理步骤组成的序列,以推断最终答案。直观地说,新的ICoT要求VLM能够生成细粒度的交错模态内容,这对目前的VLM来说很难实现。考虑到所需的视觉信息通常是输入图像的一部分,我们提出了\textbf{注意力驱动选择(ADS)}来在现有VLM上实现ICoT。ADS智能地插入输入图像的区域,以生成交错模态推理步骤,且额外的延迟可忽略不计。ADS仅依赖于VLM的注意力图,无需参数化,因此它是一种即插即用的策略,可以推广到各种VLM。我们将ADS应用于两种不同架构的流行VLM上以实现ICoT。对三个基准的广泛评估表明,与现有的多模态CoT提示方法相比,ICoT提示在性能(高达14%)和可解释性方面都有显著提高。  
2024-11-28 Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation null 开放词汇分割 (OVS) 的目标是根据自由形式的文本概念分割图像,而无需预定义的训练类别。虽然现有的视觉语言模型(如 CLIP)可以利用视觉Transformer的粗略空间信息生成分割掩码,但由于图像和文本特征的全局对齐,它们在空间定位方面面临挑战。相反,像 DINO 这样的自监督视觉模型擅长细粒度视觉编码,但缺乏与语言的整合。为了弥合这一差距,我们提出了 Talk2DINO,一种结合了 DINOv2 的空间精度和 CLIP 的语言理解能力的新型混合方法。我们的方法通过学习到的映射函数将 CLIP 的文本嵌入与 DINOv2 的补丁级特征对齐,而无需微调底层主干网络。在训练时,我们利用 DINOv2 的注意力图选择性地将局部视觉补丁与文本嵌入对齐。我们展示了 Talk2DINO 强大的语义和定位能力可以增强分割过程,从而产生更自然、更少噪声的分割,并且我们的方法还可以有效地区分前景对象和背景。实验结果表明,Talk2DINO 在多个无监督 OVS 基准测试中实现了最先进的性能。源代码和模型公开发布于:https://lorebianchi98.github.io/Talk2DINO/。  
2024-11-28 GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks link 虽然最近有许多基准测试专注于评估通用的视觉语言模型 (VLM),但它们未能满足地理空间应用的独特需求。通用的 VLM 基准测试并非设计用于处理地理空间数据的复杂性,而这对于环境监测、城市规划和灾害管理等应用至关重要。地理空间领域的一些独特挑战包括变化的时间分析、大量目标计数、微小目标检测以及理解遥感影像中实体之间的关系。为了弥补地理空间领域的这一差距,我们提出了 GEOBench-VLM,这是一个专门设计用于评估 VLM 在地理空间任务上的综合基准测试,包括场景理解、目标计数、定位、细粒度分类和时间分析。我们的基准测试包含超过 10,000 条手动验证的指令,涵盖了视觉条件、目标类型和规模的各种变化。我们评估了几个最先进的 VLM,以评估它们在地理空间环境中的准确性。结果表明,尽管现有的 VLM 具有潜力,但在处理地理空间特定示例时仍面临挑战,这凸显了进一步改进的空间。具体而言,表现最好的 GPT4o 在多项选择题上的准确率仅为 40%,仅为随机猜测性能的两倍。我们的基准测试公开发布于 https://github.com/The-AI-Alliance/GEO-Bench-VLM。  
2024-11-28 GRAPE: Generalizing Robot Policy via Preference Alignment null 尽管视觉-语言-动作(VLA)模型在各种机器人任务中取得了最新进展,但由于它们完全依赖于从成功部署中进行行为克隆,因此存在一些关键问题,例如对未见任务的泛化能力差。此外,它们通常经过微调以复制专家在不同设置下收集的演示,从而引入了分布偏差,并限制了它们对不同操作目标(例如效率、安全性和任务完成)的适应性。为了弥合这一差距,我们引入了GRAPE:通过偏好对齐泛化机器人策略。具体来说,GRAPE在轨迹级别上对齐VLA,并隐式地对成功和失败试验的奖励进行建模,以提高对不同任务的泛化能力。此外,GRAPE将复杂的操作任务分解为独立的阶段,并通过大型视觉语言模型提出的关键点的定制时空约束,自动引导偏好建模。值得注意的是,这些约束是灵活的,可以定制以使模型与不同的目标对齐,例如安全性、效率或任务成功。我们在现实世界和模拟环境中的各种任务中评估了GRAPE。实验结果表明,GRAPE增强了最先进的VLA模型的性能,将域内和未见操作任务的成功率分别提高了51.79%和60.36%。此外,GRAPE可以与各种目标对齐,例如安全性和效率,分别将碰撞率降低了44.31%,并将部署步长缩短了11.15%。所有代码、模型和数据均可在https://grape-vla.github.io/获取。  
2024-11-28 VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models null 在本文中,我们介绍了一个开源的韩语-英语视觉语言模型 (VLM),VARCO-VISION。我们采用了一种逐步训练策略,使模型能够学习语言和视觉信息,同时保留骨干模型的知识。与类似规模的模型相比,我们的模型在需要双语图像文本理解和生成能力的各种设置中展现出优异的性能。VARCO-VISION 还具备图像定位、指称和光学字符识别 (OCR) 功能,扩展了其在实际场景中的用途和潜在应用。除了模型之外,我们还发布了五个韩语评估数据集,包括四个闭集和一个开集基准测试。我们预计,我们的里程碑将为致力于训练 VLM 的人工智能研究人员拓宽机会。VARCO-VISION 可在 https://huggingface.co/NCSOFT/VARCO-VISION-14B 获取。  
2024-11-27 Evaluating Vision-Language Models as Evaluators in Path Planning null 尽管大型语言模型 (LLM) 在执行复杂推理方面很有潜力,但它们在端到端规划中的有效性有限。这引发了一个有趣的问题:如果这些模型无法很好地规划,它们是否仍然可以作为有用的规划评估器为规划框架做出贡献?在这项工作中,我们将这个问题推广到考虑具有视觉理解能力的增强型LLM,即视觉语言模型 (VLM)。我们引入了PathEval,这是一个新颖的基准测试,用于评估VLM在复杂路径规划场景中作为规划评估器的能力。要在此基准测试中取得成功,VLM需要能够从场景描述中提取最佳路径的特征,展示对每条路径的精确低级感知,并整合这些信息来确定更好的路径。我们对最先进的VLM的分析表明,这些模型在此基准测试中面临着重大挑战。我们观察到,VLM可以精确地提取给定场景以识别所需特征,并在整合所提供信息方面表现出好坏参半。然而,它们的视觉组件存在一个关键瓶颈,即模型难以感知路径的低级细节。我们的实验结果表明,这个问题无法通过端到端微调来轻松解决;相反,需要对这些视觉编码器进行特定任务的判别式适应,才能使这些VLM成为有效的路径评估器。  
2024-11-27 Embodied Red Teaming for Auditing Robotic Foundation Models null 以语言为条件的机器人模型(即机器人基础模型)使机器人能够根据自然语言指令执行各种任务。尽管在现有基准测试中表现出色,但由于测试所有可能的语言变体的复杂性,评估这些模型的安全性和有效性仍然具有挑战性。当前的基准测试有两个关键限制:它们依赖于有限的人工生成指令集,遗漏了许多具有挑战性的案例,并且它们只关注任务性能而不评估安全性,例如避免损坏。为了解决这些差距,我们引入了Embodied Red Teaming (ERT),这是一种新的评估方法,它生成多样化且具有挑战性的指令来测试这些模型。ERT使用带有视觉语言模型(VLM)的自动红队技术来创建基于上下文且难度较高的指令。实验结果表明,最先进的模型在ERT测试中经常失败或表现出不安全的行为,这突显了当前基准测试在评估真实世界性能和安全性方面的不足。代码和视频可在以下网址获取:https://sites.google.com/view/embodiedredteam。  
2024-11-27 AMPS: ASR with Multimodal Paraphrase Supervision null 针对现有最先进的自动语音识别 (ASR) 系统,自然或对话式多语种语音识别提出了诸多挑战。在本研究中,我们提出了一种名为AMPS的新技术,它通过基于释义的监督来增强多语种多模态ASR系统,从而改进包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼扬贾语在内的多种语言的对话ASR。我们在训练多模态ASR模型时,使用参考转录的释义作为额外的监督,并针对ASR性能较差的语句选择性地调用此释义目标函数。通过将AMPS与最先进的多模态模型SeamlessM4T结合使用,我们在词错误率 (WER) 上取得了高达5%的显著相对降低。我们使用客观和人工评估指标对系统进行了详细的分析。  
2024-11-27 Large Language Model-Brained GUI Agents: A Survey null 图形用户界面(GUI)长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问和操作数字系统。大型语言模型(LLM),特别是多模态模型的出现,开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现出卓越的能力。这为新一代基于LLM的GUI智能体铺平了道路,这些智能体能够理解复杂的GUI元素,并根据自然语言指令自主执行操作。这些智能体代表了一种范式转变,使用户能够通过简单的对话命令执行复杂的多步骤任务。它们的应用涵盖网页导航、移动应用交互和桌面自动化,提供了一种变革性的用户体验,彻底改变了个人与软件的交互方式。这个新兴领域正在快速发展,在研究和产业方面都取得了显著进展。为了提供对这一趋势的结构化理解,本文对基于LLM的GUI智能体进行了全面综述,探讨了它们的历史演变、核心组件和先进技术。我们探讨了现有GUI智能体框架、用于训练专用GUI智能体的数据收集和利用、针对GUI任务的大型动作模型的开发以及评估其有效性所需的评估指标和基准等研究问题。此外,我们还研究了由这些智能体驱动的新兴应用。通过详细分析,本综述确定了关键的研究差距,并概述了该领域未来发展的路线图。通过整合基础知识和最新发展,本工作旨在指导研究人员和从业人员克服挑战,并释放基于LLM的GUI智能体的全部潜力。  
2024-11-27 Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents null 多模态模型近期取得的进展展现了其在物体识别和场景理解方面的卓越能力。然而,这些模型常常难以实现精确定位,而这对于实际应用至关重要。受人类使用棋盘和地图等基于网格的参考方式的启发,我们提出通过一种简单的网格叠加方法来引入显式视觉位置编码。通过在输入图像上添加一个 9x9 的黑色网格图案,我们的方法提供了类似于Transformer中位置编码的视觉空间引导,但采用的是显式视觉形式。在 COCO 2017 数据集上的实验表明,基于网格的方法显著提高了定位精度,与基线性能相比,IoU 提高了 107.4%(从 0.27 提升至 0.56),GIoU 提高了 194.4%(从 0.18 提升至 0.53)。通过注意力可视化分析,我们展示了这种视觉位置编码如何帮助模型更好地理解空间关系。我们方法的简洁性和有效性使其对于需要精确空间推理的应用,例如机器人操作、医学影像和自动导航,尤为重要。  
2024-11-27 Multimodal Integration of Longitudinal Noninvasive Diagnostics for Survival Prediction in Immunotherapy Using Deep Learning null 目的:使用人工智能分析无创的纵向和多模态数据可能改变癌症患者的免疫治疗,为精准医疗铺平道路。方法:在这项研究中,我们整合了来自一大群泛癌队列(694名接受免疫治疗的患者)的治疗前和治疗期间的血液测量值、处方药和基于CT的器官体积,以预测短期和长期总生存期。通过利用最新发展的组合,我们端到端地训练了我们扩展的多模态基于Transformer的简单时间注意力(MMTSimTA)网络的不同变体,以预测三个月、六个月、九个月和十二个月的死亡率。这些模型还与包含基于中间和后期融合的集成方法的基线方法进行了比较。结果:使用扩展的基于Transformer的多模态模型展现出最强的预后性能,其曲线下面积(AUC)分别为3个月、6个月、9个月和12个月生存预测的 $0.84 \pm $0.04、$0.83 \pm $0.02、$0.82 \pm $0.02、$0.81 \pm$ 0.03。结论:我们的研究结果表明,分析整合的早期治疗数据具有预测免疫治疗患者生存期的潜力。使用我们扩展的基于Transformer的架构,将补充的无创模式整合到一个联合训练的模型中,展现出改进的多模式预后性能,尤其是在短期生存预测方面。  
2024-11-27 Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning null 视觉语言模型(VLM)在多模态推理任务中取得了显著进展。然而,由于诸如图像理解的幻觉或推理路径的不完善等问题,它们仍然经常生成不准确或不相关的响应。为了应对这些挑战,我们引入了Critic-V,这是一个受Actor-Critic范式启发的新颖框架,旨在提升VLM的推理能力。该框架通过集成两个独立的组件来解耦推理过程和评论过程:根据视觉和文本输入生成推理路径的Reasoner,以及提供建设性评论以改进这些路径的Critic。在这种方法中,Reasoner根据文本提示生成推理响应,这些响应可以作为策略根据Critic的反馈进行迭代演进。这种交互过程的理论基础是强化学习框架,其中Critic提供自然语言评论而不是标量奖励,从而实现更细致的反馈,以提升Reasoner在复杂推理任务上的能力。Critic模型使用直接偏好优化(DPO)进行训练,利用基于规则奖励(RBR)排序的评论偏好数据集来增强其评论能力。评估结果表明,Critic-V框架在8个基准测试中的5个上显著优于现有方法,包括GPT-4V,尤其是在推理准确性和效率方面。将Reasoner的动态文本策略与偏好优化Critic的建设性反馈相结合,实现了更可靠且上下文敏感的多模态推理过程。我们的方法为增强VLM的可靠性提供了一个有前景的解决方案,从而提高其在自动驾驶和具身智能等现实世界推理密集型多模态应用中的性能。  
2024-11-27 COREval: A Comprehensive and Objective Benchmark for Evaluating the Remote Sensing Capabilities of Large Vision-Language Models null 随着大型视觉语言模型(VLMs)的快速发展,通用领域模型和专门为遥感地球观测设计的模型都在该特定领域展现出卓越的感知和推理能力。然而,目前缺乏一个全面评估这些VLMs遥感能力的基准,这是一个显著的差距。为了弥合这一差距,我们提出了COREval,这是第一个旨在全面客观地评估VLMs分层遥感能力的基准。我们集中于遥感中两个主要的维度:感知和推理,并进一步细分为6个次级维度和22个叶子任务,以确保对该特定领域进行全面的评估覆盖。COREval通过从全球50个分布式城市收集数据、构建问题和质量控制的严格流程,保证了总共6,263个问题的质量,并且具有明确答案的选择题格式允许对VLM性能进行客观直接的评估。我们对来自通用领域和遥感领域的13个杰出的开源VLMs进行了全面评估,突出了它们在遥感能力方面的当前不足,并为它们在这一特定领域中的应用改进提供了方向。我们希望COREval能够成为一个宝贵的资源,并为VLMs在遥感领域的挑战和潜力提供更深入的见解。  
2024-11-27 VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis null 大型视觉语言模型(VLM)最近在桥接两种基本模态方面取得了显著进展。通过足够大的数据集训练的VLM展现出对视觉和语言的全面理解,可以执行各种任务。为了准确地提取这些知识,在本文中,我们介绍了一种新颖的方法,该方法明确地将VLM用作人-物交互(HOI)检测任务(VLM-HOI)的目标函数形式。具体来说,我们提出了一种使用图文匹配技术量化预测的HOI三元组相似性的方法。我们以语言方式表示HOI三元组,以充分利用VLM的语言理解能力,由于其定位和以对象为中心的特性,VLM比CLIP模型更适合于此任务。该匹配得分用作对比优化的目标。据我们所知,这是首次将VLM的语言能力用于HOI检测。实验结果证明了我们方法的有效性,在基准测试中达到了最先进的HOI检测精度。我们相信将VLM集成到HOI检测中代表着朝着更高级和更具解释性的人-物交互分析迈出的重要一步。  
2024-11-26 HOPPR Medical-Grade Platform for Medical Imaging AI null 人工智能 (AI) 技术的进步使得开发基于数百万图像和文本配对样本训练的大型视觉语言模型 (LVLM) 成为可能。后续研究工作证明了 LVLM 在医学影像用例(例如,放射报告生成)中实现高性能的巨大潜力,但也存在阻碍这些解决方案广泛部署的障碍。这些障碍包括开发大规模模型所需的巨大计算成本、复杂的 AI 模型开发所需的专业知识,以及难以获取足以代表 LVLM 解决方案部署人群的大量高质量数据集。HOPPR 医疗级平台通过提供强大的计算基础设施、一套基础模型(开发人员可以在其上针对特定用例进行微调)以及稳健的质量管理系统(为评估用于临床部署的微调模型设定了标准)来解决这些障碍。HOPPR 平台可以访问来自数百个影像中心、代表不同人群的数百万影像研究和文本报告,以预训练基础模型并启用针对特定用例的队列进行微调。所有数据均已去识别化并安全存储,以符合 HIPAA 规范。此外,开发人员可以安全地将模型托管在 HOPPR 平台上,并通过 API 访问它们,以便在已建立的临床工作流程中使用这些模型进行推理。借助医疗级平台,HOPPR 的使命是加速 LVLM 解决方案在医学影像领域的部署,最终优化放射科医生的工作流程并满足该领域日益增长的需求。  
2024-11-26 NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects? null 多模态大型语言模型 (MLLM) 在视觉理解方面取得了显著进展,但它们识别被特定属性修饰的物体能力仍然是一个悬而未决的问题。为了解决这个问题,我们探索了 MLLM 在物体识别方面的推理能力,涵盖从常识到超常识的场景。我们引入了一个名为 NEMO 的新基准测试,它包含 900 张原始水果图像及其对应的属性修改图像;以及包含开放式、多项选择和不可解类型的 2700 个问题。我们使用我们的基准测试评估了 26 个最新的开源和商用模型。研究结果突出了模型在 NEMO 中识别物体的性能差距,并揭示了不同模型之间不同的答案偏好。虽然更强大的视觉编码器可以提高性能,但 MLLM 仍然落后于独立的视觉编码器。有趣的是,扩大模型规模并不能持续带来更好的结果,更深入的分析表明,更大的 LLM 在微调过程中会削弱视觉编码器。这些见解揭示了当前 MLLM 的关键局限性,并为开发更通用和更具弹性的多模态模型提出了潜在途径。  
2024-11-26 VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models null 视觉语言生成奖励模型(VL-GenRM)在对齐和评估多模态AI系统中扮演着至关重要的角色,然而对其自身的评估却仍未得到充分探索。目前的评估方法主要依赖于来自传统视觉语言任务的AI标注的偏好标签,这可能会引入偏差,并且通常无法有效地挑战最先进的模型。为了解决这些局限性,我们引入了VL-RewardBench,这是一个涵盖通用多模态查询、视觉幻觉检测和复杂推理任务的综合基准测试。通过我们结合样本选择和人工验证的AI辅助标注流程,我们精心挑选了1250个高质量示例,专门用于探测模型的局限性。对16个领先的大型视觉语言模型进行的全面评估表明,VL-RewardBench作为一个具有挑战性的测试平台是有效的,即使是GPT-4o也仅达到了65.4%的准确率,而像Qwen2-VL-72B这样的最先进的开源模型也很难超过随机猜测的水平。重要的是,VL-RewardBench上的性能与使用VL-GenRM进行Best-of-N采样的MMMU-Pro准确率密切相关(皮尔逊相关系数r > 0.9)。分析实验揭示了改进VL-GenRM的三个关键见解:(i)模型主要在基本的视觉感知任务上失败,而不是推理任务;(ii)推理时缩放的收益因模型容量而异;(iii)训练VL-GenRM学习判断能够大幅提升判断能力(7B VL-GenRM的准确率提升了14.7%)。我们相信VL-RewardBench以及这些实验见解将成为推进VL-GenRM发展的宝贵资源。  
2024-11-26 CoA: Chain-of-Action for Generative Semantic Labels link 近年来,视觉语言模型 (VLM) 在图像分类方面取得了显著进展。这些 VLM 利用预定义的类别集来构建文本提示,以进行零样本推理。然而,在像自动驾驶这样更开放的领域中,使用预定义的标签集变得不切实际,因为语义标签空间是未知的且不断变化的。此外,固定的嵌入文本提示通常倾向于预测单个标签(而实际上,每张图像通常存在多个标签)。在本文中,我们介绍了 CoA,一种创新的行动链 (CoA) 方法,它生成与图像所有上下文相关特征对齐的标签。CoA 的设计基于以下观察:丰富且有价值的上下文信息可以提高推理过程中的生成性能。传统的视觉语言模型倾向于输出单一且冗余的响应。因此,我们采用定制的 CoA 来缓解这个问题。我们首先将生成标签任务分解为详细的行动,并构建一个 CoA,最终达到生成目标。每个行动都从先前的行动中提取并合并关键信息,并将丰富的信息作为上下文传递给下一个行动,最终提高 VLM 生成全面且准确的语义标签的能力。我们通过对广泛使用的基准数据集进行综合评估来评估 CoA 的有效性,结果表明,CoA 在关键性能指标方面均有显著改进。  
2024-11-26 AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM link 大型多模态模型 (LMM) 的快速发展导致人工智能生成视频 (AIGV) 的迅速扩张,这凸显了对专为 AIGV 设计的有效视频质量评估 (VQA) 模型的迫切需求。由于存在独特的失真,例如不真实的物体、不自然的运动或不一致的视觉元素,目前的 VQA 模型通常无法准确评估 AIGV 的感知质量。为了应对这一挑战,我们首先提出了 AIGVQA-DB,这是一个包含 36,576 个 AIGV 的大规模数据集,这些 AIGV 是由 15 个先进的文本到视频模型使用 1,048 个不同的提示生成的。利用这些 AIGV,我们设计了一个包含评分和排序过程的系统注释流程,迄今为止已收集了 37 万条专家评分。基于 AIGVQA-DB,我们进一步推出了 AIGV-Assessor,这是一种新颖的 VQA 模型,它利用时空特征和 LMM 框架来捕捉 AIGV 复杂的质量属性,从而准确预测精确的视频质量分数和视频对偏好。通过在 AIGVQA-DB 和现有 AIGV 数据库上进行的综合实验,AIGV-Assessor 展现了最先进的性能,在多个感知质量维度上显著超越了现有的评分或评估方法。  
2024-11-26 Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment null 许多现实世界的用户查询(例如“如何制作蛋炒饭?”)可以受益于能够生成包含文本步骤和相应图像的响应的系统,类似于烹饪书。旨在生成交错文本和图像的模型面临着确保这些模态内部和之间一致性的挑战。为了应对这些挑战,我们提出了ISG,一个用于交错文本和图像生成的综合评估框架。ISG利用场景图结构来捕捉文本块和图像块之间的关系,并在四个粒度级别上评估响应:整体、结构、块级和图像特定。这种多层评估允许对一致性、连贯性和准确性进行细致的评估,并提供可解释的问答反馈。结合ISG,我们引入了一个基准测试ISG-Bench,包含8个类别和21个子类别中的1150个样本。该基准数据集包含复杂的语言-视觉依赖关系和黄金答案,可以有效地评估模型在以视觉为中心的任务(例如风格迁移)上的表现,这是当前模型的一个挑战领域。使用ISG-Bench,我们证明了最近的统一视觉语言模型在生成交错内容方面表现不佳。虽然组合方法结合了单独的语言和图像模型,在整体水平上比统一模型提高了111%,但它们在块级和图像级上的性能仍然欠佳。为了促进未来的工作,我们开发了ISG-Agent,一个采用“计划-执行-改进”流程来调用工具的基线代理,实现了122%的性能提升。  
2024-11-26 Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation null 开放词汇语义分割 (OVSS) 随着最近视觉语言模型 (VLMs) 的发展而进步,通过各种学习方案使得分割超越预定义类别成为可能。值得注意的是,免训练方法为处理未见数据(OVSS 的一个关键目标)提供了可扩展、易于部署的解决方案。然而,一个关键问题仍然存在:在基于任意查询提示的 OVSS 挑战性环境中分割复杂对象时,缺乏对象级上下文考虑。这种疏忽限制了模型在对象内分组语义一致元素并将它们精确映射到用户定义的任意类的能力。在这项工作中,我们引入了一种新方法,通过在图像中结合对象级上下文知识来克服这一限制。具体来说,我们的模型通过将视觉基础模型的光谱驱动特征提取到视觉编码器的注意力机制中来增强对象内一致性,从而使语义相关的组件形成单个对象掩码。此外,我们使用零样本对象存在似然性来细化文本嵌入,以确保与图像中表示的特定对象准确对齐。通过利用对象级上下文知识,我们提出的方法在各种数据集上实现了最先进的性能和强大的泛化能力。  
2024-11-26 Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation link 同时利用来自多个传感器的多模态输入来训练分割器从直觉上来说是有利的,但在实践中却具有挑战性。一个关键的挑战是单模态偏差,即多模态分割器过度依赖某些模态,导致在其他模态缺失时性能下降,这在实际应用中很常见。为此,我们开发了第一个用于学习鲁棒分割器的框架,该框架可以处理任何视觉模态组合。具体来说,我们首先引入了一种并行多模态学习策略来学习一个强大的教师模型。然后,通过将特征级知识从多模态分割器迁移到任意模态分割器,在多尺度表示空间中实现跨模态和单模态蒸馏,旨在解决单模态偏差并避免过度依赖特定模态。此外,我们提出了一种预测级模态无关的语义蒸馏方法,以实现分割的语义知识迁移。在合成和真实世界的多传感器基准上的大量实验表明,我们的方法实现了卓越的性能。  
2024-11-26 Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models link 尽管多模态人工智能研究取得了显著进展,但在一个重要领域,现代人工智能仍然远远落后于人类儿童:逻辑运算符的可靠部署。在这里,我们考察了三种形式的逻辑运算符:关系、否定和离散数字。我们要求人类受访者(总共 N=178)评估由最先进的图像生成人工智能 (DALL-E 3) 生成的图像,这些图像由这些“逻辑探针”提示生成,并发现没有一个能够可靠地产生超过 50% 的人类一致性评分。否定探针和数字(超过 3)失败的频率最高。在第四个实验中,我们评估了一个“基础扩散”流程,它利用目标提示工程和结构化中间表示来实现更大的组合控制,但发现其性能在所有提示中都被评判为比 DALL-E 3 更差。为了进一步阐明这些文本到图像系统中潜在的成功和失败来源,我们用多个辅助分析和示意图补充了我们的 4 个核心实验,例如,直接量化了关系提示的 N-gram 频率与生成图像的平均匹配之间的关系;在否定提示的渲染中,3 种不同提示修改策略的成功率;以及涉及整数的提示的标量可变性/比率依赖性(“近似计算能力”)。最后,我们讨论了“基础”多模态学习系统中固有的局限性,这些系统的基础严重依赖于基于向量的语义(例如 DALL-E 3)或未充分指定的句法约束(例如“基础扩散”),并提出了最小修改(受发展启发,基于图像),这些修改可以帮助弥合规模和结构之间挥之不去的组合差距。所有数据和代码都可以在 https://github.com/ColinConwell/T2I-Probology 获取。  
2024-11-26 Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation link 视觉语言基础模型,例如CLIP,在一系列任务中展现出前所未有的零样本性能。然而,这些模型在分布偏移的情况下可能并不可靠,因为它们的性能会显著下降。在这项工作中,我们探索如何在测试时推理期间有效利用类别文本信息来减轻大型预训练视觉语言模型(VLM)遇到的这些分布漂移。特别是,我们提出通过利用通用类别文本嵌入作为标签分配问题的固定质心来为测试时样本生成伪标签,并使用最优传输有效地解决该问题。此外,所提出的适应方法(CLIP-OT)集成了多模板知识蒸馏方法,该方法复制了无监督表示学习中的多视图对比学习策略,但不会增加额外的计算复杂度。在呈现不同复杂度的多个流行测试时适应基准上的大量实验,凭经验表明了CLIP-OT的优越性,相较于最近的最先进方法,实现了高达7%的性能提升,同时保持计算和内存效率。  
2024-11-25 Probing the limitations of multimodal language models for chemistry and materials research link 人工智能的最新进展激发了人们对科学助手的兴趣,这些助手可以支持研究人员的整个科研工作流程,从文献综述到实验设计和数据分析。此类系统的关键能力是处理和推理视觉和文本形式的科学信息——从解释光谱数据到理解实验室装置。在此,我们介绍MaCBench,这是一个综合基准,用于评估视觉语言模型如何处理现实世界的化学和材料科学任务,涵盖三个核心方面:数据提取、实验理解和结果解释。通过对领先模型的系统评估,我们发现虽然这些系统在基本感知任务中显示出有希望的能力——在设备识别和标准化数据提取方面达到近乎完美的性能——但它们在空间推理、跨模态信息合成和多步逻辑推理方面表现出根本性的局限性。我们的见解对化学和材料科学之外的领域具有重要意义,这表明开发可靠的多模态人工智能科学助手可能需要在整理合适的训练数据和训练这些模型的方法方面取得进展。  
2024-11-25 Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge null 大型视觉语言模型(LVLMs)通常集成独立预训练的视觉和语言组件,并经常使用CLIP-ViT作为视觉骨干网络。然而,这些模型经常遇到视觉编码器(VE)和大型语言模型(LLM)之间“认知错位”的核心问题。具体来说,VE对视觉信息的表示可能无法与LLM的认知框架完全一致,导致视觉特征超出语言模型解释范围的不匹配。为了解决这个问题,我们研究了VE表示的变化如何影响LVLM的理解能力,尤其是在LLM面对VE未知数据(图像的视觉表示不明确,挑战VE的解释精度)时。因此,我们构建了一个多粒度地标数据集,并系统地检验了VE已知和VE未知数据对解释能力的影响。我们的结果表明,VE未知数据限制了LVLM的准确理解能力,而具有丰富独特特征的VE已知数据有助于减少认知错位。基于这些见解,我们提出了实体增强认知对齐(EECA)方法,该方法采用多粒度监督来生成视觉上丰富且对齐良好的标记,这些标记不仅融入LLM的嵌入空间,而且与LLM的认知框架对齐。这种对齐显著增强了LVLM在地标识别中的性能。我们的研究结果强调了VE未知数据带来的挑战,并突出了认知对齐在推进多模态系统发展中的重要作用。  
2024-11-22 PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision null 基于个人设备中嵌入的惯性测量单元(IMU)的人体运动感知在健康和保健领域有着重要的应用。虽然标记的IMU数据稀缺,但我们可以收集未标记或弱标记的IMU数据来建模人体运动。对于视频或文本模态,“预训练和适应”方法利用大量的未标记或弱标记数据进行预训练,构建强大的特征提取器,然后使用有限的标记数据适应特定任务。这种方法在IMU领域尚未得到广泛采用,原因有两个:(1)在IMU的背景下,预训练方法的研究还不够深入;(2)很少有公开可用的、可跨数据集泛化的开源预训练模型。在本文中,我们旨在解决第一个问题,提出了PRIMUS,一种用于预训练IMU编码器的方法。我们对各种自监督和多模态学习预训练目标进行了系统和统一的评估。我们的研究结果表明,使用结合了自监督、多模态监督和最近邻监督的PRIMUS可以显著提高下游任务的性能。与最先进的多模态训练方法相比,在每类少于500个标记样本的情况下,PRIMUS在留出的测试数据中有效地将下游性能提高了15%。为了使更广泛的社区受益,我们的代码和预训练的IMU编码器将在论文发表后在github.com/nokia-bell-labs公开发布。  
2024-11-22 Context-Aware Multimodal Pretraining null 大规模多模态表征学习成功地优化了测试时的零样本迁移。然而,标准的预训练范式(对大量图文数据进行对比学习)并没有明确鼓励表征支持少样本适应。在这项工作中,我们提出了一个简单但精心设计的多模态预训练扩展,使表征能够适应额外的上下文。使用这个目标,我们展示了视觉语言模型可以被训练成显著提高少样本适应能力:在21个下游任务中,我们发现测试时样本效率提高了四倍,平均少样本适应增益超过5%,同时在不同模型规模和训练时长下保持了零样本泛化性能。特别是,配备了简单的、无需训练的、基于度量的适应机制,我们的表征轻松超越了更复杂和昂贵的基于优化方案,极大地简化了对新领域的泛化。  
2024-11-22 Information Extraction from Heterogenous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation null 员工提交的发票和收据是包含文本、视觉和布局信息的富视觉文档 (VRD)。为了防范欺诈和滥用的风险,组织必须有效地从提交的收据中提取所需信息。这有助于评估关键因素,例如费用索赔的适当性、支出和交易策略的遵守情况、收据的有效性,以及各种级别的下游异常检测。这些文档具有异构性,格式和语言多样,上传的图像质量各异,并且通常不包含用于有效训练模型的真实标签。在本文中,我们提出了任务感知的基于指令的标注 (TAIL) 方法,用于在没有标签的 VRD 语料库中生成合成标签,并使用基于响应的知识蒸馏方法在 TAIL 标签上微调多模态富视觉文档理解模型 (VRDU),无需使用教师模型的权重或训练数据集即可有条件地生成适当格式的注释。我们使用一个具有真实标签的基准外部数据集,通过实证研究证明了我们的方法在哪些条件下与 Claude 3 Sonnet 的性能相当。然后,我们展示了最终模型在一家大型跨国组织的内部费用文档上的性能与最先进的大型多模态模型 (LMM) Claude 3 Sonnet 相当或更好,同时成本降低了 85%,速度提高了约 5 倍,并且由于其能够推理和从罕见格式中提取信息,在平均归一化 Levenshtein 相似度 (ANLS) 得分上比布局感知基线模型高出 10% 以上。最后,我们举例说明了我们的方法在防止多付方面的应用。  
2024-11-22 VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models null 大型视觉语言模型 (LVLMs) 的快速发展展现出巨大的潜力。这些模型越来越有能力处理抽象的视觉任务。几何结构,特别是具有固有灵活性和复杂性的图,是评估这些模型预测能力的绝佳基准。虽然人类观察者可以轻松识别细微的视觉细节并进行准确的分析,但我们的研究表明,最先进的 LVLMs 在特定的视觉图场景中表现出一致的局限性,尤其是在面对风格变化时。为了应对这些挑战,我们引入了 VisGraphVar(视觉图变异性),这是一个可定制的基准生成器,能够生成七个不同任务类别(检测、分类、分割、模式识别、链接预测、推理、匹配)的图图像,旨在系统地评估单个 LVLMs 的优势和局限性。我们使用 VisGraphVar 生成了 990 张图图像,并使用零样本和思维链两种不同的提示策略评估了六个 LVLMs。研究结果表明,图像视觉属性(例如,节点标签和布局)的变化以及故意包含的视觉缺陷(例如,节点重叠)会显着影响模型性能。这项研究强调了对图形相关任务进行全面评估的重要性,而不仅仅是推理。VisGraphVar 为开发更可靠、更强大的能够执行高级视觉图形分析的系统提供了宝贵的见解。  
2024-11-22 VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection link 大型视觉语言模型 (LVLMs) 的进步显著提升了多模态理解能力,但由于缺乏高质量、大规模数据集,视频推理任务仍然面临挑战。现有的视频问答 (VideoQA) 数据集通常依赖于成本高昂、粒度不足的手动标注,或采用冗余的逐帧分析的自动构建方法,限制了其在复杂推理方面的可扩展性和有效性。为了应对这些挑战,我们推出了 VideoEspresso,这是一个新颖的数据集,其特点是保留了关键空间细节和时间连贯性的 VideoQA 对,以及中间推理步骤的多模态标注。我们的构建流程采用语义感知方法来减少冗余,然后使用 GPT-4o 生成问答对。我们进一步开发了视频思维链 (CoT) 标注来丰富推理过程,引导 GPT-4o 从问答对和视频内容中提取逻辑关系。为了充分利用高质量 VideoQA 对的潜力,我们提出了一个混合 LVLMs 协作框架,该框架包含一个帧选择器和一个经过两阶段指令微调的推理 LVLM。该框架自适应地选择核心帧,并使用多模态证据进行 CoT 推理。在我们提出的包含 14 项任务的基准测试中,针对 9 个流行的 LVLMs 进行评估,我们的方法在大多数任务上都优于现有基线,展现出卓越的视频推理能力。我们的代码和数据集将在以下地址发布:https://github.com/hshjerry/VideoEspresso  
2024-11-22 Effective SAM Combination for Open-Vocabulary Semantic Segmentation null 开放词汇语义分割旨在为图像中的像素分配不限范围的类别标签。传统方法通常采用将强大的掩码提议生成器(例如Segment Anything Model,SAM)与预训练的视觉语言模型(例如CLIP)顺序连接的方式来解决这个问题。但这些两阶段方法通常存在计算成本高、内存效率低的问题。在本文中,我们提出了ESC-Net,一种新颖的单阶段开放词汇分割模型,它在一个高效的推理框架内利用SAM解码器模块进行类别无关的分割。通过将从图像-文本相关性生成的伪提示嵌入到SAM的可提示分割框架中,ESC-Net实现了细化的空间聚合,从而实现了准确的掩码预测。ESC-Net在标准基准测试(包括ADE20K、PASCAL-VOC和PASCAL-Context)上取得了优异的性能,在效率和准确性方面均优于先前的方法。全面的消融研究进一步证明了其在挑战性条件下的鲁棒性。  
2024-11-21 FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers null 生成式预训练Transformer模型(GPT)通过大规模扩展模型参数,在不同领域展现了显著的性能。近期的研究观察到Transformer块之间存在冗余,并开发了通过结构化剪枝不重要的块来压缩模型的方法。然而,这种直接的消除方法总会带来不可逆的性能下降。在本文中,我们提出了FuseGPT,一种新的方法,通过回收剪枝的Transformer块来进一步恢复模型性能。首先,我们引入了一种新的重要性检测指标,宏观影响(MI),通过计算移除每个Transformer块后的信息损失来检测其长期影响。然后,我们提出了组级层融合,它采用不重要块中层的参数,并将它们注入到相邻块内相应的层中。这种融合不是一次性的,而是通过轻量级的组级微调进行迭代参数更新。具体来说,这些注入的参数被冻结,但通过可学习的秩分解矩阵进行加权,以减少微调时的开销。我们的方法不仅适用于大型语言模型,也适用于大型多模态模型。实验表明,FuseGPT只需使用少量数据,就可以在困惑度和零样本任务性能方面优于先前的工作。  
2024-11-21 Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance null 大型视觉语言模型(LVLMs)在各种视觉语言任务中取得了令人瞩目的成果。然而,尽管展现出 promising 的性能,LVLMs 仍然受到语言偏差导致的幻觉的影响,导致对图像的关注减少和视觉理解 ineffective。我们确定了这种偏差的两个主要原因:1. LLM 预训练阶段和多模态对齐阶段之间训练数据的不同规模。2. 由于文本数据的短期依赖性而学习到的推理偏差。因此,我们提出了 LACING,这是一个系统框架,旨在通过多模态双重注意力机制(MDA)和软图像引导(IFG)来解决 LVLMs 的语言偏差问题。具体来说,MDA 引入了一种并行的双重注意力机制,增强了视觉输入在模型中的整合。IFG 在训练和推理过程中引入了一个可学习的软视觉提示来代替视觉输入,旨在迫使 LVLMs 优先考虑文本输入。然后,IFG 进一步提出了一种使用软视觉提示的新解码策略,以减轻模型对相邻文本输入的过度依赖。综合实验表明,我们的方法有效地消除了 LVLMs 的语言偏差,增强了视觉理解并减少了幻觉,而无需额外的训练资源或数据。代码和模型可在 lacing-lvlm.github.io 获取。  
2024-11-21 Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset link 能够跨多模态输入执行复杂推理对于模型在现实世界场景中与人类有效互动至关重要。视觉语言模型的进步显著提高了在需要处理明确和直接文本输入的任务(如视觉问答(VQA)和视觉定位(VG))上的性能。然而,提高模型理解细微和模糊的交流形式的能力却较少受到关注。这提出了一个关键挑战,因为现实世界互动中的人类语言通常传达隐藏的意图,这些意图依赖于上下文才能进行准确的解释。为了解决这一差距,我们提出了VAGUE,这是一个包含3.9K个间接人类话语及其对应场景的多模态基准测试。此外,我们还提供了一个基于模型的管道,用于从输入图像生成提示-解决方案对。我们的工作旨在深入研究模型理解间接交流的能力,并致力于开发能够进行更精细、更像人类互动的模型。对多个VLM的广泛评估表明,主流模型在需要执行复杂的语言和视觉推理时仍然难以理解间接交流。我们在https://github.com/Hazel-Heejeong-Nam/VAGUE.git发布了我们的代码和数据。  
2024-11-21 MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective link 大型多模态模型 (LMMs) 已展现出卓越的功能。然而,现有的 LMMs 评估基准主要集中在图像理解方面,很少有工作从图像生成的视角进行评估。为了解决这个问题,我们提出了一个简单的自动化评估流程。具体来说,该流程要求 LMMs 根据给定的输入图像生成图像描述。随后,它使用文本到图像生成模型根据这些生成的描述创建新图像。最后,我们通过比较原始图像和生成的图像来评估 LMMs 的性能。此外,我们还引入了 MMGenBench-Test,这是一个全面的基准测试,用于评估 LMMs 在 13 种不同图像模式下的性能,以及 MMGenBench-Domain,旨在评估 LMMs 在生成图像领域内的性能。对 50 多个流行 LMMs 的全面评估证明了该流程和基准测试的有效性和可靠性。我们的观察表明,许多在现有基准测试中表现优异的 LMMs 未能充分完成与图像理解和描述相关的基本任务。这一发现凸显了当前 LMMs 性能提升的巨大潜力,并为未来的模型优化提供了方向。同时,我们的流程仅使用图像输入即可促进对不同领域 LMMs 性能的有效评估。  
2024-11-20 BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games null 大型语言模型 (LLM) 和视觉语言模型 (VLM) 拥有广泛的知识并展现出 promising 的推理能力;然而,它们在复杂、动态的环境中仍然难以良好地执行任务。现实世界的任务需要处理复杂的交互、高级空间推理、长期规划和对新策略的持续探索——在这些领域,我们缺乏有效的方法来全面评估这些能力。为了弥补这一差距,我们引入了 BALROG,这是一个 novel 的基准测试,旨在通过一组不同的 challenging 游戏来评估 LLM 和 VLM 的智能体能力。我们的基准测试包含一系列现有的强化学习环境,难度各不相同,包括非专业人员可以在几秒钟内解决的任务,以及可能需要数年才能掌握的极其挑战性的任务(例如,NetHack 学习环境)。我们设计了细粒度的指标来衡量性能,并对几个流行的开源和闭源 LLM 和 VLM 进行了广泛的评估。我们的研究结果表明,虽然目前的模型在较简单的游戏中取得了部分成功,但在更具挑战性的任务中却举步维艰。值得注意的是,我们观察到基于视觉的决策存在严重缺陷,因为当提供环境的视觉表示时,模型的性能会更差。我们将 BALROG 作为一个开放且用户友好的基准测试发布,以促进智能体社区未来的研究和发展。  
2024-11-20 Teaching VLMs to Localize Specific Objects from In-context Examples link 视觉语言模型 (VLM) 在各种视觉任务中展现了卓越的能力,包括图像识别、视频理解和视觉问答 (VQA),前提是针对这些任务进行专门训练。尽管取得了这些进展,我们发现当前的 VLM 缺乏一项基本的认知能力:通过考虑上下文来学习定位场景中的对象。在这项工作中,我们专注于少样本个性化定位任务,其中模型被赋予一小组带注释的图像(上下文示例)——每个图像都带有类别标签和边界框——并且其任务是在查询图像中定位相同类型的对象。为了激发模型的个性化定位能力,我们提出了一种以数据为中心的解决方案,使用从视频对象跟踪数据集中精心挑选的数据对模型进行微调。通过利用跨多个镜头跟踪同一对象的帧序列,我们模拟了促进上下文感知的指令调整对话。为了强化这一点,我们引入了一种新的正规化技术,用伪名称替换对象标签,确保模型依赖视觉上下文而不是先验知识。我们的方法显著增强了少样本定位性能,且不会牺牲泛化能力,这在几个为个性化定位定制的基准测试中得到了证明。这项工作是第一个探索和基准测试 VLM 的个性化少样本定位的工作,为未来上下文驱动的视觉语言应用研究奠定了基础。我们的项目代码可在 https://github.com/SivanDoveh/IPLoc 获取。  
2024-11-20 VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation null 近年来,具备高级视频分析能力的大型多模态模型 (LMM) 引起了广泛关注。然而,大多数评估依赖于传统方法,例如 VideoMME 和 LongVideoBench 等基准测试中的多项选择题,这些方法往往缺乏深度,难以捕捉现实世界用户的复杂需求。为了解决这一局限性,并且考虑到人工标注视频任务的高成本和低效率,我们引入了 VideoAutoArena,这是一个竞技场式的基准测试,其灵感来自 LMSYS Chatbot Arena 的框架,旨在自动评估 LMM 的视频分析能力。VideoAutoArena 利用用户模拟生成开放式、自适应问题,以严格评估模型在视频理解方面的性能。该基准测试采用了一种可扩展的自动化评估框架,并结合了改进的 ELO 评分系统,以便在多个 LMM 之间进行公平、持续的比较。为了验证我们的自动评判系统,我们使用精心策划的人工标注子集构建了“黄金标准”,证明我们的竞技场与人类判断高度一致,同时保持了可扩展性。此外,我们引入了一种故障驱动的进化策略,逐步增加问题的复杂性,以推动模型处理更具挑战性的视频分析场景。实验结果表明,VideoAutoArena 可以有效地区分最先进的 LMM,并提供有关模型优势和改进方向的见解。为了进一步简化我们的评估,我们引入了 VideoAutoBench 作为辅助基准测试,其中人工标注员在 VideoAutoArena 比赛的子集中标记获胜者。我们使用 GPT-4o 作为评判,将模型的回答与这些经过人工验证的答案进行比较。VideoAutoArena 和 VideoAutoBench 共同提供了一个经济高效且可扩展的框架,用于评估以用户为中心的视频分析中的 LMM。  
2024-11-20 XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation link 现有的开放词汇3D语义分割方法主要集中于建立一个包含3D、2D和文本模态的统一特征空间。然而,诸如全局特征对齐或视觉语言模型蒸馏等传统技术往往只能实现近似的对应,尤其难以描绘细粒度的分割边界。为了解决这个问题,我们提出了一个通过跨模态掩码推理框架XMask3D在3D特征和2D-文本嵌入空间之间进行更精细的掩码级对齐的方法。在我们的方法中,我们基于预训练扩散模型中的去噪UNet开发了一个掩码生成器,利用其对密集像素表示的精确文本控制能力,并增强了生成掩码的开放世界适应性。我们进一步将3D全局特征作为隐式条件融入预训练的2D去噪UNet中,使得生成的分割掩码能够额外感知3D几何信息。随后,生成的2D掩码被用于将掩码级别的3D表示与视觉语言特征空间对齐,从而增强3D几何嵌入的开放词汇能力。最后,我们融合互补的2D和3D掩码特征,从而在多个3D开放词汇语义分割基准测试中取得了竞争性的性能。代码可在https://github.com/wangzy22/XMask3D获取。  
2024-11-21 ViSTa Dataset: Do vision-language models understand sequential tasks? link 将视觉语言模型 (VLM) 用作强化学习中的奖励模型有望降低成本并提高安全性。迄今为止,VLM 奖励模型仅用于目标导向的任务,其中智能体必须达到特定的最终结果。我们探索 VLM 监督无法仅凭最终状态评分的任务的潜力。为此,我们引入了 ViSTa,这是一个用于评估基于视觉的顺序任务理解的数据集。ViSTa 包含 4,000 多个视频,其中包含虚拟家庭、Minecraft 和现实世界环境中的分步描述。其新颖的层次结构——由基本的单步任务组成越来越复杂的顺序任务——可以深入了解 VLM 判断不同复杂度任务的能力。为了说明这一点,我们使用 ViSTa 来评估最先进的 VLM,包括 CLIP、ViCLIP 和 GPT-4o。我们发现,虽然它们都擅长物体识别,但它们无法理解顺序任务,只有 GPT-4o 取得了非平凡的性能。  
2024-11-20 TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models null 大型预训练视觉语言模型(VLM),例如CLIP,在各种下游任务中展现出优异的零样本泛化能力。然而,最近的研究表明,CLIP的推理性能很容易被小的对抗性扰动大幅降低,尤其是在其视觉模态方面,这构成了重大的安全威胁。为了缓解此漏洞,本文提出了一种名为测试时对抗性提示调优(TAPT)的新颖防御方法,以增强CLIP针对视觉对抗性攻击的推理鲁棒性。TAPT是一种测试时防御方法,它学习防御性双模态(文本和视觉)提示以增强CLIP的推理过程的鲁棒性。具体来说,它是一种无监督方法,通过最小化多视图熵并对齐对抗样本和干净样本的分布来优化每个测试样本的防御性提示。我们在11个基准数据集(包括ImageNet和10个其他零样本数据集)上评估了TAPT的有效性,结果表明,它将原始CLIP的零样本对抗鲁棒性提高了至少48.9%(对抗AutoAttack(AA)),同时在很大程度上保持了对干净样本的性能。此外,TAPT在各种骨干网络上的性能都优于现有的对抗性提示调优方法,平均鲁棒性提升至少36.6%。  
2024-11-19 VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge null 通用视觉语言模型(VLMs)在计算机视觉领域取得了显著进展,但在医疗等需要专业知识的特定领域却存在不足。在传统的计算机视觉任务中,创造性或近似的答案可能是可以接受的,但在医疗领域,精度至关重要。目前的通用大型多模态模型,如Gemini和GPT-4o,由于依赖记忆的互联网知识而非医疗所需的细致专业知识,因此不足以胜任医疗任务。VLM的训练通常分为三个阶段:视觉预训练、视觉-语言预训练和指令微调(IFT)。IFT通常使用通用数据和医疗数据的混合进行。相比之下,我们提出,对于医学VLM,需要第四阶段的专门IFT,重点关注医学数据,并包含来自领域专家模型的信息。为医疗用途开发的领域专家模型至关重要,因为它们经过专门训练以执行某些临床任务,例如通过分割和分类来检测肿瘤和对异常进行分类,从而学习医学数据的细粒度特征——这些特征通常过于复杂,VLM无法有效捕捉,尤其是在放射学领域。本文介绍了一种新的医学VLM框架VILA-M3,它利用专家模型的领域知识。通过实验,我们展示了改进的最先进(SOTA)性能,平均比之前的SOTA模型Med-Gemini提高了约9%,比针对特定任务训练的模型提高了约6%。我们的方法强调了领域专业知识在创建用于医疗应用的精确、可靠的VLM中的重要性。  
2024-11-18 Vision Language Models Are Few-Shot Audio Spectrogram Classifiers null 我们证明了视觉语言模型(VLM)能够在给定相应频谱图图像的情况下识别音频录音中的内容。具体来说,我们通过提示VLM对每个类别的示例频谱图图像进行分类,指导它们在少样本设置下执行音频分类任务。通过精心设计频谱图图像表示并选择良好的少样本示例,我们展示了GPT-4o在ESC-10环境声音分类数据集上可以达到59.00%的交叉验证准确率。此外,我们证明了VLM目前在同等的音频分类任务上优于唯一可用的具有音频理解能力的商业音频语言模型(Gemini-1.5)(59.00% vs. 49.62%),甚至在视觉频谱图分类方面略优于人类专家(在第一个折叠上,73.75% vs. 72.50%)。我们设想了这些发现的两个潜在用例:(1)结合VLM的频谱图和语言理解能力进行音频字幕增强,以及(2)将视觉频谱图分类作为VLM的挑战任务。  
2024-11-18 ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements link 近年来,基础视觉语言模型 (VLM) 的进步重塑了计算机视觉任务的评估范式。这些基础模型,尤其是 CLIP,加速了开放词汇计算机视觉任务(包括开放词汇语义分割 (OVSS))的研究。尽管初步结果令人鼓舞,但 VLM 的密集预测能力仍需进一步提高。在本研究中,我们通过引入新的模块和修改来增强 CLIP 的语义分割性能:1) 改变 ViT 最后一层的架构,并将中间层的注意力图与最后一层合并;2) 图像工程:应用数据增强来丰富输入图像的表示;3) 使用大型语言模型 (LLM) 为每个类别名称生成定义和同义词,以利用 CLIP 的开放词汇能力。我们的免训练方法 ITACLIP 在 COCO-Stuff、COCO-Object、Pascal Context 和 Pascal VOC 等分割基准测试中优于当前最先进的方法。我们的代码可在 https://github.com/m-arda-aydn/ITACLIP 获取。  
2024-11-17 On-Board Vision-Language Models for Personalized Autonomous Vehicle Motion Control: System Design and Real-World Validation null 个性化驾驶指的是自动驾驶车辆在保证安全和舒适标准的前提下,使其驾驶行为或控制策略适应个体用户偏好和驾驶风格的能力。然而,现有研究要么无法精确捕捉每个个体的偏好,要么随着用户群的扩大而导致计算效率低下。视觉语言模型(VLM)凭借其自然语言理解和场景推理能力,为解决这一问题提供了 promising 的方案。在这项工作中,我们提出了一个轻量级但高效的车载 VLM 框架,该框架在提供低延迟个性化驾驶性能的同时,保持了强大的推理能力。我们的解决方案包含一个基于检索增强生成(RAG)的记忆模块,该模块能够通过人类反馈持续学习个体驾驶偏好。通过全面的实际车辆部署和实验,我们的系统已 demonstrated 在各种场景下提供安全、舒适和个性化的驾驶体验的能力,并将接管率显著降低了高达 76.9%。据我们所知,这项工作代表了在实际自动驾驶车辆中第一个端到端的基于 VLM 的运动控制系统。  
2024-11-18 The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning link 大型多模态模型 (LMMs) 在各种多模态任务中展现出令人瞩目的性能。然而,由于大多数数据和模型以西方为中心,它们在跨文化语境中的有效性仍然有限。相反,多智能体模型在解决复杂任务方面表现出显著的能力。我们的研究评估了 LMMs 在多智能体交互环境下对文化图像描述这一新任务的集体表现。我们的贡献如下:(1) 我们引入了 MosAIC,这是一个多智能体框架,利用具有不同文化角色的 LMMs 来增强跨文化图像描述;(2) 我们提供了一个包含来自中国、印度和罗马尼亚图像的英文文化丰富图像描述数据集,涵盖 GeoDE、GD-VCR 和 CVQA 三个数据集;(3) 我们提出了一个文化适应性指标,用于评估图像描述中的文化信息;(4) 我们证明了多智能体交互在不同指标上优于单智能体模型,并为未来的研究提供了宝贵的见解。我们的数据集和模型可在 https://github.com/MichiganNLP/MosAIC 获取。  
2024-11-18 MC-LLaVA: Multi-Concept Personalized Vision-Language Model link 目前的视觉语言模型 (VLM) 在包括视觉问答在内的各种任务中展现出卓越的能力。为了增强实际应用中的用户体验,最近的研究探索了VLM个性化以理解用户提供的概念。然而,现有研究主要集中在单概念个性化上,忽略了多个概念的存在和相互作用,这限制了个性化VLM的实际应用。在本文中,我们提出了第一个多概念个性化方法,称为MC-LLaVA,以及一个高质量的多概念个性化数据集。具体来说,MC-LLaVA采用联合训练策略,在单个训练步骤中结合多个概念,使VLM能够在多概念个性化中准确执行。为了降低联合训练的成本,MC-LLaVA利用视觉标记信息进行概念标记初始化,从而改进概念表示并加速联合训练。为了推进多概念个性化研究,我们进一步贡献了一个高质量的数据集。我们从包含多个角色的各种电影中精心收集图像,并手动生成多概念问答样本。我们的数据集涵盖了不同的电影类型和问答类型。我们进行了全面的定性和定量实验,以证明MC-LLaVA可以实现令人印象深刻的多概念个性化响应,为VLM成为更好的用户特定助手铺平了道路。代码和数据集将在https://github.com/arctanxarc/MC-LLaVA公开发布。  
2024-11-18 VLN-Game: Vision-Language Equilibrium Search for Zero-Shot Semantic Navigation null 遵循人类指令在陌生环境中探索和搜索指定目标是移动服务机器人的一项关键技能。以往关于物体目标导航的研究大多集中在单一输入模态作为目标,这可能导致对包含详细属性和空间关系的语言描述考虑不足。为了解决这一局限性,我们提出了VLN-Game,一个用于视觉目标导航的新型零样本框架,可以有效地处理物体名称和描述性语言目标。更准确地说,我们的方法通过将预训练的视觉语言特征与物理环境的三维重建相结合,构建了一个以物体为中心的三维空间地图。然后,该框架识别出最有希望的区域,以探索潜在的目标候选者。采用博弈论视觉语言模型来确定哪个目标与给定的语言描述最匹配。在Habitat-Matterport 3D (HM3D)数据集上进行的实验表明,所提出的框架在物体目标导航和基于语言的导航任务中均实现了最先进的性能。此外,我们展示了VLN-Game可以轻松部署到现实世界的机器人上。VLN-Game的成功凸显了使用博弈论方法和紧凑型视觉语言模型来提升机器人系统决策能力的巨大潜力。补充视频和代码可以通过以下链接访问:https://sites.google.com/view/vln-game。  
2024-11-18 Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment null 受益于大型语言模型 (LLM) 的强大功能,预训练的连接到 LLM 的视觉编码器模型形成了视觉语言模型 (VLM)。然而,最近的研究表明,VLM 中的视觉模态非常脆弱,攻击者可以通过视觉传输的内容绕过 LLM 中的安全对齐,发起有害攻击。为了应对这一挑战,我们提出了一种基于渐进式概念的对齐策略 PSA-VLM,它将安全模块作为概念瓶颈,以增强视觉模态安全对齐。通过将模型预测与特定安全概念对齐,我们改进了针对风险图像的防御,增强了可解释性和可控性,同时最大限度地减少了对一般性能的影响。我们的方法通过两阶段训练获得。第一阶段的低计算成本带来了非常有效的性能提升,第二阶段的语言模型微调进一步提高了安全性能。我们的方法在流行的 VLM 安全基准测试中取得了最先进的结果。  
2024-11-18 InstruGen: Automatic Instruction Generation for Vision-and-Language Navigation Via Large Multimodal Models null 最近关于视觉和语言导航 (VLN) 的研究表明,由于缺乏真实的训练环境和高质量的路径-指令对,agent 在未知环境中的泛化能力较差。大多数现有的构建逼真导航场景的方法成本较高,且指令的扩展主要依赖于预定义的模板或规则,缺乏适应性。为了缓解这个问题,我们提出了 InstruGen,一个 VLN 路径-指令对生成范式。具体来说,我们使用 YouTube 房屋参观视频作为真实的导航场景,并利用大型多模态模型 (LMM) 强大的视觉理解和生成能力来自动生成多样化且高质量的 VLN 路径-指令对。我们的方法可以生成不同粒度的导航指令,并在指令和视觉观察之间实现细粒度的对齐,这是以前的方法难以实现的。此外,我们设计了一个多阶段验证机制,以减少 LMM 的幻觉和不一致性。实验结果表明,使用 InstruGen 生成的路径-指令对训练的 agent 在 R2R 和 RxR 基准测试中,尤其是在未知环境中,达到了最先进的性能。代码可在 https://github.com/yanyu0526/InstruGen 获取。  
2024-11-18 Efficient Transfer Learning for Video-language Foundation Models link 预训练的视觉语言模型为跨各种下游任务的高效迁移学习提供了稳健的基础。在视频动作识别领域,主流方法通常会引入额外的参数模块来捕获时间信息。虽然这些额外参数带来的模型容量增加有助于更好地拟合视频特定的归纳偏差,但现有方法需要学习大量的参数,并且容易出现对原始泛化知识的灾难性遗忘。在本文中,我们提出了一个简单而有效的多模态时空适配器(MSTA),以改进文本和视觉分支中表示之间的对齐,从而在通用知识和特定任务知识之间取得平衡。此外,为了减轻过拟合并增强泛化能力,我们引入了时空描述引导的一致性约束。这种约束包括将模板输入(即“{cls} 的视频”)馈送到可训练的语言分支,同时将LLM生成的时空描述输入到预训练的语言分支,强制两个分支的输出保持一致。这种机制可以防止对下游任务的过拟合,并提高可训练分支在时空语义空间中的可区分性。我们在四个任务上评估了我们方法的有效性:零样本迁移、小样本学习、基础到新颖的泛化以及全监督学习。与许多最先进的方法相比,我们的MSTA在所有评估中都取得了优异的性能,而只使用了原始模型中2-7%的可训练参数。代码将在 https://github.com/chenhaoxing/ETL4Video 上提供。  
2024-11-17 Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection null 动作检测旨在对视频中的人类动作进行时空上的检测(识别和定位)。现有方法主要集中在封闭集合设置,其中动作检测器在来自固定动作类别集合的视频上进行训练和测试。然而,这种受限的设置在开放世界中是不可行的,因为测试视频不可避免地会超出训练的动作类别。在本文中,我们解决了实际但具有挑战性的开放词汇动作检测 (OVAD) 问题。其目标是在固定动作类别集合上训练模型的同时检测测试视频中的任何动作。为了实现这种开放词汇能力,我们提出了一种名为 OpenMixer 的新方法,它利用了大型视觉语言模型 (VLM) 在基于查询的检测转换器 (DETR) 系列中固有的语义和可定位性。具体来说,OpenMixer 由空间和时间 OpenMixer 模块(S-OMB 和 T-OMB)以及一个动态融合对齐 (DFA) 模块组成。这三个组件共同享有预训练 VLM 的强泛化能力和 DETR 设计的端到端学习的优点。此外,我们建立了各种设置下的 OVAD 基准测试,实验结果表明,OpenMixer 在检测已见和未见动作方面优于基线方法。我们在 https://github.com/Cogito2012/OpenMixer 发布了代码、模型和数据集划分。  
2024-11-15 LLaVA-o1: Let Vision Language Models Reason Step-by-Step link 大型语言模型在推理能力方面展现出显著进步,尤其体现在推理时规模扩展上,例如OpenAI的o1模型。然而,当前的视觉语言模型(VLM)在执行系统性和结构化推理时常常遇到困难,尤其是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA-o1,一个旨在进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地进行摘要、视觉解释、逻辑推理和结论生成等连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度显著提高。为此,我们编译了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化的推理标注。此外,我们提出了一种推理时阶段级集束搜索方法,实现了有效的推理时规模扩展。值得注意的是,仅使用10万个训练样本和一个简单而有效的推理时规模扩展方法,LLaVA-o1不仅在各种多模态推理基准测试中比其基础模型的性能提高了8.9%,而且还超过了更大甚至闭源模型的性能,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。  
2024-11-15 SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning link 现有的图像质量评估 (IQA) 方法在分析整体图像质量方面取得了显著成功,但很少有研究探索感兴趣区域 (ROI) 的质量分析。ROI 的质量分析可以为图像质量改进提供细粒度的指导,并且对于关注区域级质量的场景至关重要。本文提出了一种名为 SEAGULL 的新型网络,它可以借助大型视觉语言模型的指导来查看和评估 ROI 的质量。SEAGULL 结合了视觉语言模型 (VLM)、由 Segment Anything Model (SAM) 生成的用于指定 ROI 的掩码,以及精心设计的基于掩码的特征提取器 (MFE) 来提取指定 ROI 的全局和局部标记,从而实现对 ROI 的精确细粒度 IQA。此外,本文构建了两个基于 ROI 的 IQA 数据集,SEAGULL-100w 和 SEAGULL-3k,用于训练和评估基于 ROI 的 IQA。SEAGULL-100w 包含约 100 万张合成失真图像和 3300 万个 ROI,用于预训练以提高模型的区域质量感知能力,而 SEAGULL-3k 包含约 3000 个真实失真 ROI,以增强模型感知真实世界失真的能力。在 SEAGULL-100w 上进行预训练并在 SEAGULL-3k 上进行微调后,SEAGULL 在细粒度 ROI 质量评估方面展现出卓越的性能。代码和数据集已在 https://github.com/chencn2020/Seagull 公开发布。  
2024-11-15 Federated Domain Generalization via Prompt Learning and Aggregation link 联邦域泛化 (FedDG) 旨在通过解决隐私保护约束下的数据异构性来提高全局模型在未见域中的泛化能力。现有 FedDG 研究中的一种常见策略是在客户端之间共享特定域的知识,例如频谱信息、类别原型和数据风格。然而,这些知识是直接从本地客户端样本中提取的,共享此类敏感信息会带来数据泄露的潜在风险,这可能无法完全满足 FedDG 的要求。在本文中,我们引入了提示学习来适应 FedDG 场景下的预训练视觉语言模型 (VLM),并利用本地学习的提示作为更安全的桥梁来促进客户端之间的知识转移。具体来说,我们提出了一个通过提示学习和聚合 (PLAN) 的新型 FedDG 框架,该框架包含两个训练阶段,在每个联邦轮次协同生成局部提示和全局提示。首先,每个客户端使用自己的数据执行文本和视觉提示学习,通过将全局提示作为共同参考来间接同步局部提示。其次,所有特定域的局部提示在客户端之间交换,并使用基于轻量级注意力的聚合器选择性地聚合到全局提示中。最终,全局提示被应用于使 VLM 适应未见的目标域。由于我们的 PLAN 框架只需要训练有限数量的提示和轻量级聚合器,因此它在 FedDG 的计算和通信效率方面具有显著优势。大量实验表明,PLAN 在四个基准数据集上具有优越的泛化能力。  
2024-11-15 Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement link 全切片图像(WSI)分析在医学影像领域日益受到重视。病理学基础模型的最新进展表明,其具有从WSI中提取强大的特征表示用于下游任务的潜力。然而,这些基础模型通常设计用于通用病理图像分析,对于特定的下游任务或癌症类型可能并非最佳选择。在这项工作中,我们提出了概念锚引导的任务特定特征增强(CATE),这是一个适应性强的范例,可以提高病理学基础模型针对特定下游任务的表现力和辨别力。基于一组从病理视觉语言模型中提取的、由专家设计的提示得到的任务特定概念,我们引入了两个相互关联的模块,以动态校准基础模型提取的通用图像特征,使其适用于特定任务或癌症类型。具体来说,我们设计了一个概念引导的信息瓶颈模块,通过最大化图像特征和概念锚之间的互信息,同时抑制多余信息,来增强与任务相关的特征。此外,我们还提出了一个概念-特征干扰模块,利用校准后的特征和概念锚之间的相似性,进一步生成具有辨别力的任务特定特征。在公共WSI数据集上的大量实验表明,CATE显着提高了MIL模型的性能和泛化能力。此外,热力图和umap可视化结果也揭示了CATE的有效性和可解释性。源代码可在https://github.com/HKU-MedAI/CATE获取。  
2024-11-14 Cross-Modal Consistency in Multimodal Large Language Models null 多模态方法的最新发展标志着模型处理各种数据类型(包括文本、音频和视觉内容)的新时代的开始。像GPT-4V这样将计算机视觉与高级语言处理相结合的模型,在处理需要同时理解文本和视觉信息的复杂任务方面表现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型(VLLM)在各种领域(包括目标检测、图像描述和其他相关领域)的有效性。然而,现有的分析往往存在局限性,主要集中在孤立地评估每种模态的性能,而忽略了探索它们复杂的跨模态交互。具体来说,这些模型在面对不同模态的相同任务实例时是否达到相同的准确度水平的问题仍然没有答案。在本研究中,我们主动通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣的模态之间的交互和比较。此外,我们提出了一个基于此概念的定量评估框架。我们从自己开发的一系列精选的平行视觉语言数据集中得出的实验结果表明,尽管GPT-4V被描述为一个统一的多模态模型,但其视觉和语言模态之间存在明显的不一致性。我们的研究揭示了此类模型的适当使用方法,并暗示了改进其设计的潜在途径。  
2024-11-13 ClevrSkills: Compositional Language and Visual Reasoning in Robotics null 机器人任务本质上是高度组合的。例如,要执行像清洁桌子这样的高级任务,机器人必须运用低级能力,将效应器移动到桌子上的物体,拾取它们,然后将它们一个个地从桌子上移开,同时在此过程中重新评估随之而来的动态场景。鉴于大型视觉语言模型 (VLM) 在许多需要高级、类人推理的任务上取得了进展,我们提出了这样一个问题:如果教会模型必要的低级能力,它们能否以新颖的方式组合这些能力来完成有趣的像清洁桌子这样的高级任务,而无需明确地教授?为此,我们提出了 ClevrSkills——一个用于机器人组合推理的基准套件。ClevrSkills 是一个基于 ManiSkill2 模拟器开发的环境套件以及一个伴随的数据集。该数据集包含在一系列机器人任务上生成的轨迹,带有语言和视觉注释以及作为任务规范的多模态提示。该套件包括一个包含三个级别的组合理解的任务课程,从需要基本运动技能的简单任务开始。我们在 ClevrSkills 上对多个不同的 VLM 基线进行了基准测试,并表明即使在大量任务上进行了预训练后,这些模型在机器人任务的组合推理上仍然失败。  
2024-11-13 DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models link 大型语言模型 (LLM) 在机器人系统中展现出显著的推理能力。然而,它们在多机器人系统中的部署仍然较为分散,难以处理复杂的依赖关系和并行执行。本研究介绍了 DART-LLM(基于依赖感知的多机器人任务分解和执行系统),旨在应对这些挑战。DART-LLM 利用 LLM 解析自然语言指令,将其分解为多个具有依赖关系的子任务,以建立复杂的任务序列,从而增强多机器人系统中的高效协调和并行执行。该系统包含问答LLM模块、分解函数模块、执行模块和基于视觉语言模型 (VLM) 的目标检测模块,支持将自然语言指令转换为机器人动作的任务分解和执行。实验结果表明,DART-LLM 擅长处理长周期任务和具有复杂依赖关系的协作任务。即使使用较小的模型(如 Llama 3.1 8B),该系统也能取得良好的性能,突出了 DART-LLM 在模型规模方面的鲁棒性。更多视频和代码,请访问项目网站:https://wyd0817.github.io/project-dart-llm/。  
2024-11-13 The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models null 最近的一些工作致力于开发专门用于医疗应用的基础模型,通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能,例如回答医学执照考试问题。在本文中,我们将十个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较,得出了不同的结论:所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 的零样本/少样本提示和监督微调机制中均未能持续改进其基准模型。例如,在我们考虑的 3 样本设置中的所有任务和模型对中,医学 LLM 仅在 22.7% 的情况下优于其基准模型,在 36.8% 的情况下达到(统计)持平,并且在其余 40.5% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较;(ii) 在零样本/少样本提示中分别优化每个模型的提示;以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中得到一致采用,但我们的消融研究表明它们会对结论产生重大影响。同时,我们发现,在针对特定 QA 任务进行微调后,医学 LLM 可以显示出性能改进,但这些好处并不会延续到基于临床记录的任务。我们的研究结果表明,最先进的通用领域模型可能已经展现出强大的医学知识和推理能力,并为加强未来研究的结论提供了建议。  
2024-11-13 Sharingan: Extract User Action Sequence from Desktop Recordings null 用户活动视频记录,尤其是桌面录屏,为理解用户行为和自动化流程提供了丰富的数据来源。然而,尽管视觉语言模型(VLM)取得了进步并在视频分析中得到越来越多的应用,但从桌面录屏中提取用户动作仍然是一个未被充分探索的领域。本文旨在弥补这一差距,提出了两种基于VLM的用户动作提取新方法:直接基于帧的方法(DF),将采样帧直接输入VLM;以及基于差异帧的方法(DiffF),它结合了通过计算机视觉技术检测到的帧间差异。我们使用一个基本的自建数据集和一个改编自先前工作的进阶基准来评估这些方法。结果表明,DF方法在识别用户动作方面达到了70%到80%的准确率,提取的动作序列可以通过机器人流程自动化(RPA)进行重放。我们发现,虽然VLM展现了潜力,但纳入显式的UI变化反而会降低性能,使得DF方法更加可靠。这项工作首次将VLM应用于从桌面录屏中提取用户动作序列,为未来的研究贡献了新的方法、基准和见解。  
2024-11-13 Voxeland: Probabilistic Instance-Aware Semantic Mapping with Evidence-based Uncertainty Quantification link 在以人为中心的场景中,机器人需要准确的场景理解才能有效地执行高级任务。这种理解可以通过实例感知语义建图来实现,它涉及在单个实例级别重建元素。神经网络作为场景理解的实际解决方案,仍然面临一些局限性,例如对分布外对象的过度自信的错误预测或生成不准确的掩码。过度依赖这些预测会使重建容易出错,降低最终地图的鲁棒性,并妨碍机器人的操作。在这项工作中,我们提出了Voxeland,一个用于增量构建实例感知语义地图的概率框架。受证据理论的启发,Voxeland将神经网络预测视为关于地图实例在几何和语义层面的主观意见。这些意见随着时间的推移聚合形成证据,并通过概率模型进行形式化。这使我们能够量化重建过程中的不确定性,从而有助于识别需要改进的地图区域(例如重新观察或重新分类)。作为利用这一点的一种策略,我们结合了一个大型视觉语言模型(LVLM)来对具有高不确定性的实例执行语义级别的消歧。在公开可用的SceneNN数据集上的标准基准测试结果表明,Voxeland优于最先进的方法,突出了结合和利用实例级和语义级不确定性来增强重建鲁棒性的好处。在真实世界的ScanNet数据集上进行的定性实验进一步验证了这一点。  
2024-11-13 Retrieval Augmented Recipe Generation null 鉴于从食物图像生成食谱的潜在应用,近年来该领域受到了研究人员的极大关注。现有的食谱生成工作主要采用两阶段训练方法,首先生成食材,然后从图像和食材中获取烹饪步骤。大型多模态模型 (LMM) 在各种视觉和语言任务中取得了显著成功,为直接从图像生成食材和步骤提供了新的思路。然而,LMM 在食谱生成过程中仍然面临常见的幻觉问题,导致性能欠佳。为了解决这个问题,我们提出了一种用于食谱生成的检索增强大型多模态模型。我们首先引入了随机多样化检索增强 (SDRA) 方法,从现有数据存储中检索与图像语义相关的食谱作为补充,将它们集成到提示中,为输入图像添加多样化和丰富的上下文。此外,我们提出了自一致性集成投票机制,以确定最置信的预测食谱作为最终输出。它计算生成的候选食谱之间的一致性,这些候选食谱使用不同的检索食谱作为生成上下文。大量实验验证了我们提出的方法的有效性,它在 Recipe1M 数据集上的食谱生成任务中展现了最先进 (SOTA) 的性能。  
2024-11-13 Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints null 基于互联网规模数据训练的基础模型,例如视觉语言模型 (VLM),擅长执行涉及常识的任务,例如视觉问答。尽管它们能力非凡,但这些模型目前无法直接应用于需要复杂且精确的连续推理的挑战性机器人操作问题。任务和运动规划 (TAMP) 系统可以通过组合传统的原始机器人操作来控制高维连续系统进行长期规划。然而,这些系统需要机器人如何影响其环境的详细模型,这阻止它们直接解释和处理新的目标,例如,一个任意的自然语言目标。我们建议在 TAMP 系统内部署 VLM,让它们生成离散和连续的语言参数化约束,使 TAMP 能够推理开放世界概念。具体来说,我们提出了 VLM 部分规划算法,该算法约束 TAMP 系统的离散时间搜索和 VLM 连续约束解释,以增强 TAMP 系统寻求满足的传统操作约束。我们在两种机器人平台(包括一个真实世界的机器人)上通过几个操作任务演示了我们的方法,其中期望的目标仅通过语言传达。  
2024-11-12 DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection link 分布外 (OOD) 检测对于通过识别偏离训练分布的样本从而确保机器学习模型的鲁棒性至关重要。虽然传统的 OOD 检测主要关注单模态输入(例如图像),但多模态模型的最新进展已经证明了利用多模态(例如视频、光流、音频)来增强检测性能的潜力。然而,现有方法通常忽略分布内 (ID) 数据中的类内差异,假设同一类的样本完全一致且没有变化。这种假设会导致性能下降,尤其当预测差异在所有样本中被均匀放大时。为了解决这个问题,我们提出了动态原型更新 (DPU),这是一个用于多模态 OOD 检测的即插即用框架,它考虑了类内变化。我们的方法通过测量每个批次中相似样本的方差来动态更新每个类的中心表示,从而实现自适应调整。这种方法允许我们根据更新的类中心放大预测差异,从而提高模型在不同模态下的鲁棒性和泛化能力。在两个任务、五个数据集和九个基础 OOD 算法上的大量实验表明,DPU 显着提高了 OOD 检测性能,在多模态 OOD 检测中树立了新的最先进水平,在远距离 OOD 检测中的改进高达 80%。为了促进可访问性和可重复性,我们的代码已在 GitHub 上公开发布。  
2024-11-12 JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation link 我们提出了JanusFlow,这是一个强大的框架,它在单个模型中统一了图像理解和生成。JanusFlow引入了一个极简的架构,它将自回归语言模型与校正流(一种最先进的生成建模方法)集成在一起。我们的主要发现表明,校正流可以直接在大型语言模型框架内进行训练,而无需复杂的架构修改。为了进一步提高我们统一模型的性能,我们采用了两个关键策略:(i)解耦理解编码器和生成编码器,以及(ii)在统一训练期间对齐它们的表示。大量实验表明,JanusFlow在其各自领域实现了与专用模型相当或更优的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈出的一步。  
2024-11-12 SparrowVQE: Visual Question Explanation for Course Content Understanding link 视觉问答 (VQA) 研究致力于创建能够回答图像中自然语言问题的 AI 系统,然而 VQA 方法通常只会产生过于简单和简短的答案。本文旨在通过引入视觉问题解释 (VQE) 来推进该领域的发展,VQE 增强了 VQA 提供详细解释而非简短回答的能力,并解决了对更复杂的视觉内容交互的需求。我们首先从一个为期 14 周的流媒体视频机器学习课程中创建了一个 MLVQE 数据集,其中包含 885 张幻灯片图像、110,407 个单词的转录文本和 9,416 个设计好的问答 (QA) 对。接下来,我们提出了一个新颖的 SparrowVQE 模型,这是一个仅有 30 亿参数的小型多模态模型。我们使用三阶段训练机制来训练我们的模型,包括多模态预训练(幻灯片图像和转录文本特征对齐)、指令微调(使用转录文本和问答对微调预训练模型)和领域微调(微调幻灯片图像和问答对)。最终,我们的 SparrowVQE 可以使用 SigLIP 模型理解和连接视觉信息,并使用带有 MLP 适配器的 Phi-2 语言模型处理转录文本。实验结果表明,我们的 SparrowVQE 在我们开发的 MLVQE 数据集中取得了更好的性能,并且在其他五个基准 VQA 数据集中优于最先进的方法。源代码可在 \url{https://github.com/YoushanZhang/SparrowVQE} 获取。  
2024-11-11 Multimodal Fusion Balancing Through Game-Theoretic Regularization null 多模态学习可以通过揭示数据源之间的关键依赖关系来完善信息提取的图景。然而,当前的系统未能充分利用多种模态以获得最佳性能。这归因于模态竞争,其中各种模态争夺训练资源,导致一些模态未得到充分优化。我们发现,当前的平衡方法难以训练出超越简单基线(例如集成模型)的多模态模型。这就提出了一个问题:我们如何确保多模态训练中的所有模态都得到充分训练,并且从新模态中学习能够持续提高性能?本文提出了多模态竞争正则化器 (MCR),这是一种受互信息 (MI) 分解启发的新损失组件,旨在防止多模态训练中竞争的不利影响。我们的主要贡献是:1) 在多模态学习中引入博弈论原则,其中每种模态都充当一个参与者,竞争以最大化其对最终结果的影响,从而实现 MI 项的自动平衡。2) 细化每个 MI 项的下限和上限,以增强对跨模态的任务相关的独特信息和共享信息的提取。3) 建议使用潜在空间排列进行条件 MI 估计,从而显著提高计算效率。MCR 的性能优于所有先前建议的训练策略,并且是第一个持续改进多模态学习并超越集成模型基线的方法,清楚地表明结合多种模态可以在合成数据集和大型真实世界数据集上带来显著的性能提升。  
2024-11-11 StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification link 现有的大型视觉语言模型 (LVLM) 主要局限于处理短至几秒的视频,难以生成连贯的描述来概括长达几分钟或更长时间的视频。长视频描述引入了新的挑战,例如描述中跨情节级别的一致性。为了解决这些问题,我们确定了视听角色识别(将角色名称与每个对话匹配)是一个关键因素。我们提出了 StoryTeller,一个用于生成长视频密集描述的系统,它结合了低级视觉概念和高级情节信息。StoryTeller 使用集成了视觉、音频和文本模态的多模态大型语言模型,对长达几分钟的视频片段执行视听角色识别。然后将结果输入到 LVLM 中以增强视频描述的一致性。我们在电影描述任务上验证了我们的方法,并引入了 MovieStory101,一个包含三分钟电影片段密集描述的数据集。为了评估长视频描述,我们创建了 MovieQA,一个针对 MovieStory101 测试集的大型多项选择题集。我们通过将描述输入 GPT-4 来回答这些问题,并使用准确率作为自动评估指标来评估描述质量。实验表明,StoryTeller 在 MovieQA 上的性能优于所有开源和闭源基线模型,准确率比最强基线 Gemini-1.5-pro 高 9.5%,并且在人工并排评估中展现出 +15.56% 的优势。此外,结合 StoryTeller 的视听角色识别功能,所有视频描述模型的性能均有所提高,Gemini-1.5-pro 和 GPT-4o 在 MovieQA 上的准确率分别提高了 5.5% 和 13.0%。  
2024-11-11 UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models null 预训练的视觉语言模型(例如CLIP)已经展现出强大的零样本迁移能力。但是它们仍然难以应对领域迁移,并且通常需要标记数据来适应下游任务,这可能成本高昂。在这项工作中,我们旨在利用自然跨越多个领域的未标记数据来增强视觉语言模型的可迁移性。在这个无监督多领域设置下,我们发现了CLIP中固有的模型偏差,尤其是在其视觉和文本编码器中。具体来说,我们观察到CLIP的视觉编码器倾向于优先编码领域信息而不是区分性类别信息,同时其文本编码器表现出对领域相关类别的偏好。为了减轻这种模型偏差,我们提出了一种免训练且免标签的特征校准方法,即无监督多领域特征校准(UMFC)。UMFC从特定领域的特征估计图像级偏差,并从领域转换的方向估计文本级偏差。随后,这些偏差分别从原始图像和文本特征中减去,以使它们与领域无关。我们在多种设置(包括直推式学习和测试时适应)下评估了我们的方法。大量实验表明,我们的方法优于CLIP,并且性能与需要额外标注或优化的最先进方法相当。我们的代码可在https://github.com/GIT-LJc/UMFC获取。  
2024-11-11 Renaissance: Investigating the Pretraining of Vision-Language Encoders link 在过去几年中,用于视觉语言任务的可用模型数量激增。然而,现有文献仍然存在许多与设计和训练此类模型的最佳实践相关的问题。在本文中,我们试图通过元分析来回答几个与视觉语言编码器预训练相关的问题。在我们的第一组实验中,我们表明,通过在预训练期间冻结视觉语言模型的大部分,我们可以在不损失下游性能的情况下节省大量的计算资源。在我们的第二组实验中,我们研究了基于视觉模型与基于文本模型的视觉语言转换器的效果。此外,我们介绍了一个名为Renaissance的视觉语言建模平台,我们使用该平台进行所有实验。该程序为创建、训练和评估用于视觉语言建模的Transformer编码器提供了极大的灵活性。Renaissance的源代码可以在https://github.com/bsu-slim/renaissance找到。  
2024-11-09 M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework null 能够理解文档并回答相关问题的能力在许多商业和实际应用中都非常有用。然而,文档通常包含冗长且多样化的多模态内容,例如文本、图表和表格,这对于人类来说非常耗时。因此,迫切需要开发有效且自动的方法来帮助人类完成这项任务。在这项工作中,我们引入了M-LongDoc,一个包含851个样本的基准测试,以及一个用于评估大型多模态模型性能的自动化框架。我们进一步提出了一种检索感知的调整方法,以实现高效且有效的多模态文档阅读。与现有工作相比,我们的基准测试包含更新且更长的文档(数百页),同时也需要开放式答案,而不仅仅是提取式答案。据我们所知,我们的训练框架是第一个直接解决多模态长文档检索问题的框架。为了能够调整开源模型,我们以全自动的方式构建了一个用于此类文档问答任务的训练语料库。实验表明,与基线开源模型相比,我们的调整方法使模型响应的正确性提高了4.6%。我们的数据、代码和模型可在https://multimodal-documents.github.io获取。  
2024-11-09 Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension null 近年来,大型视觉语言模型(VLM)通过视觉指令微调在视觉语言能力方面取得了显著进展,在遥感图像解译领域展现出巨大的潜力。然而,现有的遥感视觉语言模型(RSVLM)通常难以捕捉遥感场景的复杂特征,因为它们通常依赖于低分辨率、单尺度的视觉特征以及将视觉特征映射到语言特征的简单方法。在本文中,我们提出了Aquila,一个先进的视觉语言基础模型,旨在实现更丰富的遥感图像视觉特征表示和更精确的视觉语言特征对齐。我们的方法引入了一个可学习的分层空间特征融合(SFI)模块,该模块支持高分辨率图像输入并聚合多尺度视觉特征,从而可以详细表示复杂的视觉信息。此外,SFI模块被反复集成到大型语言模型(LLM)的层中,以实现深度视觉语言特征对齐,而不会影响模型在自然语言处理任务中的性能。这些创新,通过更高分辨率和多尺度输入捕捉详细的视觉效果,并增强特征对齐,显著提高了模型从图像文本数据中学习的能力。我们通过广泛的定量实验和定性分析验证了Aquila的有效性,证明了其优越的性能。  
2024-11-09 GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection null 零样本异常检测 (ZSAD) 对于在没有训练样本的情况下检测目标数据集中的异常模式至关重要,尤其是在目标域和训练数据之间存在分布差异或由于访问限制导致数据稀缺的情况下。尽管最近预训练的视觉语言模型在各种视觉任务中展现出强大的零样本性能,但它们侧重于学习类别语义,这使得它们直接应用于 ZSAD 具有挑战性。为了解决这种情况,我们提出了 GlocalCLIP,它独特地分离全局和局部提示并对其进行联合优化。这种方法使得与对象无关的全局语义提示设计能够有效地捕获一般的正常和异常模式,而无需依赖图像中的特定对象。我们通过在文本编码器中利用深度文本提示调整来改进文本提示,以进行更精确的调整。在视觉编码器中,我们应用 V-V 注意力层来捕获详细的局部图像特征。最后,我们引入了全局对比学习来改进全局和局部提示的互补学习,从而有效地检测跨各个领域的异常模式。GlocalCLIP 在 ZSAD 中的泛化性能在来自工业和医疗领域的 15 个真实世界数据集上得到了证明,实现了优于现有方法的性能。  
2024-11-09 An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models link 大型多模态模型 (LMMs) 在各种视觉和语言任务中都取得了强大的性能。然而,它们的空间推理能力却缺乏研究。在本文中,我们构建了一个新颖的视觉问答数据集 Spatial-MM,以全面研究 LMMs 的空间理解和推理能力。我们对对象关系和多跳推理的分析揭示了几个重要发现。首先,边界框和场景图,即使是合成的,也可以显著增强 LMMs 的空间推理能力。其次,LMMs 在处理从人类视角提出的问题时,比从相机视角提出的问题更困难。第三,思维链 (CoT) 提示并不能提高模型在涉及空间关系的复杂多跳问题上的性能。最后,我们对 GQA-spatial 的扰动分析表明,LMMs 在基本物体检测方面比复杂空间推理方面更强。我们相信我们的基准数据集和深入分析可以激发对 LMMs 空间推理的进一步研究。Spatial-MM 基准数据集可在以下网址获取:https://github.com/FatemehShiri/Spatial-MM  
2024-11-08 End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering link 我们提出了VLMnav,这是一个将视觉语言模型(VLM)转换为端到端导航策略的具体化框架。与先前的工作不同,我们不依赖于感知、规划和控制之间的分离;相反,我们使用VLM一步直接选择动作。令人惊讶的是,我们发现VLM可以零样本地用作端到端策略,即无需任何微调或接触导航数据。这使得我们的方法具有开放性,并且可以泛化到任何下游导航任务。我们进行了广泛的研究,以评估我们的方法与基线提示方法相比的性能。此外,我们还进行了设计分析,以了解最具影响力的设计决策。我们项目的视觉示例和代码可以在https://jirl-upenn.github.io/VLMnav/找到。  
2024-11-08 Towards Low-Resource Harmful Meme Detection with LMM Agents link 在社交媒体时代,网络迷因的泛滥使得有效识别有害迷因成为必要。由于迷因的动态特性,现有的数据驱动模型在只有少量标记样本的低资源场景下可能会遇到困难。本文提出了一个基于代理的低资源有害迷因检测框架,利用少量标注样本进行外向和内向分析。受大型多模态模型 (LMM) 在多模态推理方面强大能力的启发,我们首先检索带有标注的相关迷因,以利用标签信息作为LMM代理的辅助信号。然后,我们引出LMM代理内部的知识修正行为,以获得对迷因有害性的良好泛化洞察。通过结合这些策略,我们的方法能够对复杂和隐含的危害指示模式进行辩证推理。在三个迷因数据集上进行的大量实验表明,我们提出的方法在低资源有害迷因检测任务上取得了优于现有最先进方法的性能。  
2024-11-08 Enhancing Visual Classification using Comparative Descriptors null 视觉语言模型(VLM),例如CLIP,在视觉分类任务中的性能已经通过利用来自大型语言模型(LLM)(包括GPT)的语义知识得到增强。最近的研究表明,在零样本分类任务中,包含附加线索、高级概念甚至随机字符的描述符通常优于仅使用类别名称的描述符。在许多分类任务中,虽然top-1准确率可能相对较低,但top-5准确率通常要高得多。这种差距意味着大多数错误分类发生在几个相似的类别之间,突出了模型难以区分具有细微差异的类别。为了应对这一挑战,我们引入了比较描述符的新概念。这些描述符强调目标类别与其最相似类别之间的独特特征,从而增强区分度。通过生成并将这些比较描述符整合到分类框架中,我们改进了语义焦点并提高了分类精度。额外的过滤过程确保这些描述符更接近CLIP空间中的图像嵌入,进一步提高了性能。我们的方法通过解决细微的类间差异这一特定挑战,提高了视觉分类任务的准确性和鲁棒性。  
2024-11-08 Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation link 隐性表征对齐已成为构建多模态大型语言模型 (MLLM) 的基础技术,它将不同模态的嵌入映射到共享空间,通常与大型语言模型 (LLM) 的嵌入空间对齐,以实现有效的跨模态理解。虽然初步的蛋白质导向 MLLM 已经出现,但它们主要依赖于启发式方法,缺乏对跨表征的最佳对齐实践的基本理解。在本研究中,我们探索了蛋白质领域中 LLM 和几何深度模型 (GDM) 之间多模态表征的对齐。我们全面评估了三个最先进的 LLM(Gemma2-2B、LLaMa3.1-8B 和 LLaMa3.1-70B)与四个蛋白质特化 GDM(GearNet、GVP、ScanNet、GAT)。我们的工作从模型和蛋白质角度检验对齐因素,确定当前对齐方法中的挑战,并提出改进对齐过程的策略。我们的主要发现表明,结合图和 3D 结构信息的 GDM 可以更好地与 LLM 对齐,更大的 LLM 表现出改进的对齐能力,蛋白质的稀有性会显着影响对齐性能。我们还发现,增加 GDM 嵌入维度、使用双层投影头以及在蛋白质特定数据上微调 LLM 可以显着提高对齐质量。这些策略为增强蛋白质相关多模态模型的性能提供了潜力。我们的代码和数据可在 https://github.com/Tizzzzy/LLM-GDM-alignment 获取。  
2024-11-08 Real-World Offline Reinforcement Learning from Vision Language Model Feedback null 离线强化学习可以在没有在线交互的情况下,利用预先收集的次优数据集进行策略学习。这使得它非常适合于现实世界的机器人和安全关键场景,在这些场景中,收集在线数据或专家演示缓慢、昂贵且有风险。然而,大多数现有的离线强化学习工作假设数据集已经被标注了任务奖励,这个过程通常需要大量的人工工作,尤其是在难以确定真实状态的情况下(例如,在现实世界中)。在本文中,我们基于先前的工作,特别是RL-VLM-F,提出了一个新颖的系统,该系统使用来自视觉语言模型的偏好反馈和任务的文本描述,自动为离线数据集生成奖励标签。然后,我们的方法使用带有奖励标签的数据集进行离线强化学习来学习策略。我们展示了该系统在复杂的现实世界机器人辅助穿衣任务中的适用性,我们首先使用视觉语言模型在次优离线数据集上学习奖励函数,然后使用学习到的奖励函数,采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及操纵刚性和可变形物体的仿真任务中也表现良好,并且显著优于行为克隆和逆强化学习等基线方法。总之,我们提出了一个新的系统,能够从未标记的、次优的离线数据集中自动进行奖励标记和策略学习。  
2024-11-07 On Erroneous Agreements of CLIP Image Embeddings null 最近的研究表明,视觉语言模型 (VLM) 在视觉推理方面的失败通常源于错误的一致性——语义上不同的图像被 CLIP 图像编码器模糊地编码为具有高余弦相似度的嵌入向量。在本文中,我们表明错误的一致性并不总是主要原因,因为多模态大型语言模型 (MLLM) 仍然可以从中提取不同的信息。例如,在 What’sUp 基准测试中区分左侧和右侧的物体时,左右对的 CLIP 图像嵌入向量的平均余弦相似度 >0.99,并且 CLIP 的性能与随机猜测相当;但是使用相同 CLIP 图像编码器的 LLaVA-1.5-7B 却达到了接近 100% 的准确率。我们发现 CLIP 图像嵌入向量中可提取的信息可能被 CLIP 不充分的视觉语言对齐所掩盖:其通过对比目标学习的匹配分数可能没有捕获所有不同的图像-文本对应关系。我们还研究了 MMVP 基准测试,先前的工作表明 LLaVA-1.5 无法区分具有高余弦相似度的图像对。我们观察到通过替代解码算法更多地关注视觉输入所带来的性能提升。此外,如果模型可以将两个图像都作为输入以强调它们细微的差异,则准确性会显着提高。这两项发现都表明 LLaVA-1.5 没有充分利用提取的视觉信息。总之,我们的研究结果表明,虽然改进图像编码器可能对 VLM 有利,但通过应用更好的提取和利用视觉信息的策略,仍然有提升使用固定图像编码器的模型的空间。  
2024-11-07 DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation link 在开放词汇移动操控领域,目标是让机器人根据自然语言描述在任何环境中执行任务,目前已取得重大进展。然而,大多数现有系统假设环境是静态的,这限制了系统在现实场景中的适用性,因为现实场景中环境会由于人为干预或机器人自身的行为而频繁变化。在这项工作中,我们提出了 DynaMem,一种用于开放世界移动操控的新方法,它使用动态时空语义记忆来表示机器人的环境。DynaMem 构建了一个 3D 数据结构来维护点云的动态记忆,并使用多模态大型语言模型或由最先进的视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。在 DynaMem 的支持下,我们的机器人可以探索新环境,搜索记忆中不存在的物体,并在场景中物体移动、出现或消失时不断更新记忆。我们在三个真实场景和九个离线场景中使用 Stretch SE3 机器人进行了大量实验,对非静止物体的平均拾取和放置成功率达到了 70%,比最先进的静态系统提高了 2 倍以上。我们的代码以及实验和部署视频已开源,可在我们的项目网站上找到:https://dynamem.github.io/  
2024-11-07 Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs null 随着大型语言模型 (LLM) 和多模态模型的里程碑式发展,我们看到将 LLM 应用于生化任务的热潮。利用图特征和分子文本表示,LLM 可以处理各种任务,例如预测化学反应结果和描述分子性质。然而,目前大多数工作忽略了图特征的多层次性。不同特征层次对 LLM 的影响以及每个层次的重要性仍未得到探索,而且不同的化学任务可能需要不同的特征层次。在这项工作中,我们首先通过融合 GNN 生成的特征标记来研究特征粒度的影响,发现即使将所有标记减少到单个标记也不会显着影响性能。然后,我们探索了不同特征级别对性能的影响,发现 LLM 生成分子的质量和不同任务的性能都受益于不同的特征级别。我们总结了两个关键见解:(1)当前的分子多模态 LLM (MLLM) 缺乏对图特征的全面理解,以及(2)静态处理不足以处理分层图特征。我们的代码即将公开发布。  
2024-11-07 Vision Language Models are In-Context Value Learners null 从视觉轨迹预测时间进度对于能够学习、适应和改进的智能机器人至关重要。然而,学习这种跨不同任务和领域的进度估计器或时间值函数,需要大量多样化的数据和可扩展且可泛化的学习方法。为了应对这些挑战,我们提出了生成式值学习(GVL),一种通用的值函数估计器,它利用视觉语言模型(VLM)中嵌入的世界知识来预测任务进度。简单地让VLM预测视频序列的值表现不佳,因为连续帧之间存在强烈的时序相关性。相反,GVL将值估计视为对打乱的视频帧进行时序排序的问题;这项看似更具挑战性的任务鼓励VLM更充分地利用其潜在的语义和时序基础能力来区分帧,基于其感知的任务进度,从而产生明显更好的值预测。无需任何机器人或特定任务的训练,GVL可以在上下文零样本和少样本情况下,对跨不同机器人平台的300多个不同的真实世界任务(包括具有挑战性的双手操作任务)预测有效值。此外,我们证明了GVL允许通过来自异构任务和实施例(例如人类视频)的示例进行灵活的多模态上下文学习。GVL的通用性使其能够应用于各种与视觉运动策略学习相关的下游应用,包括数据集过滤、成功检测和优势加权回归——所有这些都无需任何模型训练或微调。  
2024-11-06 Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? null 最近的一些工作致力于开发专门用于医疗应用的基础模型,通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能,例如回答医学执照考试问题。在本文中,我们将七个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较,得出了不同的结论:所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 任务的零样本/少样本提示机制下,均未能始终如一地改进其基准模型。例如,在我们考虑的 3 样本设置中的任务和模型对中,医学 LLM 仅在 12.1% 的情况下优于其基准模型,在 49.8% 的情况下达到(统计)持平,并且在其余 38.2% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较;(ii) 分别为每个模型优化提示;以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中始终如一地采用,但我们的消融研究表明,它们会对结论产生重大影响。我们的研究结果表明,最先进的通用领域模型可能已经展现出强大的医学知识和推理能力,并为加强未来研究的结论提供了建议。  
2024-11-06 RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models link 微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联,导致零样本测试性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作,而不是直接干预细粒度的图像特征,并且 (ii) 主要为单模态设置而设计。在这项工作中,我们提出了 RaVL,它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联,从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM,RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征,从而发现虚假关联。然后,RaVL 通过一种新颖的区域感知损失函数来减轻已识别的虚假关联,该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明,RaVL 能够准确地发现(比最接近的基线提高 191%)和减轻(最差组图像分类准确率提高 8.2%)虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。  
2024-11-06 DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model null 构思是基于视频的设计 (VBD) 的关键组成部分,其中视频是设计探索和灵感的首要媒介。生成式人工智能的出现为增强这一过程提供了巨大的潜力,它可以简化视频分析并促进创意生成。在本文中,我们提出了 DesignMinds,这是一个将最先进的视觉语言模型 (VLM) 与上下文增强的语言大模型 (LLM) 相结合的原型,以支持 VBD 中的构思。为了评估 DesignMinds,我们对 35 位设计从业者进行了一项受试者间研究,将其性能与基线条件进行了比较。我们的结果表明,DesignMinds 显着增强了构思的灵活性和原创性,同时也提高了任务参与度。重要的是,这项技术的引入并没有对用户体验、技术接受度或可用性产生负面影响。  
2024-11-06 Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction null 几何尺寸和公差 (GD&T) 通过定义零件特征的可接受偏差来确保组件质量和功能,在制造业中起着至关重要的作用。然而,从 2D 工程图中提取 GD&T 信息是一项耗时且劳动密集型的任务,通常依赖于手动工作或半自动化工具。为了应对这些挑战,本研究提出了一种通过微调 Florence-2(一种开源视觉语言模型 (VLM))来自动化且高效地提取 GD&T 信息的方法。该模型在包含 400 张工程图的数据集上进行训练,其中真实标注由领域专家提供。为了进行比较,两个最先进的闭源 VLM,GPT-4o 和 Claude-3.5-Sonnet,也在同一数据集上进行了评估。所有模型均使用精确率、召回率、F1 值和幻觉指标进行评估。由于针对特定领域任务微调大型闭源 VLM 的计算成本和不切实际性,GPT-4o 和 Claude-3.5-Sonnet 在零样本设置下进行了评估。相比之下,Florence-2 拥有 2.3 亿个参数,是一个较小的模型,它通过在三个不同的实验中进行全参数微调来进行优化,每个实验都使用了不同程度增强的数据集。结果表明,与性能最佳的闭源模型相比,Florence-2 的精确率提高了 29.95%,召回率提高了 37.75%,F1 值提高了 52.40%,幻觉率降低了 43.15%。这些发现突出了微调较小的开源 VLM(如 Florence-2)的有效性,为自动化 GD&T 提取提供了一种实用且高效的解决方案,以支持下游制造任务。  
2024-11-05 Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset link 机器遗忘学习已成为一种在训练数据中遗忘特定信息的有效策略。然而,随着视觉数据集成度的提高,视觉语言模型 (VLM) 中的隐私问题仍未得到充分探索。为了解决这个问题,我们引入了面部身份遗忘基准 (FIUBench),这是一个新颖的 VLM 遗忘学习基准,旨在稳健地评估“被遗忘权”设置下遗忘算法的有效性。具体来说,我们通过构建虚拟面部身份VQA数据集来制定VLM遗忘学习任务,并应用一个两阶段评估流程,旨在精确控制信息来源及其暴露程度。在评估方面,由于VLM支持使用具有相同语义的各种提问方式,我们还提供强大的评估指标,包括成员推理攻击和精心设计的对抗性隐私攻击,以评估算法的性能。通过在FIUBench内评估四个基线VLM遗忘学习算法,我们发现所有方法的遗忘学习性能仍然有限,在模型效用和遗忘质量之间存在显著的权衡。此外,我们的研究结果还强调了隐私攻击对于稳健评估的重要性。我们希望FIUBench能够推动开发更有效的VLM遗忘学习算法。  
2024-11-05 VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation link 随着大型语言模型 (LLM)、视觉语言模型 (VLM) 和其他通用基础模型的兴起,能够仅通过自然语言输入就在不同环境中运行的多模态、多任务具身代理的潜力越来越大。室内导航便是这种应用领域之一,它使用自然语言指令进行导航。然而,尽管最近取得了进展,但由于所需的空间推理和语义理解,这个问题仍然具有挑战性,尤其是在可能包含许多属于细粒度类别的物体的任意场景中。为了应对这一挑战,我们构建了用于三维场景视觉和语言引导动作的最大真实世界数据集 (VLA-3D),其中包含来自现有数据集的超过 11.5K 个扫描三维室内房间、23.5M 个启发式生成的物体间语义关系和 9.7M 个综合生成的指称语句。我们的数据集包含处理过的三维点云、语义对象和房间注释、场景图、可导航自由空间注释以及专门关注用于消除对象歧义的视图无关空间关系的指称语言语句。这些特征旨在辅助下游导航任务,尤其是在真实世界系统中,在不断变化的场景和不完美语言的开放世界中必须保证一定程度的鲁棒性。我们使用当前最先进的模型对我们的数据集进行基准测试,以获得性能基线。生成和可视化数据集的所有代码都已公开发布,请参阅 https://github.com/HaochenZ11/VLA-3D。我们希望通过发布此数据集,为在对变化具有鲁棒性的语义三维场景理解方面取得进展提供资源,并有助于开发交互式室内导航系统。  
2024-11-05 MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning null 近年来,通用领域的多模态基准指导了通用任务多模态模型的快速发展。然而,金融领域具有其特殊性。它以独特的图形图像(例如, candlestick 图表、技术指标图表)为特征,并拥有丰富的专业金融知识(例如,期货、换手率)。因此,来自通用领域的基准通常无法衡量金融领域多模态模型的性能,从而无法有效指导大型金融模型的快速发展。为了促进大型金融多模态模型的发展,我们提出了 MME-Finance,一个面向实际应用的双语开放式视觉问答 (VQA) 基准。我们的基准的特点是金融性和专业性,其中包括构建反映用户实际使用需求的图表(例如,计算机屏幕截图和手机摄影)、根据金融领域查询的偏好创建问题,以及由具有 10 年以上金融行业经验的专家注释问题。此外,我们开发了一个定制的金融评估系统,在多模态评估过程中首先引入视觉信息。我们对 19 个主流多模态大语言模型 (MLLM) 进行了广泛的实验评估,以测试它们的感知、推理和认知能力。结果表明,在通用基准上表现良好的模型在 MME-Finance 上表现不佳;例如,表现最佳的开源和闭源模型分别获得 65.69 (Qwen2VL-72B) 和 63.18 (GPT-4o)。它们在与金融最相关的类别(例如 candlestick 图表和技术指标图表)中表现尤其差。此外,我们还提出了一个中文版本,有助于比较 MLLM 在中文语境下的性能。  
2024-11-05 Inference Optimal VLMs Need Only One Visual Token but Larger Models link 视觉语言模型 (VLM) 在各种视觉理解和推理任务中展现出强大的能力。然而,由于大型语言模型 (LLM) 处理大量输入标记(主要来自图像)所需的计算量巨大,导致推理过程中延迟较高,这常常限制了它们在现实世界的部署。为了降低推理成本,可以缩小 LLM 的规模或减少输入图像标记的数量,后者是最近许多关于标记压缩工作的重点。然而,由于这两个因素都直接影响 VLM 的性能,因此最佳的权衡策略尚不清楚。我们首先通过建立捕捉这两个因素的性能变化的缩放法则来描述视觉标记数量和 LLM 参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势:对于视觉推理任务,VLM 中推理最优的行为,即在任何给定的固定推理计算量下,下游误差最小,是在使用推理预算内最大的 LLM 的同时最小化视觉标记数量(通常减少到单个标记)时实现的。虽然标记减少的文献主要关注于通过适度减少标记数量(例如 5-10 倍)来保持基础模型的性能,但我们的结果表明,计算最优的推理机制需要在更高的标记压缩比下运行。基于这些见解,我们初步尝试构建针对高标记压缩设置的方法。代码可在 https://github.com/locuslab/llava-token-compression 获取。  
2024-11-05 HumanVLM: Foundation for Human-Scene Vision-Language Model null 人景视觉语言任务在各种社会应用中日益普及,但最近的进展主要依赖于专门为单个任务定制的模型。新兴研究表明,大型视觉语言模型 (VLM) 可以增强各种下游视觉语言理解任务的性能。然而,通用领域模型在特定领域通常表现不佳。本研究介绍了一个特定领域的大型视觉语言模型,即人景视觉语言模型 (HumanVLM),旨在为人景视觉语言任务提供基础。具体而言,(1) 我们创建了一个大规模的人景多模态图文数据集 (HumanCaption-10M),数据源自互联网,以促进特定领域的对齐;(2) 开发了一种以人为中心的图像的描述方法,捕捉人脸、身体和背景,并构建了一个高质量的人景图文数据集 (HumanCaptionHQ,约 31.1 万对),其中包含尽可能详细的人物信息;(3) 使用 HumanCaption-10M 和 HumanCaptionHQ,我们训练了一个 HumanVLM。在实验中,我们随后在各种下游任务中评估了我们的 HumanVLM,它在同等规模的多模态模型中展现出优越的整体性能,尤其在与人类相关的任务中表现出色,并显著优于类似模型,包括 Qwen2VL 和 ChatGPT-4o。HumanVLM 以及引入的数据将促进人类相关领域的研究。  
2024-11-05 Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning null 多模态情感分析(MSA)是一项重要的研究领域,旨在通过多种模态理解和识别人类情感。多模态融合提供的补充信息促进了情感分析,使其比仅利用单一模态更有效。然而,在实际应用中,许多不可避免的因素可能导致模态不确定缺失的情况,从而阻碍多模态建模的有效性并降低模型的性能。为此,我们针对模态不确定缺失情况下的MSA任务提出了一种分层表示学习框架(HRLF)。具体来说,我们提出了一个细粒度的表示分解模块,通过跨模态翻译和情感语义重建将模态分解为情感相关和模态特定的表示,从而充分提取有价值的情感信息。此外,我们引入了一种分层互信息最大化机制,以增量方式最大化多尺度表示之间的互信息,从而对齐和重建表示中的高层语义。最后,我们提出了一种分层对抗学习机制,进一步对齐和调整情感相关表示的潜在分布,以生成鲁棒的联合多模态表示。在三个数据集上的综合实验表明,HRLF在模态不确定缺失的情况下显著提高了MSA性能。  
2024-11-05 DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark link 随着大型视觉语言模型(LVLMs)的快速发展,这些模型在各种多模态任务中展现出优异的成果。由于LVLMs容易出现幻觉,且目前针对遥感的专用数据集和评估方法较少,因此它们在应用于遥感任务时的性能通常较差。为了解决这些问题,本文介绍了一个高质量的遥感LVLMs数据集DDFAV,该数据集是使用数据增强和数据混合策略创建的。接下来,基于从所提出的数据集中选择的一些高质量遥感图像生成了一套训练指令集。最后,我们基于所提出的数据集开发了一种遥感LVLMs幻觉评估方法RSPOPE,并评估了不同LVLMs的零样本能力。我们提出的数据集、指令集和评估方法文件可在https://github.com/HaodongLi2024/rspope获取。  
2024-11-04 INQUIRE: A Natural World Text-to-Image Retrieval Benchmark link 我们推出了INQUIRE,这是一个文本到图像检索基准测试,旨在挑战多模态视觉语言模型在专家级查询上的能力。INQUIRE包含iNaturalist 2024 (iNat24),这是一个包含五百万张自然世界图像的新数据集,以及250个专家级检索查询。这些查询与iNat24中所有相关的图像进行了全面配对和标注,总共包含33,000个匹配项。查询涵盖物种识别、环境、行为和外观等类别,强调需要细致的图像理解和领域专业知识的任务。我们的基准测试评估了两个核心检索任务:(1) INQUIRE-Fullrank,一个全数据集排序任务,以及 (2) INQUIRE-Rerank,一个用于改进top-100检索结果的重排序任务。对一系列最新多模态模型的详细评估表明,INQUIRE提出了一个重大挑战,即使是最佳模型也未能达到50%以上的mAP@50。此外,我们还展示了使用更强大的多模态模型进行重排序可以提高检索性能,但仍有很大的改进空间。INQUIRE专注于具有科学动机的生态挑战,旨在弥合人工智能能力与现实世界科学探究需求之间的差距,鼓励开发能够协助加速生态和生物多样性研究的检索系统。我们的数据集和代码可在https://inquire-benchmark.github.io获取。  
2024-11-04 One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering null 视觉语言模型(VLMs)在利用网络规模多模态数据集的视觉问答(VQA)任务中展现出巨大的潜力。然而,这些模型在适应新任务时,由于灾难性遗忘,往往难以进行持续学习。作为缓解灾难性遗忘的有效补救措施,复习策略在学习新任务时会使用过去任务的数据。然而,这种策略需要存储过去的数据,这由于硬件限制或隐私问题可能并不可行。在这项工作中,我们提出了第一个无数据方法,它利用VLM的语言生成能力(而不是依赖外部模型)来生成伪复习数据,以解决持续VQA问题。我们的方案名为GaB,它通过对新任务数据提出先前任务的问题来生成伪复习数据。然而,尽管有效,但由于训练数据有限且特定于任务,生成问题的分布会偏向于最常提出的问题。为了缓解这个问题,我们引入了一个伪复习平衡模块,它使用问题元统计或无监督聚类方法将生成的数据与真实数据分布对齐。我们在两个最近的基准测试集上评估了我们提出的方法,即VQACL-VQAv2和CLOVE-function基准测试集。GaB 的性能优于所有无数据基线,在跨不断变化的任务中保持 VQA 性能方面有了实质性的改进,同时与可以访问过去数据的方法不相上下。  
2024-11-04 TableGPT2: A Large Multimodal Model with Tabular Data Integration link 像GPT、Claude、LLaMA和Qwen这样的模型的出现重塑了人工智能应用,为各行各业带来了巨大的新机遇。然而,尽管表格数据在众多现实领域中发挥着基础性作用,但其与这些模型的集成仍然明显不足。这种差距之所以至关重要,主要有三个原因。首先,数据库或数据仓库的数据集成对于高级应用至关重要;其次,大量且很大程度上尚未开发的表格数据资源提供了巨大的分析潜力;第三,商业智能领域尤其需要适应性强、精确的解决方案,而许多目前的LLM可能难以提供。为此,我们推出了TableGPT2,这是一个经过严格预训练和微调的模型,使用了超过593.8万个表格和236万个高质量的查询-表格-输出元组,其表格相关数据的规模在以往的研究中是前所未有的。这种广泛的训练使TableGPT2能够在以表格为中心的任务中表现出色,同时保持强大的通用语言和编码能力。TableGPT2的关键创新之一是其新颖的表格编码器,专门设计用于捕获模式级和单元格级信息。这种编码器增强了模型处理现实应用中常见的歧义查询、缺失列名和不规则表格的能力。与视觉语言模型类似,这种开创性的方法与解码器集成,形成了一个强大的大型多模态模型。我们相信结果令人信服:在23个基准测试指标中,TableGPT2在7B模型和72B模型上分别比之前的基准中性LLM平均性能提高了35.20%和49.32%,同时保持了强大的通用能力。  
2024-11-04 Foundations and Recent Trends in Multimodal Mobile Agents: A Survey link 移动代理是复杂和动态移动环境中自动化任务的关键。随着基础模型的发展,对能够实时适应和处理多模态数据的代理的需求也在增长。本综述全面回顾了移动代理技术,重点关注增强实时适应性和多模态交互的最新进展。最近开发的评估基准可以更好地捕捉移动任务的静态和交互环境,从而更准确地评估代理的性能。我们将这些进展分为两种主要方法:基于提示的方法,它利用大型语言模型(LLM)进行基于指令的任务执行;以及基于训练的方法,它对多模态模型进行微调以适应移动特定应用。此外,我们还探讨了增强代理性能的补充技术。通过讨论关键挑战并概述未来的研究方向,本综述为推进移动代理技术提供了宝贵的见解。 综合资源列表可在 https://github.com/aialt/awesome-mobile-agents 获取。  
2024-11-03 EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark null 近期对大型语言模型 (LLM) 和大型多模态模型 (LMM) 的研究表明,它们在科学和数学等各个领域都展现出 promising 的技能。然而,它们在更具挑战性和现实世界相关场景(如工程)中的能力尚未得到系统研究。为了弥合这一差距,我们提出了 EEE-Bench,这是一个多模态基准测试,旨在评估 LMM 解决实际工程任务的能力,使用电气与电子工程 (EEE) 作为测试平台。我们的基准测试包含 2860 个精心策划的问题,涵盖 10 个重要子领域,例如模拟电路、控制系统等。与其他领域的基准测试相比,工程问题的本质是 1) 视觉上更复杂和多样化,2) 解决方案更不确定。成功解决这些问题通常需要比以往更严格地整合视觉和文本信息,因为模型需要理解复杂的图像(如抽象电路和系统图),同时还要考虑专业指令,这使得它们成为 LMM 评估的绝佳候选者。除了 EEE-Bench,我们还提供了对 17 种广泛使用的开源和闭源 LLM 和 LMM 的广泛定量评估和细粒度分析。我们的结果表明,当前基础模型在 EEE 方面存在显著缺陷,平均性能范围为 19.48% 至 46.78%。最后,我们揭示并探讨了 LMM 的一个关键缺点,我们称之为“懒惰”:在对技术图像问题进行推理时,倾向于走捷径,依赖文本而忽略视觉上下文。总之,我们相信 EEE-Bench 不仅揭示了 LMM 的一些值得注意的局限性,而且为推进其在实际工程任务中应用的研究提供了宝贵的资源,推动其处理复杂现实场景的能力的未来改进。  
2024-10-31 $π_0$ : A Vision-Language-Action Flow Model for General Robot Control null 机器人学习拥有巨大潜力,可以释放灵活、通用和灵巧机器人系统的全部潜能,并解决人工智能领域一些最深层次的问题。然而,要将机器人学习提升到有效现实世界系统所需的通用性水平,在数据、泛化性和鲁棒性方面面临着重大障碍。在本文中,我们讨论了通才机器人策略(即机器人基础模型)如何应对这些挑战,以及我们如何为复杂且高度灵巧的任务设计有效的通才机器人策略。我们提出了一种构建于预训练视觉语言模型 (VLM) 之上的新型流匹配架构,以继承互联网规模的语义知识。然后,我们讨论了如何使用来自多个灵巧机器人平台(包括单臂机器人、双臂机器人和移动机械手)的大型多样化数据集来训练该模型。我们评估了模型在预训练后零样本执行任务的能力、遵循来自人类和高级 VLM 策略的语言指令的能力,以及通过微调获取新技能的能力。我们的结果涵盖了各种各样的任务,例如叠衣服、清洁桌子和组装盒子。  
2024-10-31 Exploring Vision Language Models for Facial Attribute Recognition: Emotion, Race, Gender, and Age null 人脸属性识别技术,例如种族、性别、年龄和情绪识别,在监控、广告内容、情感分析以及人口趋势和社会行为研究等领域拥有广泛的应用。基于图像分析人口统计特征和面部表情分析由于人脸属性的复杂性而面临诸多挑战。传统方法采用卷积神经网络(CNN)和其他各种深度学习技术,并在大量标记图像上进行训练。虽然这些方法展现出有效性能,但仍有进一步提升的空间。在本文中,我们提议利用视觉语言模型(VLM),例如生成式预训练Transformer(GPT)、GEMINI、大型语言和视觉助手(LLAVA)、PaliGemma和Microsoft Florence2,从人脸图像中识别种族、性别、年龄和情绪等面部属性。我们使用了各种数据集,如FairFace、AffectNet和UTKFace来评估这些方案。结果表明,VLM与传统技术相比,即使不优越,也具有竞争力。此外,我们提出了“FaceScanPaliGemma”——一个微调的PaliGemma模型——用于种族、性别、年龄和情绪识别。结果显示,在种族、性别、年龄组和情绪分类方面,其准确率分别为81.1%、95.8%、80%和59.4%,优于预训练版本的PaliGemma、其他VLM和SotA方法。最后,我们提出了“FaceScanGPT”,这是一个GPT-4o模型,用于在图像中存在多个人时,使用针对具有特定面部和/或身体属性的人设计的提示来识别上述属性。结果强调了FaceScanGPT卓越的多任务处理能力,仅使用提示即可驱动检测和识别任务,检测个体的属性,如发型、服装颜色、姿势等。  
2024-10-31 Nearest Neighbor Normalization Improves Multimodal Retrieval link 多模态模型利用大规模预训练在图像描述、视觉问答和跨模态检索等任务上取得了显著但仍不完美的性能。本文提出了一种简单有效的方法,无需额外训练即可纠正已训练的对比图像-文本检索模型中的错误,称为最近邻归一化 (NNN)。我们展示了在我们测试的所有对比模型(CLIP、BLIP、ALBEF、SigLIP、BEiT)以及我们使用的两个数据集(MS-COCO 和 Flickr30k)上,文本检索和图像检索指标均有所改进。NNN 需要一个参考数据库,但不需要对该数据库进行任何训练,甚至可以在模型微调后提高其检索精度。  
2024-10-31 Bayesian-guided Label Mapping for Visual Reprogramming link 视觉重编程(VR)利用预训练视觉模型的内在能力,通过调整其输入或输出接口来解决下游任务,这些任务的标签(即下游标签)可能与预训练模型相关的标签(即预训练标签)完全不同。在调整输出接口时,标签映射方法通过在下游标签和预训练标签之间建立一个无梯度的一对一对应关系,将预训练标签转换为下游标签。然而,在本文中,我们揭示了一对一映射可能忽略了预训练标签和下游标签之间的复杂关系。基于这一观察,我们提出了一种贝叶斯引导的标签映射(BLM)方法。BLM构建了一个迭代更新的概率标签映射矩阵,其中每个元素量化了预训练标签和下游标签之间的成对关系。该矩阵值的分配由贝叶斯条件概率引导,考虑了预训练模型对下游样本预测的标签和下游标签的联合分布。在预训练视觉模型(例如ResNeXt)和视觉语言模型(例如CLIP)上进行的实验表明,BLM的性能优于现有的标签映射方法。BLM的成功也提供了一个概率视角,可以用来理解和分析VR的有效性。我们的代码可在https://github.com/tmlr-group/BayesianLM获取。  
2024-10-31 EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection link 在零样本设置下检测人与物体交互 (HOI) 是一个巨大的挑战,模型必须处理未见过的类别。现有方法依赖于将视觉编码器与大型视觉语言模型 (VLM) 对齐以利用 VLM 的广泛知识,这需要大型的、计算成本高的模型,并且会遇到训练困难。使用提示学习调整 VLM 提供了直接对齐的替代方案。然而,由于缺乏未见类别的标签,在特定任务数据集上进行微调通常会导致对已见类别的过拟合以及对未见类别的次优性能。为了应对这些挑战,我们引入了一种新的基于提示学习的框架,用于高效的零样本 HOI 检测 (EZ-HOI)。首先,我们引入了大型语言模型 (LLM) 和 VLM 指导的可学习提示,整合详细的 HOI 描述和视觉语义,以使 VLM 适应 HOI 任务。然而,由于训练数据集仅包含已见类别的标签,因此在此类数据集上微调 VLM 往往会针对已见类别而不是未见类别优化可学习提示。因此,我们利用来自相关已见类别信息的提示学习来处理未见类别,并利用 LLM 突出显示未见类别与相关已见类别之间的差异。在基准数据集上的定量评估表明,我们的 EZ-HOI 在各种零样本设置下均实现了最先进的性能,与现有方法相比,仅使用了 10.35% 到 33.95% 的可训练参数。代码可在 https://github.com/ChelsieLei/EZ-HOI 获取。  
2024-10-31 Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP null 像CLIP这样的大型预训练视觉语言模型已展现出良好的泛化能力,但在专业领域(例如卫星图像)或细粒度分类(例如汽车型号)中可能会遇到困难,因为这些视觉概念在预训练期间未出现或未得到充分体现。提示学习提供了一种参数高效的微调框架,即使在标注数据有限的情况下也能使CLIP适应下游任务。在本文中,我们通过从自然语言提示(人工生成或LLM生成)中提取文本知识来改进提示学习,从而为这些未得到充分体现的概念提供丰富的先验知识。我们首先通过学习的提示聚合器获得与每个输入图像对齐的提示“摘要”。然后,我们联合训练一个提示生成器,使其生成的提示嵌入尽可能接近聚合的摘要,同时最小化任务损失。我们将这种提示嵌入称为聚合和自适应提示嵌入(AAPE)。AAPE被证明能够泛化到不同的下游数据分布和任务,包括视觉语言理解任务(例如,少样本分类、VQA)和生成任务(图像描述),并在这些任务中取得了具有竞争力的性能。我们还表明,AAPE对于处理非规范和OOD样本特别有帮助。此外,AAPE学习消除了基线方法所需的基于LLM的推理成本,并且可以更好地扩展数据和LLM模型规模。  
2024-10-31 SuctionPrompt: Visual-assisted Robotic Picking with a Suction Cup Using Vision-Language Models and Facile Hardware Design null 大型语言模型和视觉语言模型 (VLM) 的发展使得机器人在各个领域的应用日益增多。然而,如何将这些模型有效地整合到现实世界的机器人任务中是一个关键挑战。我们开发了一个名为 SuctionPrompt 的多功能机器人系统,该系统利用 VLM 的提示技术结合 3D 检测来执行在多样化和动态环境中的产品拾取任务。我们的方法强调了将 3D 空间信息与自适应行动规划相结合的重要性,使机器人能够在新的环境中接近和操纵物体。在验证实验中,该系统准确选择了 75.4% 的吸取点,并在拾取常见物品方面达到了 65.0% 的成功率。这项研究突出了 VLM 在机器人操纵任务中的有效性,即使只进行简单的 3D 处理。  
2024-10-30 CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP null 机器遗忘(MU)作为一种无需完全重新训练即可从训练模型中移除特定数据的方法,受到了广泛关注。尽管在文本和图像分类等单模态领域取得了进展,但多模态模型中的遗忘研究仍然相对不足。本研究致力于解决CLIP(一种对齐视觉和文本表示的杰出多模态模型)中遗忘带来的独特挑战。我们引入了CLIPErase,这是一种新颖的方法,可以解开并选择性地遗忘视觉和文本关联,确保遗忘不会损害模型性能。CLIPErase由三个关键模块组成:遗忘模块,用于破坏遗忘集中样本的关联;保留模块,用于保持模型在保留集上的性能;以及一致性模块,用于维护与原始模型的一致性。在CIFAR-100和Flickr30K数据集上,针对四个CLIP下游任务进行的大量实验表明,CLIPErase可以有效地遗忘零样本任务中多模态样本的指定关联,同时在遗忘后保持模型在保留集上的性能。  
2024-10-30 EMMA: End-to-End Multimodal Model for Autonomous Driving null 我们推出了EMMA,一个用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上,可将原始摄像头传感器数据直接映射到各种驾驶专用输出,包括规划轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入(例如导航指令和车辆自身状态)和输出(例如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练大型语言模型的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用特定于任务的提示生成每个任务的输出。根据经验,我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo Open Motion Dataset (WOMD) 上取得有竞争力的结果来证明EMMA的有效性。EMMA还在Waymo Open Dataset (WOD) 上的摄像头主要3D目标检测中取得了有竞争力的结果。我们表明,使用规划轨迹、目标检测和道路图任务对EMMA进行联合训练可以在所有三个领域带来改进,突出了EMMA作为自动驾驶应用通用模型的潜力。然而,EMMA也存在某些局限性:它只能处理少量图像帧,不包含LiDAR或雷达等精确的3D传感模态,并且计算成本高昂。我们希望我们的研究结果能够激励进一步的研究来缓解这些问题,并进一步发展自动驾驶模型架构的最新技术。  
2024-10-30 Keypoint Abstraction using Large Models for Object-Relative Imitation Learning null 泛化到不同任务和环境中的新颖物体配置和实例是机器人技术中的一个关键挑战。基于关键点的表示已被证明是一种有效且简洁的表示方法,可以捕获重要的物体特征,并在动作预测中建立参考框架,从而实现数据高效的机器人技能学习。然而,它们的手动设计性质以及对额外人工标签的依赖限制了它们的可扩展性。在本文中,我们提出了KALM,一个利用大型预训练视觉语言模型 (LM) 自动生成与任务相关且跨实例一致的关键点的框架。KALM 通过使用 LM 生成关键点提议并根据少量机器人演示数据验证它们,从而提取跨视图和物体的鲁棒且一致的关键点。基于生成的关键点,我们可以训练以关键点为条件的策略模型,该模型可以在以关键点为中心的框架中预测动作,使机器人能够有效地泛化到不同的物体姿态、相机视角和具有相似功能形状的物体实例。我们的方法在现实世界中展现出强大的性能,只需少量演示即可适应不同的任务和环境,并且不需要额外的标签。网站:https://kalm-il.github.io/  
2024-10-29 Natural Language Inference Improves Compositionality in Vision-Language Models null 视觉语言模型 (VLM) 的组合推理仍然具有挑战性,因为这些模型通常难以关联对象、属性和空间关系。最近的方法旨在通过依赖文本描述的语义来解决这些限制,使用大型语言模型 (LLM) 将其分解为问题和答案的子集。然而,这些方法主要在表面层面运作,未能融入更深层次的词汇理解,同时引入了由 LLM 生成的错误假设。为了应对这些问题,我们提出了“基于矛盾和蕴涵的标题扩展 (CECE)”方法,这是一种利用自然语言推理 (NLI) 从给定前提生成蕴涵和矛盾的原则性方法。CECE 生成词汇多样化的句子,同时保持其核心含义。通过广泛的实验,我们表明 CECE 增强了可解释性并减少了对有偏差或肤浅特征的过度依赖。通过平衡 CECE 和原始前提,我们在无需额外微调的情况下实现了比先前方法的显著改进,在用于评估图像-文本对齐一致性的人类判断基准测试中取得了最先进的结果,并在 Winoground 上实现了 +19.2%(组得分)的性能提升,在 EqBen 上实现了 +12.9%(组得分)的性能提升,超过了之前的最佳工作(使用目标数据进行微调)。  
2024-10-29 Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving link 端到端自动驾驶凭借大规模数据展现出强大的规划能力,但在复杂和罕见场景下仍因缺乏常识而难以应对。相比之下,大型视觉语言模型(LVLM)擅长场景理解和推理。未来的方向在于融合两者的优势。以往使用LVLM预测轨迹或控制信号的方法效果欠佳,因为LVLM不适合进行精确的数值预测。本文提出Senna,一个结合了LVLM(Senna-VLM)和端到端模型(Senna-E2E)的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM用自然语言生成规划决策,而Senna-E2E预测精确的轨迹。Senna-VLM利用多图像编码方法和多视角提示词来实现高效的场景理解。此外,我们引入了面向规划的问答以及三阶段训练策略,这增强了Senna-VLM的规划性能,同时保留了常识。在两个数据集上的大量实验表明,Senna实现了最先进的规划性能。值得注意的是,通过在大型数据集DriveX上进行预训练并在nuScenes上进行微调,Senna相比未经预训练的模型显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们相信Senna的跨场景泛化能力和可迁移性对于实现完全自动驾驶至关重要。代码和模型将在https://github.com/hustvl/Senna发布。  
2024-10-29 ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding link 多模态系统在辅助人类执行程序性活动方面具有巨大潜力,在这些活动中,人们遵循指令以实现其目标。尽管应用场景多种多样,但系统通常在传统的分类任务上进行评估,例如动作识别或时间动作分割。在本文中,我们提出了一个新的评估数据集ProMQA,用于衡量系统在面向应用场景中的进展。ProMQA包含401个多模态程序性问答对,基于用户录制的程序性活动及其相应的指令。对于问答标注,我们采用了一种经济高效的人机协作方法,其中利用LLM生成的、随后经人工验证的问答对来扩充现有标注。然后,我们提供了基准测试结果,以设定ProMQA的基线性能。我们的实验揭示了人类表现与当前系统(包括具有竞争力的专有多模态模型)之间存在显著差距。我们希望我们的数据集能够揭示模型多模态理解能力的新方面。  
2024-10-29 Active Learning for Vision-Language Models null 像CLIP这样的预训练视觉语言模型(VLM)在一系列下游计算机视觉任务中展现了令人印象深刻的零样本性能。然而,这些模型与在下游数据集上训练的有监督深度模型之间仍然存在相当大的性能差距。为了弥合这一差距,我们提出了一种新的主动学习(AL)框架,通过仅从未标记数据中选择少量信息丰富的样本进行标注来增强VLM的零样本分类性能。为了实现这一点,我们的方法首先校准VLM的预测熵,然后利用自不确定性和邻居感知不确定性的组合来计算可靠的不确定性度量,用于主动样本选择。我们的大量实验表明,所提出的方法在多个图像分类数据集上优于现有的AL方法,并显著提高了VLM的零样本性能。  
2024-10-29 Are VLMs Really Blind link 视觉语言模型擅长处理各种复杂任务,包括光学字符识别 (OCR)、视觉问答 (VQA) 和高级几何推理。然而,这些模型在人类特别容易掌握的低级基本视觉任务中表现不佳。我们这项工作的目标是确定这些模型是否真的对几何推理“视而不见”,或者是否存在增强其在这方面能力的方法。我们的工作提出了一种新颖的自动流水线,旨在根据特定问题从图像中提取关键信息。我们没有仅仅依赖直接的 VQA,而是使用从问题中提取的关键词来创建一个标题,突出显示图像中与问题相关的重要的细节。然后,语言模型使用此标题来提供对问题的精确答案,而无需外部微调。  
2024-10-29 Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications link 大型语言模型 (LLM) 在回答问题方面展现出令人印象深刻的能力,但它们缺乏特定领域的知识,并且容易出现幻觉。检索增强生成 (RAG) 是解决这些挑战的一种方法,而多模态模型正在成为处理文本和图像方面很有前途的 AI 助手。在本文中,我们描述了一系列实验,旨在确定如何将多模态模型最好地集成到工业领域的 RAG 系统中。这些实验的目的是确定在工业领域的文件中包含图像以及文本是否会提高 RAG 性能,并找到这种多模态 RAG 系统的最佳配置。我们的实验包括两种图像处理和检索方法,以及两种用于答案合成的 LLM(GPT4-Vision 和 LLaVA)。这些图像处理策略涉及使用多模态嵌入和从图像生成文本摘要。我们使用 LLM 作为评判者的方法来评估我们的实验。我们的结果表明,多模态 RAG 可以胜过单模态 RAG 设置,尽管图像检索比文本检索更具挑战性。此外,利用图像的文本摘要与使用多模态嵌入相比,提供了一种更有希望的方法,为未来的进步提供了更多机会。  
2024-10-29 Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models link 由于预训练视觉语言模型(例如CLIP)令人印象深刻的零样本能力,它们吸引了广泛关注并在各个领域得到应用。然而,CLIP已被观察到容易受到对抗样本的攻击。通过实验分析,我们观察到一个现象:对抗扰动会导致文本引导的注意力发生偏移。基于这一观察,我们提出了一个简单而有效的策略:文本引导注意力零样本鲁棒性(TGA-ZSR)。该框架包含两个组件:注意力细化模块和基于注意力的模型约束模块。我们的目标是保持CLIP模型的泛化能力并增强其对抗鲁棒性:注意力细化模块将通过对抗样本从目标模型获得的文本引导注意力与通过干净样本从原始模型获得的文本引导注意力对齐。这种对齐增强了模型的鲁棒性。此外,基于注意力的模型约束模块使用干净样本从目标模型和原始模型获取文本引导注意力。其目标是保持模型在干净样本上的性能,同时增强整体鲁棒性。实验验证,我们的方法在16个数据集上,将零样本鲁棒精度比当前最先进的技术提高了9.58%。我们的代码可在https://github.com/zhyblue424/TGA-ZSR获取。  
2024-10-29 AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? link 大型视觉语言模型(LVLMs)已成为推进视觉和语言信息融合的关键,促进了各种复杂应用和任务的发展。然而,LVLMs 的评估面临着重大挑战,因为评估基准的构建总是需要大量的人力成本,并且一旦构建完成就保持静态,缺乏灵活性。尽管在文本模态中已经探索了自动评估,但视觉模态仍然缺乏研究。因此,在这项工作中,我们提出了一个问题:“LVLMs 能否成为自动基准测试的途径?”. 我们引入了 AutoBench-V,这是一个用于按需进行评估的自动化框架,即基于模型能力的特定方面对 LVLMs 进行基准测试。在接收到评估能力后,AutoBench-V 利用文本到图像模型生成相关的图像样本,然后利用 LVLMs 来编排视觉问答(VQA)任务,从而高效灵活地完成评估过程。通过对七个流行的 LVLMs 在五个用户输入(即评估能力)上的广泛评估,该框架展现了有效性和可靠性。我们观察到以下几点:(1)我们构建的基准准确地反映了不同的任务难度;(2)随着任务难度的增加,模型之间的性能差距会扩大;(3)虽然模型在抽象层面的理解上表现出很强的性能,但在细节推理任务中表现不佳;(4)构建具有不同难度级别的 datasets 对于全面彻底的评估至关重要。总的来说,AutoBench-V 不仅成功地利用 LVLMs 进行自动基准测试,还揭示了 LVLMs 作为评估者的巨大潜力。  
2024-10-28 Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines link 搜索引擎能够通过文本检索未知信息。然而,传统方法在理解不熟悉的视觉内容方面存在不足,例如识别模型从未见过的物体。对于大型视觉语言模型 (VLM) 来说,这一挑战尤为突出:如果模型没有接触过图像中描绘的物体,它就难以针对用户关于该图像的问题生成可靠的答案。此外,由于新的物体和事件不断涌现,频繁更新VLM由于沉重的计算负担而变得不切实际。为了解决这一限制,我们提出了视觉搜索助手 (Vision Search Assistant),一个促进VLM和网络代理之间协作的新框架。该方法利用VLM的视觉理解能力和网络代理的实时信息访问能力,通过网络执行开放世界检索增强生成。通过这种协作集成视觉和文本表示,即使图像对系统来说是新颖的,模型也可以提供有根据的响应。在开放集和封闭集问答基准上进行的大量实验表明,视觉搜索助手显著优于其他模型,并且可以广泛应用于现有的VLM。  
2024-10-28 Zero-Shot Action Recognition in Surveillance Videos null 公共场所日益增长的监控需求对人力资源短缺带来了重大挑战。当前基于人工智能的视频监控系统严重依赖需要大量微调的核心计算机视觉模型,而由于数据集有限且设置困难(视角、低质量等),这在监控环境中尤其困难。在本研究中,我们提出利用以强大的零样本和小样本泛化能力而闻名的大型视觉语言模型 (LVLM) 来处理监控中的视频理解任务。具体来说,我们探索了最先进的 LVLM VideoLLaMA2 和一种改进的标记级采样方法——自反射采样 (Self-ReS)。我们在 UCF-Crime 数据集上的实验表明,VideoLLaMA2 代表了零样本性能的显著飞跃,比基线提高了 20%。Self-ReS 还将零样本动作识别性能提高到 44.6%。这些结果突出了 LVLM 与改进的采样技术相结合在推进各种场景下的监控视频分析方面的潜力。  
2024-10-25 Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models null 大型视觉语言模型 (LVLM) 擅长跨模态任务,但在长上下文推理中表现不佳,因为它过度依赖文本信息而降低了对视觉的依赖。在本研究中,我们对 LVLM 在长上下文推理中的表现进行了实证分析,结果表明,随着上下文长度的增加,模型对语言的依赖程度会提高,而对视觉的依赖程度会降低。为了解决这个问题,我们提出了一种新的无需训练的上下文剪枝方法,该方法可以有选择地删除不太重要的文本信息。我们的方法增强了视觉依赖性并减少了文本噪声,从而提高了 LVLM 在长上下文推理中的性能。我们通过构建一个长上下文数据集来验证我们方法的有效性,并在各种 LVLM 上证明了其有效性。此外,进一步的分析证实了不同标记剪枝策略的鲁棒性,并初步探讨了剪枝率与上下文长度之间的比例关系。  
2024-10-25 OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization link 大型语言和多模态模型的快速发展引发了人们对使用 GPT-4o 等专有模型开发能够处理现实世界场景(如网页导航)的自主代理的浓厚兴趣。尽管最近的开源工作试图赋予代理探索环境并随着时间的推移不断改进的能力,但他们是在奖励信号明确定义的合成环境中构建纯文本代理。此类代理难以泛化到需要多模态感知能力且缺乏真实信号的现实环境中。在本文中,我们介绍了一个开源框架,旨在促进多模态 Web 代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型以获得基本能力。然后,我们让代理探索开放网络并收集对其轨迹的反馈。之后,它通过学习另一个通用模型判断的良好表现轨迹来进一步改进其策略。这种探索-反馈-优化循环可以持续多次迭代。实验结果表明,我们的 Web 代理在每次迭代后都成功地自我改进,在多个测试集中表现出强大的性能。  
2024-10-25 GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing link 探测地理景观中的时间变化对于环境监测和城市规划等应用至关重要。 虽然遥感数据丰富,但现有的视觉语言模型 (VLM) 通常无法有效捕捉时间动态。 本文通过引入一个带注释的视频帧对数据集来解决这些限制,以跟踪随时间推移而演变的地理模式。 通过在 Video-LLaVA 和 LLaVA-NeXT-Video 等模型上使用低秩自适应 (LoRA)、量化 LoRA (QLoRA) 和模型剪枝等微调技术,我们显著提高了 VLM 处理遥感时间变化的性能。 结果表明,性能得到显著提升,最佳性能的 BERT 得分为 0.864,ROUGE-1 得分为 0.576,在描述土地利用转变方面表现出卓越的准确性。  
2024-10-25 COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training link FP8训练已成为提高训练效率的一种很有前景的方法。现有框架通过将FP8计算应用于线性层来加速训练,同时将优化器状态和激活保持在更高的精度,但这未能完全优化内存使用。本文介绍了COAT(压缩优化器状态和激活以进行FP8训练),这是一种新颖的FP8训练框架,旨在显着减少训练大型模型时的内存占用。COAT通过两项关键创新解决了当前的局限性:(1) 动态范围扩展,它使优化器状态分布更接近FP8表示范围,从而减少量化误差,以及(2) 混合粒度激活量化,它结合每张量和每组量化策略来优化激活内存。实验表明,与BF16相比,COAT有效地将端到端训练内存占用减少了1.54倍,同时在各种任务(如大型语言模型预训练和微调以及视觉语言模型训练)中实现了几乎无损的性能。与BF16相比,COAT还实现了1.43倍的端到端训练加速,性能与TransformerEngine的加速相当或优于后者。COAT能够在更少的GPU上对大型模型进行高效的全参数训练,并在分布式训练环境中将批大小翻倍,为扩展大规模模型训练提供了一种实用的解决方案。代码可在https://github.com/NVlabs/COAT获取。  
2024-10-25 Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting null 视觉语言模型,例如 CLIP,在使用适当的文本描述时表现出令人印象深刻的泛化能力。虽然在下游标记数据上优化提示已被证明可以有效提高性能,但这些方法需要承担注释的人工成本,并且受其质量的限制。此外,由于 CLIP 是在高度不平衡的网络规模数据上预先训练的,因此它存在固有的标签偏差,导致性能欠佳。为了应对上述挑战,我们提出了一个免标签的提示分布学习和偏差校正框架,称为 Frolic,它可以在不需要标记数据的情况下提高零样本性能。具体来说,我们的 Frolic 学习提示原型的分布以捕获不同的视觉表示,并通过置信度匹配自适应地将这些表示与原始 CLIP 融合。通过免标签的 logits 调整来校正标签偏差,进一步增强了这个融合模型。值得注意的是,我们的方法不仅无需训练,而且还避免了超参数调整的必要性。跨 16 个数据集的大量实验结果证明了我们方法的有效性,特别是使用 CLIP ViT-B/16 在 10 个数据集上的性能平均优于最先进方法 2.6%,并在 ImageNet 及其五个分布偏移上使用 CLIP ViT-B/16 实现了平均 1.5% 的优势。代码可在 https://github.com/zhuhsingyuu/Frolic 获取。  
2024-10-24 Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant link 我们重新审视了基于知识的文本视觉问答,也称为 Text-KVQA,并结合大型多模态模型 (LMM) 的最新进展,做出了以下贡献:(i) 我们提出了 VisTEL——一种执行视觉文本实体链接的原则性方法。所提出的 VisTEL 模块利用最先进的视觉文本识别引擎和大规模多模态模型的能力,使用从图像中的周围线索获得的文本和视觉上下文进行联合推理,将视觉文本实体链接到正确的知识库实体。(ii) 我们介绍了 KaLMA——一种知识感知的大型多模态助手,它使用与图像中的视觉文本实体相关的知识来增强 LMM,以获得准确的答案。此外,我们还提供了我们的方法与传统视觉问答、大型多模态模型之前的模型、大型多模态模型以及先前表现最佳的方法的全面实验分析和比较。在 Text-KVQA 的三个拆分上的平均值,我们提出的方法比之前的最佳方法在绝对规模上大幅提高了 23.3%,并建立了新的最先进水平。我们将公开我们的实现。  
2024-10-24 VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks null 视频常被用于学习或提取完成任务所需的信息,其方式不同于仅凭文本和静态图像所能提供的。然而,许多现有的智能体基准测试忽略了长上下文视频理解,而是专注于文本或静态图像输入。为了弥合这一差距,我们引入了 VideoWebArena (VideoWA),这是一个用于评估长上下文多模态智能体视频理解能力的基准测试。VideoWA 由 2,021 个基于人工制作的视频教程的网络智能体任务组成,总计近四个小时的内容。对于我们的基准测试,我们定义了长上下文视频智能体任务的分类法,主要关注两个方面:技能保留和事实保留。技能保留任务评估智能体是否可以使用给定的人类演示有效地完成任务,而事实保留任务评估智能体是否可以从视频中检索与指令相关的信息以完成任务。我们发现,最佳模型在事实保留任务上的成功率为 13.3%,在事实保留问答对上的成功率为 45.8%,远低于人类分别为 73.9% 和 79.3% 的表现。在技能保留任务上,长上下文模型在使用教程的情况下比不使用教程的情况下表现更差,WebArena 任务的性能下降了 5%,VisualWebArena 任务的性能下降了 10.3%。我们的工作强调了提高长上下文多模态模型的智能体能力的必要性,并为未来长上下文视频智能体的开发提供了一个测试平台。  
2024-10-24 CAMEL-Bench: A Comprehensive Arabic LMM Benchmark link 近年来,开发能够执行各种视觉推理和理解任务的大型多模态模型 (LMM) 引起了人们的极大兴趣。这导致引入了多个 LMM 基准来评估 LMM 在不同任务上的表现。然而,大多数现有的 LMM 评估基准主要以英语为中心。在这项工作中,我们为阿拉伯语开发了一个全面的 LMM 评估基准,以代表超过 4 亿人口。拟议的基准测试名为 CAMEL-Bench,包括八个不同的领域和 38 个子领域,包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害和基于遥感的土地利用理解,以评估广泛的场景泛化性。我们的 CAMEL-Bench 包含大约 29,036 个问题,这些问题是从更大的样本池中筛选出来的,其质量由母语人士手动验证,以确保可靠的模型评估。我们对闭源(包括 GPT-4 系列)和开源 LMM 进行了评估。我们的分析表明,需要进行重大改进,尤其是在最佳开源模型中,即使是闭源 GPT-4o 也仅获得了 62% 的总体得分。我们的基准测试和评估脚本是开源的。  
2024-10-24 Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques null 认知能力下降是衰老的自然组成部分,通常会导致认知能力下降。然而,在某些情况下,这种下降更为明显,通常是由于阿尔茨海默病等疾病。早期发现异常的认知能力下降至关重要,因为它可以促进及时的专业干预。虽然医学数据可以帮助进行这种检测,但它通常涉及侵入性程序。另一种方法是采用非侵入性技术,例如语音或笔迹分析,这些技术不一定会影响日常活动。本综述回顾了使用深度学习技术来自动化认知能力下降估计任务的最相关方法,包括音频、文本和视觉处理。我们讨论了每种模式和方法的关键特征和优势,包括最先进的方法,如Transformer架构和基础模型。此外,我们还介绍了整合不同模态以开发多模态模型的工作。我们还重点介绍了最重要的数据集以及使用这些资源的研究的量化结果。从这次审查中得出了一些结论。在大多数情况下,文本模态取得了最佳结果,并且与检测认知能力下降最相关。此外,将来自单个模态的各种方法组合成多模态模型始终如一地提高了几乎所有场景下的性能。  
2024-10-24 Zero-shot Object Navigation with Vision-Language Models Reasoning null 物体导航对于机器人至关重要,但传统方法需要大量的训练数据,并且无法泛化到未知环境。零样本物体导航 (ZSON) 旨在解决这一挑战,使机器人能够在没有特定训练数据的情况下与未知物体进行交互。语言驱动的零样本物体导航 (L-ZSON) 是 ZSON 的扩展,它结合了自然语言指令来指导机器人导航和与物体交互。在本文中,我们提出了一种新颖的视觉语言模型,该模型具有用于 L-ZSON 的思维树网络 (VLTNet)。VLTNet 包含四个主要模块:视觉语言模型理解、语义映射、思维树推理和探索以及目标识别。在这些模块中,思维树 (ToT) 推理和探索模块作为核心组件,创新地使用 ToT 推理框架在机器人探索过程中进行导航边界选择。与没有推理的传统边界选择相比,使用 ToT 推理的导航涉及多路径推理过程并在必要时进行回溯,从而能够进行全局信息的决策,并具有更高的准确性。在 PASTURE 和 RoboTHOR 基准测试上的实验结果表明,我们的模型在 LZSON 中表现出色,特别是在涉及复杂自然语言作为目标指令的场景中。  
2024-10-24 Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data null 视觉语言模型(VLM)最近取得了显著进展,但开源指令数据的规模和质量有限,阻碍了它们的性能,使其与闭源模型相比存在差距。在这项工作中,我们通过引入 Infinity-MM 来解决这个限制,Infinity-MM 是一个包含 4000 万个样本的大规模多模态指令数据集,通过严格的质量过滤和去重进行了增强。我们还提出了一种基于开源 VLM 的合成指令生成方法,使用详细的图像标注和多样化的问题生成。利用这些数据,我们训练了一个 20 亿参数的 VLM,Aquila-VL-2B,在类似规模的模型中实现了最先进的(SOTA)性能。这表明扩大指令数据和生成合成数据可以显著提高开源模型的性能。  
2024-10-24 Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics null 传统上,风格主要从颜色、笔触和光照等艺术元素方面来考虑。然而,相同的语义主题,例如人、船和房屋,在不同的艺术传统中可以有很大的差异,这表明风格也包含了潜在的语义。因此,在本研究中,我们提出了一种用于协调语义的图像变化的零样本方案。具体来说,我们的方案将图像到图像的问题转化为图像到文本到图像的问题。图像到文本的操作采用视觉语言模型(例如BLIP)来生成描述输入图像内容的文本,包括对象及其位置。随后,将输入的风格关键词详细描述,然后使用ChatGPT的推理能力将其与内容文本合并。最后,文本到图像的操作利用Diffusion模型根据文本提示生成图像。为了使Diffusion模型能够适应更多风格,我们提出了一种微调策略,将文本和风格约束注入到交叉注意力中。这确保了输出图像在所需的风格中展现出相似的语义。为了验证所提出方案的性能,我们构建了一个包含各种风格和场景图像的基准,并引入了两个新的指标。尽管简单,但我们的方案以零样本的方式产生了高度合理的结果,尤其是在生成具有高保真语义的风格化图像方面。  
2024-10-23 R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models link 现有的多模态大模型 (LMMs) 在数学几何推理方面表现不佳,原因是缺乏高质量的图文配对数据。当前的几何数据生成方法,无论是应用预设模板生成几何数据还是使用大型语言模型 (LLMs) 改写问答 (Q&A),都不可避免地限制了数据的准确性和多样性。为了合成更高质量的数据,我们提出了一个两阶段逆向思维链 (R-CoT) 几何问题生成流程。首先,我们引入了 GeoChain 来生成高保真几何图像以及相应的描述,突出几何元素之间的关系。然后,我们设计了一种逆向问答方法,该方法基于描述逐步推理,并从推理结果反向生成问题。实验表明,所提出的方法为多个 LMM 基准模型带来了显著且一致的改进,在 2B、7B 和 8B 设置中均达到了新的性能记录。值得注意的是,R-CoT-8B 在 MathVista 和 GeoQA 上分别显著优于先前最先进的开源数学模型 16.6% 和 9.2%,同时还超过了闭源模型 GPT-4o 在这两个数据集上的平均性能 13%。代码可在 https://github.com/dle666/R-CoT 获取。  
2024-10-23 Lightweight Neural App Control null 本文介绍了一种名为“app agents”的新型手机控制架构,用于在各种安卓应用之间进行高效的交互和控制。所提出的轻量多模态应用控制 (LiMAC) 将文本目标和一系列过去的移动观察(例如屏幕截图和相应的 UI 树)作为输入,以生成精确的操作。为了解决智能手机固有的计算限制,我们在 LiMAC 中引入了一个小型动作转换器 (AcT),并将其与微调的视觉语言模型 (VLM) 集成,以实现实时决策和任务执行。我们在两个开源移动控制数据集上评估了 LiMAC,证明了我们的小尺寸方法优于开源 VLM(例如 Florence2 和 Qwen2-VL)的微调版本。它也明显优于利用闭源基础模型(如 GPT-4o)的提示工程基线。更具体地说,与微调的 VLM 相比,LiMAC 将整体动作准确率提高了 19%,与提示工程基线相比提高了 42%。  
2024-10-23 MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models link 视觉偏好对齐涉及训练大型视觉语言模型 (LVLM) 来预测人类对视觉输入的偏好。这通常是通过使用已标记的选中/拒绝图像对数据集并采用直接偏好优化 (DPO) 等优化算法来实现的。现有的视觉对齐方法主要针对单图像场景而设计,由于缺乏多样化的训练数据以及标注选中/拒绝图像对的高成本,难以有效处理多图像任务的复杂性。我们提出了多图像增强直接偏好优化 (MIA-DPO),这是一种可以有效处理多图像输入的视觉偏好对齐方法。MIA-DPO 通过使用以网格拼贴或画中画格式排列的无关图像来扩展单图像数据,从而缓解了多样化多图像训练数据的稀缺性,显著降低了与多图像数据标注相关的成本。我们的观察表明,LVLM 的注意力值在不同图像之间存在很大差异。我们使用注意力值来识别和过滤掉模型可能错误关注的已拒绝响应。我们基于注意力值的策略选择构建选中/拒绝图像对,无需依赖 (i) 人工标注,(ii) 额外数据,以及 (iii) 外部模型或 API。MIA-DPO 与各种架构兼容,并且在五个多图像基准测试中优于现有方法,在 LLaVA-v1.5 上平均性能提升 3.0%,在最近的 InternLM-XC2.5 上平均性能提升 4.3%。此外,MIA-DPO 对模型理解单图像的能力的影响微乎其微。  
2024-10-22 JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation null 加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。在本文中,我们介绍了 JMMMU(日语 MMMU),这是第一个基于日本文化背景、旨在评估 LMM 在专家级任务上表现的大规模日语基准测试。为了促进全面的文化感知评估,JMMMU 包含两个互补的子集:(i) 文化无关 (CA) 子集,其中选择与文化无关的学科(例如数学)并将其翻译成日语,以便与对应的英语 MMMU 进行一对一比较;以及 (ii) 文化特定 (CS) 子集,包含反映日本文化背景的新创建学科。使用 CA 子集,我们观察到许多 LMM 在日语评估中性能下降,这完全归因于语言差异。使用 CS 子集,我们揭示了它们对日本文化理解的不足。此外,通过结合两个子集,我们发现一些 LMM 在 CA 子集上表现良好,但在 CS 子集上表现不佳,这暴露了它们对日语的理解肤浅,缺乏文化深度的理解。我们希望这项工作不仅有助于提升 LMM 在日语方面的性能,还能作为创建用于多语言 LMM 开发的高标准、文化多样化基准测试的指南。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。  
2024-10-22 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction link 在大型视觉语言模型 (LVLMs) 中,图像作为输入承载着丰富的信息。正如谚语“一图胜千言”所言,在当前的 LVLMs 中表示单个图像可能需要数百甚至数千个标记。这导致了巨大的计算成本,并且随着输入图像分辨率的增加呈二次方增长,从而严重影响训练和推理的效率。以前的方法试图在 LVLMs 的早期层之前或之内减少图像标记的数量。然而,这些策略不可避免地会导致关键图像信息的丢失,最终降低模型性能。为了应对这一挑战,我们进行了一项实证研究,表明所有视觉标记对于 LVLMs 的浅层都是必要的,而标记冗余在模型的深层逐渐增加。为此,我们提出了 PyramidDrop,一种 LVLMs 的视觉冗余减少策略,以提高其训练和推理效率,且性能损失可忽略不计。具体来说,我们将 LVLM 划分为几个阶段,并在每个阶段的末尾以预定义的比率丢弃部分图像标记,从而在模型层中创建金字塔状的视觉标记。丢弃操作基于轻量级的相似度计算,时间开销可以忽略不计。大量实验表明,PyramidDrop 可以使 LLaVA-NeXT 的训练时间缩短 40%,推理 FLOPs 减少 55%,且性能相当。此外,PyramidDrop 还可以作为即插即用的推理加速策略,无需训练,即可获得比同类方法更好的性能和更低的推理成本。我们希望 PyramidDrop 引入的见解和方法能够激励未来的研究,进一步探索图像标记在 LVLMs 中的作用。  
2024-10-22 An Eye for an AI: Evaluating GPT-4o’s Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions null CG(计算机图形学)是 CS(计算机科学)中的一个热门领域,但许多学生发现这门课程很难,因为它需要大量的技能,如数学、编程、几何推理和创造力。在过去几年中,研究人员一直在探索利用生成式人工智能 (GenAI) 的力量来改进教学的方法。在计算机科学领域,许多研究都集中在计算机入门教育上。最近一项评估大型语言模型 (LLM) GPT-4(仅限文本)在 CG 问题上的表现的研究表明,GPT-4 的表现不佳,并且依赖于对图像内容的详细描述,这通常需要用户具备相当多的洞察力才能返回合理的结果。到目前为止,还没有研究调查过大型多模态模型 (LMM) 或多模态 LLM 解决 CG 问题的能力,以及如何利用这些能力来改进教学。在本研究中,我们构建了两个 CG 问题数据集,这些问题需要不同程度的视觉感知能力和几何推理能力,并评估了当前最先进的 LMM GPT-4o 在这两个数据集上的表现。我们发现,尽管 GPT-4o 在独立解决带有视觉信息的问题方面展现出巨大潜力,但在生成结果的准确性和质量方面仍然存在重大局限性。我们为 CG 教育工作者提出了一些新颖的方法,以便将生成式人工智能融入到 CG 教学中,尽管存在这些限制。我们希望,我们的指导方针能进一步鼓励 CG 课堂的学习和参与。  
2024-10-22 MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model null 电影海报对于吸引观众、传达主题和推动电影行业的市场竞争至关重要。虽然传统的设计费时费力,但智能生成技术可以提高效率并增强设计效果。尽管图像生成取得了令人兴奋的进展,但目前的模型在生成令人满意的海报结果方面往往存在不足。主要问题在于缺乏专门的海报数据集来进行有针对性的模型训练。在这项工作中,我们提出了一个电影海报数据集 (MPDS),专为文本到图像生成模型量身定制,旨在彻底改变海报制作。MPDS 专注于海报,据我们所知,它是第一个图像-文本对数据集,由 37.3 万多个图像-文本对和 8 千多张演员图像(涵盖 4 千多名演员)组成。详细的海报描述,例如电影标题、类型、演员阵容和概要,都根据公开的电影概要(也称为电影概要提示)进行了精心组织和标准化。为了充实海报描述并减少与电影概要的差异,我们进一步利用大型视觉语言模型自动为每个海报生成视觉感知提示,然后进行手动校正并与电影概要提示相结合。此外,我们引入了海报标题提示,以展示海报中的文本元素,如演员姓名和电影标题。对于电影海报生成,我们开发了一个多条件扩散框架,将海报提示、海报标题和演员图像(用于个性化)作为输入,通过学习扩散模型产生出色的结果。实验表明,我们提出的 MPDS 数据集在推进个性化电影海报生成方面具有重要价值。MPDS 可在 https://anonymous.4open.science/r/MPDS-373k-BD3B 获取。  
2024-10-21 DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding null 文档结构编辑涉及根据用户请求操作文档图像中的局部文本、视觉和布局组件。过去的研究表明,用户请求在文档图像中的多模态 grounding 以及准确识别结构组件及其相关属性仍然是这项任务的关键挑战。为了解决这些问题,我们引入了 DocEdit-v2,这是一个利用大型多模态模型 (LMM) 执行端到端文档编辑的新框架。它包含三个新组件:(1) Doc2Command,它同时定位感兴趣的编辑区域 (RoI) 并将用户编辑请求分解为编辑命令;(2) 基于 LLM 的命令重构提示,将最初为专业软件设计的编辑命令定制为适合通才 LMM 的编辑指令。(3) 此外,DocEdit-v2 通过 GPT-4V 和 Gemini 等大型多模态模型处理这些输出,以解析文档布局、对 grounded 感兴趣区域 (RoI) 执行编辑并生成编辑后的文档图像。在 DocEdit 数据集上的大量实验表明,DocEdit-v2 在编辑命令生成 (2-33%)、RoI 边界框检测 (12-31%) 和整体文档编辑 (1-12%) 任务上明显优于强大的基线。  
2024-10-21 Promoting cross-modal representations to improve multimodal foundation models for physiological signals null 许多医疗保健应用本质上是多模态的,涉及多种生理信号。随着这些信号的传感器变得越来越普遍,改进针对多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是取得成功的有希望的途径。然而,在医疗保健领域开发基础模型的方法仍处于早期探索阶段,并且尚不清楚鉴于生理信号的多样性,哪种预训练策略最有效。这在一定程度上是由于多模态健康数据方面的挑战:获取许多患者的数据既困难又昂贵,受试者之间存在很大差异,并且模态在下游任务中的信息量通常存在异质性。在这里,我们在 PhysioNet 2018 数据集中探讨了这些挑战。我们使用掩蔽自动编码目标来预训练多模态模型。我们证明了该模型学习到的表示可以被线性探测用于各种下游任务。我们假设跨模态重建目标对于成功的多模态训练很重要,因为它们鼓励模型整合跨模态的信息。我们证明了输入空间中的模态丢失可以提高下游任务的性能。我们还发现,使用对比学习目标预训练的后期融合模型在多个任务中的效果较差。最后,我们分析了模型的表示,表明注意力权重通过我们的预训练策略变得更加跨模态和时间对齐。就每个单元编码的模态而言,学习到的嵌入也变得更加分散。总的来说,我们的工作证明了多模态基础模型对健康数据的效用,即使是在不同的生理数据源中也是如此。我们进一步认为,用于诱导跨模态的显式方法可以增强多模态预训练策略。  
2024-10-21 VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use null 虽然视觉语言模型 (VLM) 在结合文本和视觉信息的各种任务中表现出卓越的性能,但它们在需要详细像素级分析的细粒度视觉感知任务中仍然面临挑战。如何有效地从 VLM 中引出对此类复杂视觉元素的全面推理仍然是一个开放的挑战。在本文中,我们提出了 VipAct,这是一个通过集成多智能体协作和视觉专家模型来增强 VLM 的智能体框架,从而实现更精确的视觉理解和更全面的推理。VipAct 由一个协调器智能体和一些专门的智能体组成,协调器智能体负责任务需求分析、规划和协调,而专门的智能体则处理图像字幕等特定任务,以及提供高精度感知信息的视觉专家模型。这种多智能体方法允许 VLM 通过协同规划、推理和工具使用来更好地执行细粒度视觉感知任务。我们在具有一组不同视觉感知任务的基准测试中评估了 VipAct,实验结果表明,在所有任务中,与最先进的基线相比,性能都有显著提高。此外,全面的消融研究揭示了多智能体协作在引出更详细的系统 2 推理中的关键作用,并强调了图像输入对任务规划的重要性。此外,我们的错误分析确定了 VLM 在视觉感知方面固有局限性的模式,为未来潜在的改进提供了见解。VipAct 提供了一个灵活且可扩展的框架,为各种现实应用中更先进的视觉感知系统铺平了道路。  
2024-10-21 Improve Vision Language Model Chain-of-thought Reasoning link 视觉语言模型 (VLM) 中的思维链 (CoT) 推理对于提高模型的可解释性和可信度至关重要。然而,目前的训练方法缺乏强大的 CoT 推理数据,依赖于以简短注释和少量推理过程为主的数据集。在这项工作中,我们发现,在简短答案上训练 VLM 并不能很好地泛化到需要更详细回答的推理任务。为了解决这个问题,我们提出了一种双重方法。首先,我们从 GPT-4o 模型中提取推理过程,以丰富训练数据并微调 VLM,从而提高其 CoT 性能。其次,我们应用强化学习来进一步校准推理质量。具体来说,我们通过将模型生成的推理链的预测结果与带注释的简短答案进行比较,构建正(正确)和负(错误)样本对。利用这些成对数据,我们应用直接偏好优化算法来改进模型的推理能力。我们的实验表明,在基准数据集上,CoT 推理得到了显著改进,并且对直接答案预测的泛化能力也更强。这项工作强调了在训练中纳入详细推理过程以及利用强化学习来增强 VLM 推理能力的重要性。  
2024-10-21 Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models link 大型多模态模型 (LMM) 在基于自回归建模的各种视觉语言和以视觉为中心的的任务中取得了重大突破。然而,这些模型通常侧重于以视觉为中心的的任务,例如视觉定位和区域描述,或者视觉语言任务,例如图像描述和多场景视觉问答 (VQA)。目前还没有哪个 LMM 能够像自然语言处理领域的大型语言模型那样,将这两种类型的任务全面统一在一个模型中。此外,即使有丰富的多任务指令遵循数据,直接堆叠这些数据来扩展通用能力仍然具有挑战性。为了解决这些问题,我们引入了一个名为 CCMD-8M 的新型多维度策划和整合的多模态数据集,它通过多级数据策划和多任务整合克服了统一以视觉为中心的任务和视觉语言任务的数据障碍。更重要的是,我们提出了 Griffon-G,这是一个通用的 LMM,它在单个端到端范式中同时解决了以视觉为中心的任务和视觉语言任务。Griffon-G 解决了在这些任务的联合优化过程中遇到的训练崩溃问题,实现了更好的训练效率。跨多模态基准、通用视觉问答 (VQA) 任务、场景文本中心 VQA 任务、文档相关 VQA 任务、指称表达式理解和目标检测的评估表明,Griffon-G 优于先进的 LMM,并在复杂的以视觉为中心的的任务中达到了专家级的性能。  
2024-10-21 Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning null 视觉语言模型 (VLM) 在各种下游任务中表现出了令人印象深刻的性能。然而,尽管空间推理在涉及导航和与物理环境交互的任务中起着至关重要的作用,但VLM在这方面的能力仍然有限。具体来说,这些任务中的大部分空间推理发生在二维 (2D) 环境中,我们的评估表明,最先进的 VLM 经常对复合空间推理问题生成不合理和错误的响应,包括人类一眼就能轻松解决的简单寻路任务。为了解决这个问题,我们探索了一种有效的方法,通过训练模型的基本空间能力来增强 VLM 中的 2D 空间推理能力。我们首先将 2D 空间推理的关键组成部分分解为:方向理解、距离估计和定位。我们的核心假设是,掌握这些基本的空间能力可以显着提高模型在需要高级空间理解和组合问题解决能力的复合空间任务中的性能。为了验证这一假设,我们引入了 Sparkle,这是一个通过合成数据生成和目标监督对这三种基本空间能力进行微调的 VLM 框架,以便为每种能力形成一个指令数据集。我们的实验表明,使用 Sparkle 微调的 VLM 不仅在基本任务本身中取得了显着的性能提升,而且还可以泛化到复合和分布外的空间推理任务中(例如,在最短路径问题上的性能从 13.5% 提高到 40.0%)。这些发现强调了掌握基本空间能力在增强复合空间问题解决能力方面的有效性,为提高 VLM 的空间推理能力提供了见解。  
2024-10-18 NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples null 视觉语言模型(VLM)在最近的视觉问答(VQA)基准测试中取得了重大进展,这些基准测试评估了复杂的视觉语言推理能力。然而,这些模型真的有效吗?在这项工作中,我们发现VLM仍然难以处理人类可以轻松回答的自然图像和问题,我们将其称为自然对抗样本。我们还发现,使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库中生成这些VQA样本非常容易。我们提出了一种半自动方法来收集一个新的基准测试集NaturalBench,该测试集包含10,000个经过人工验证的VQA样本,用于可靠地评估VLM。至关重要的是,我们采用以视觉为中心的设计,将每个问题与两张产生不同答案的图像配对,防止模型在不使用图像的情况下盲目作答。这使得NaturalBench比之前可以利用常识先验知识解决的基准测试更具挑战性。我们在NaturalBench上评估了53个最先进的VLM,结果表明,LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL,甚至GPT-4o等模型都比人类表现(超过90%)落后50%-70%。我们从两个角度分析了NaturalBench为何难以处理:(1)组合性:解决NaturalBench需要多种视觉语言技能,包括理解属性绑定、对象关系以及逻辑和计数等高级推理。为此,与先前的工作使用每个样本一个标签不同,我们为每个NaturalBench样本标记了1到8个技能标签,以便进行细粒度评估。(2)偏差:NaturalBench揭示了VLM中存在的严重偏差,因为模型通常会选择相同的答案,而不管图像如何。最后,我们将基准测试集构建方法应用于不同的数据源,包括长标题(超过100字)和中文、印地语等非英语语言,突出了其对VLM进行动态评估的潜力。  
2024-10-18 Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension link 近年来,大型语言模型(LLM)的进步推动了大型多模态模型(LMM)的发展。然而,现有的研究主要集中在调整语言和图像指令上,而忽略了模型学习联合处理文本和视觉模态的关键预训练阶段。在本文中,我们提出了一种新的LMM预训练范式,通过引入一种新颖的跨模态理解阶段来增强LLM的视觉理解能力。具体来说,我们设计了一个动态可学习的提示标记池,并采用匈牙利算法用最相关的提示标记替换部分原始视觉标记。然后,我们将视觉标记概念化为LLM的“外语”,并提出了一种混合注意力机制,结合双向视觉注意力和单向文本注意力,以全面增强对视觉标记的理解。同时,我们整合了详细的图像描述生成任务,利用丰富的描述来进一步促进LLM理解视觉语义信息。在150万条公开数据上进行预训练后,我们提出了一个名为Croc的新基础模型。实验结果表明,Croc在大型视觉语言基准测试中取得了新的最先进性能。为了支持可 reproducibility 并促进进一步的研究,我们在https://github.com/deepglint/Croc 上发布了训练代码和预训练模型权重。  
2024-10-18 E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model null 三维医学视觉语言模型的开发在疾病诊断和患者治疗方面具有巨大潜力。然而,与二维医学图像相比,三维医学图像(如CT扫描)面临着训练数据有限和维度高等挑战,这严重限制了三维医学视觉语言模型的进展。为了解决这些问题,我们收集了大量未标记的三维CT数据,并利用自监督学习构建了一个用于提取三维视觉特征的三维视觉基础模型。然后,我们应用三维空间卷积来聚合和投影高级图像特征,在降低计算复杂度的同时保留空间信息。我们还基于BIMCV-R和CT-RATE构建了两个指令微调数据集,用于微调三维视觉语言模型。我们的模型在报告生成、视觉问答和疾病诊断方面表现出优于现有方法的性能。代码和数据将很快公开发布。  
2024-10-18 LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs null 实验室事故对人类生命和财产构成重大风险,凸显了健全安全规程的重要性。尽管安全培训有所进步,但实验室人员仍可能在不知不觉中进行不安全的操作。随着各领域(包括实验室环境)越来越依赖大型语言模型 (LLM) 进行指导,人们越来越担心LLM在关键安全相关决策中的可靠性。与受过训练的人类研究人员不同,LLM缺乏正式的实验室安全教育,这引发了人们对其提供安全和准确指导的能力的质疑。现有关于LLM可信度的研究主要集中在道德合规性、真实性和公平性等问题上,但未能完全涵盖安全关键型现实应用,例如实验室安全。为了弥补这一差距,我们提出了实验室安全基准(LabSafety Bench),这是一个基于与职业安全与健康管理局 (OSHA) 协议相一致的新分类法的综合评估框架。该基准测试包括由人类专家验证的765道多项选择题,用于评估LLM和视觉语言模型 (VLM) 在实验室安全环境中的性能。我们的评估表明,虽然GPT-4o的表现优于人类参与者,但它仍然容易出现严重错误,这凸显了在安全关键型环境中依赖LLM的风险。我们的研究结果强调,需要专门的基准来准确评估LLM在现实安全应用中的可信度。  
2024-10-18 ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom null 大型视觉语言模型 (LVLM) 在视觉理解任务方面取得了重大进展。然而,它们在视觉推理任务中经常优先考虑语言知识而不是图像信息,从而导致性能下降。为了解决这个问题,我们首先确定了现有解决方案的缺点(即视觉描述不足且不相关,以及多模态能力有限)。然后,我们将视觉推理过程分解为两个阶段:视觉感知(即视力)和文本推理(即智慧),并介绍了一种名为 ProReason 的新型视觉推理框架。该框架具有多轮主动感知和解耦的视觉推理能力。简而言之,给定一个多模态问题,ProReason 会迭代主动信息收集和推理,直到可以用必要且充分的视觉描述得出答案。值得注意的是,能力的解耦允许无缝集成现有的大型语言模型 (LLM) 来弥补 LVLM 的推理缺陷。我们广泛的实验表明,ProReason 在开源和闭源模型的各种基准测试中都优于现有的多步推理框架和被动对等方法。此外,在 LLM 的帮助下,ProReason 在 MMMU 基准测试中实现了高达 15% 的性能提升。我们对现有解决方案的见解以及对 LLM 可行集成的解耦视角,为未来的视觉推理技术研究(尤其是 LLM 辅助技术)提供了启示。  
2024-10-17 Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers null 近年来,视觉语言模型 (VLM) 的进步扩展了其在现实世界应用中的潜力,使这些模型能够对图像进行复杂的推理。在像 LLaVA 这样广泛使用的完全自回归的基于 Transformer 的模型中,投影的视觉标记被添加到文本标记之前。通常,视觉标记比提示标记多得多,导致训练和推理过程中的计算开销增加。在本文中,我们提出了视觉压缩标记寄存器 (Victor),这是一种通过将视觉标记汇总到一组较小的寄存器标记来减少视觉标记数量的方法。Victor 在视觉标记之后添加了一些可学习的寄存器标记,并使用 VLM 语言塔中的前几层将视觉信息汇总到这些寄存器中。在这几层之后,所有视觉标记都将被丢弃,从而显着提高了训练和推理的计算效率。值得注意的是,我们的方法易于实现,并且只需要少量新的可训练参数,对模型性能的影响最小。在我们的实验中,Victor 仅使用 8 个视觉寄存器(约占原始标记的 1%),就将准确率下降控制在 4% 以内,同时将总训练时间减少了 43%,并将推理吞吐量提高了 3.3 倍。  
2024-10-17 Reproducibility study of “LICO: Explainable Models with Language-Image Consistency” link 机器学习领域日益严重的复现性危机要求我们仔细审查研究结果。本文调查了 Lei 等人 (2023) 提出的 LICO 方法,该方法旨在增强事后可解释性技术并提高图像分类性能。LICO 利用来自视觉语言模型的自然语言监督来丰富特征表示并指导学习过程。我们进行了一项全面的可重复性研究,采用了 (Wide) ResNets 和已建立的可解释性方法,如 Grad-CAM 和 RISE。我们基本上无法复现作者的结果。特别是,我们没有发现 LICO 始终能够提高分类性能或改进可解释性的定量和定性指标。因此,我们的研究结果强调了在可解释性研究中进行严格评估和透明报告的重要性。  
2024-10-17 Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations null 大型视觉语言模型 (LVLM),例如 LLaVA,已经展示出作为通用聊天机器人的强大能力,能够就提供的输入图像进行对话。然而,它们的响应会受到训练数据集中存在的社会偏见的影响,导致模型在处理描绘不同人群图像时产生不希望的差异。在这项工作中,我们为 LVLM 提出了一种新的去偏见框架,通过在文本生成过程中直接消融偏见属性,以避免生成与受保护属性相关的文本,甚至在内部表示它们。我们的方法不需要训练,只需要相对少量的代表性偏见输出(约 1000 个样本)。我们的实验表明,我们不仅可以最大限度地降低 LVLM 生成与受保护属性相关的文本的倾向,而且甚至可以使用合成数据来指导消融,同时保持在真实数据(如 COCO)上的字幕性能。此外,我们发现,去偏 LVLM 的结果生成表现出与基线偏见模型相似的准确性,表明可以在不牺牲模型性能的情况下实现去偏效果。  
2024-10-17 Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation link 在本文中,我们介绍了 Janus,这是一个统一了多模态理解和生成的自动回归框架。之前的研究通常依赖于单一视觉编码器来完成这两项任务,例如 Chameleon。然而,由于多模态理解和生成所需的信息粒度不同,这种方法会导致性能欠佳,尤其是在多模态理解方面。为了解决这个问题,我们将视觉编码分离成独立的路径,同时仍然利用单个统一的 Transformer 架构进行处理。这种分离不仅缓解了视觉编码器在理解和生成中角色之间的冲突,还增强了框架的灵活性。例如,多模态理解和生成组件都可以独立选择最合适的编码方法。实验表明,Janus 优于之前的统一模型,并且达到或超过了特定任务模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。  
2024-10-17 VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks link 从异构输入(如图像、文本和音频)中推导出推理是人类执行日常任务的一项重要技能。对于开发先进的人工智能 (AI) 系统来说,类似的能力也是非常需要的。虽然最先进的模型在各种计算机视觉和自然语言处理任务上正在迅速缩小与人类水平性能的差距,但它们在解决需要对视觉和文本模态进行联合推理的任务时仍然很吃力。受 GLUE(Wang 等人,2018 年)的启发,GLUE 是一个用于自然语言理解的多任务基准测试,我们在本文中提出了 VL-GLUE。VL-GLUE 由跨越七个不同任务的超过 100k 个样本组成,这些任务的核心都需要视觉语言推理。此外,我们的基准测试包含了多样化的图像类型(从合成渲染的图形、日常场景到图表和复杂图表),并包含了广泛的特定领域文本(从烹饪、政治、体育到高中课程),证明了现实世界中对多模态理解的需求。我们表明,这个基准测试对于现有的 大规模视觉语言模型来说 相当具有挑战性,并鼓励开发具有鲁棒视觉语言推理能力的系统。  
2024-10-17 H2OVL-Mississippi Vision Language Models Technical Report null 由于能够在消费者硬件上高效运行以处理企业商业文档和图像,体积更小的视觉语言模型 (VLM) 对于注重隐私的设备上应用程序变得越来越重要。这些模型需要强大的语言理解和视觉能力来增强人机交互。为了满足这一需求,我们推出了 H2OVL-Mississippi,这是一对小型 VLM,使用 8 个 H100 GPU,在 240 小时的计算时间内,利用 3700 万个图文对进行训练。H2OVL-Mississippi-0.8B 是一款参数量为 8 亿的微型模型,专注于文本识别,在 OCRBench 的文本识别部分实现了最先进的性能,并在该领域超越了许多更大的模型。此外,我们还发布了 H2OVL-Mississippi-2B,这是一个包含 20 亿个参数的通用模型,在各种学术基准测试中均表现出极具竞争力的指标。这两个模型都建立在我们之前使用 H2O-Danube 语言模型的工作基础之上,将其功能扩展到视觉领域。我们将它们在 Apache 2.0 许可下发布,使所有人都可以使用 VLM,从而使文档 AI 和视觉 LLM 民主化。  
2024-10-17 GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models null 几何问题解决需要高级推理能力来处理多模态输入并有效地利用数学知识。视觉语言模型(VLM)在各种多模态任务中取得了重大进展。然而,它们仍然难以解决几何问题,并且由于无法执行预训练期间未见过的数学运算(例如计算任意角度的余弦)以及难以正确应用相关几何公式而受到很大限制。为了克服这些挑战,我们提出了 GeoCoder,它利用模块化代码微调来使用预定义的几何函数库生成和执行代码。通过执行代码,我们实现了准确和确定的计算,与自回归标记预测的随机性形成对比,而函数库最大限度地减少了公式使用中的错误。我们还提出了 GeoCoder 的多模态检索增强变体,名为 RAG-GeoCoder,它结合了一个非参数内存模块来从几何库中检索函数,从而减少对参数内存的依赖。我们的模块化代码微调方法增强了 VLM 的几何推理能力,与其他微调方法相比,在 GeomVerse 数据集上的各种问题复杂性方面平均提高了 16% 以上。  
2024-10-17 Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR null 由于缺乏标注的训练数据,低资源语言的自动语音识别 (ASR) 仍然是一个挑战。参数高效的微调和纯文本自适应是两种常用的方法,用于解决这种低资源环境下的问题。在这项工作中,我们研究了如何使用像 SeamlessM4T 这样的多语言多模态模型有效地结合这些技术。多模态模型能够通过纯文本自适应利用未标注的文本,并进一步进行参数高效的 ASR 微调,从而提高 ASR 性能。我们还展示了从高资源语言进行跨语言迁移,在没有任何标注语音的零样本设置中,相对于基线实现了高达 17% 的词错误率 (WER) 降低。  
2024-10-17 Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding null 大型视觉语言模型 (LVLM) 在根据视觉输入生成详细且连贯的响应方面表现出令人印象深刻的能力。然而,由于过度依赖语言先验,它们容易产生幻觉。为了解决这个问题,我们研究了 LVLM 中的语言先验,并得出两个关键观察结果:(1) 即使在预测与图像相关的词性 (POS) 相关的标记时,随着标记序列的增长,模型越来越依赖语言先验,从而放大了幻觉。(2) 直接校准 LVLM 的输出分布以减轻语言先验的方法可能会导致文本质量下降,甚至加剧幻觉。基于这些发现,我们提出了一种新方法,即摘要引导解码 (SGD)。该方法通过摘要减少文本上下文,自然地鼓励模型更多地关注图像信息,同时仅控制与图像相关的词性标记以保持文本质量。通过实验,我们证明了 SGD 在物体幻觉基准测试中实现了最先进的性能。此外,在精确率和召回率的权衡方面,SGD 在现有方法中实现了帕累托最优。最后,我们观察到,尽管现有方法难以在减少物体幻觉和保持文本质量之间取得平衡,但 SGD 在应对这一挑战方面表现出稳健性。  
2024-10-17 Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead link 随着视觉语言模型 (VLM) 得到广泛应用,其公平性仍然缺乏探索。在本文中,我们分析了五个模型和六个数据集的人口统计学偏差。我们发现,像 UTKFace 和 CelebA 这样的肖像数据集是检测偏差的最佳工具,可以发现 LLaVa 和 CLIP 模型之间在性能和公平性方面的差距。然而,像 PATA、VLStereoSet 这样的场景数据集由于其构建方式,无法成为有效的偏差基准。至于像 VisoGender 这样的基于代词的数据集,我们收到了混合信号,因为只有一部分数据子集对提供见解有用。为了缓解这个问题,我们引入了更难版本的 VisoGender,作为更严格的评估标准。基于这些结果,我们呼吁建立更有效、设计更仔细的数据集,以确保 VLM 的公平性和可靠性。  
2024-10-16 Sensitivity of Generative VLMs to Semantically and Lexically Altered Prompts null 尽管用于生成式视觉语言模型 (VLM) 的提示调整技术大量涌现,但这些模型对提示中的词汇和语义变化的敏感程度仍不清楚。在本文中,我们使用 SugarCrepe++ 数据集评估了生成式 VLM 理解文本中词汇和语义变化的能力。我们分析了 VLM 对提示中词汇变化的敏感性,而这些变化不对应于语义变化。我们的研究结果表明,生成式 VLM 对此类更改高度敏感。此外,我们还发现,这种脆弱性会影响旨在实现其输出一致性的技术性能。  
2024-10-16 Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models null 端到端学习将感官输入直接映射到动作,为复杂的机器人任务创建高度集成和高效的策略。然而,此类模型难以有效训练,并且通常难以泛化到其训练场景之外,从而限制了对新环境、任务和概念的适应性。在这项工作中,我们研究了在看不见的文本指令和视觉分布变化下,基于视觉的控制策略实现稳健的闭环性能所需的最小数据要求和架构适应。为此,我们设计了具有不同数据表示丰富度的数据库,通过利用多模态基础模型编码器来改进特征提取协议,并评估不同策略网络头的适用性。我们的研究结果在 Flex(Fly-lexically)中得到综合,这是一个使用预训练的视觉语言模型(VLM)作为冻结的逐块特征提取器的框架,生成整合语义和视觉信息的具有空间感知的嵌入。这些丰富的特征构成了训练高度稳健的下游策略的基础,这些策略能够跨平台、环境和文本指定的任务进行泛化。我们展示了这种方法在四旋翼飞行器飞往目标任务中的有效性,其中通过行为克隆在小型模拟数据库上训练的代理成功地泛化到现实世界场景,处理不同的新目标和命令公式。  
2024-10-16 The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio null 近年来,大型多模态模型 (LMM) 的进步显著提高了其在各种任务中的性能,并且人们一直在努力进一步整合视频和音频等其他模态。然而,大多数现有的 LMM 仍然容易出现幻觉,即事实上的多模态输入与生成的文本输出之间存在差异,这限制了它们在各种现实场景中的适用性。本文首次系统地研究了涉及三种最常见模态(语言、视觉和音频)的 LMM 中的幻觉问题。我们的研究揭示了导致幻觉的两个关键因素:过度依赖单模态先验和虚假的模态间相关性。为了应对这些挑战,我们引入了多模态诅咒 (CMM) 基准测试,该基准全面评估了 LMM 中的幻觉,并详细分析了其根本问题。我们的研究结果突出了关键的漏洞,包括模态整合的不平衡和训练数据的偏差,强调了平衡跨模态学习和增强幻觉缓解策略的必要性。根据我们的观察和发现,我们提出了一些潜在的研究方向,可以提高 LMM 的可靠性。  
2024-10-15 Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories link 一个概念的视觉表征会因其含义和出现语境的不同而发生显著变化,这对视觉和多模态模型都提出了多重挑战。我们的研究侧重于具象性,这是一个经过充分研究的词汇语义变量,并以此作为案例研究来检验视觉表征的可变性。我们依赖于从两个不同数据集(Bing 和 YFCC)中提取的与大约 1000 个抽象和具体概念相关的图像。我们的目标是:(i) 评估概念描述中的视觉多样性是否可以可靠地区分具体概念和抽象概念;(ii) 通过最近邻分析来分析同一概念的多幅图像的视觉特征的可变性;(iii) 通过对图像进行分类和注释来识别导致这种可变性的挑战性因素。我们的研究结果表明,对于抽象概念和具体概念图像的分类,颜色和纹理等基本视觉特征的组合比视觉Transformer(ViT)等更复杂模型提取的特征更有效。然而,ViT 在最近邻分析中表现出更好的性能,这强调了在通过文本以外的模态分析概念变量时,需要谨慎选择视觉特征。  
2024-10-15 On-the-fly Modulation for Balanced Multimodal Learning link 多模态学习旨在通过整合来自不同模态的信息来提升模型性能。然而,由于广泛使用的联合训练策略对所有模态采用统一目标,导致单模态表征不平衡和欠优化,因此多模态学习的潜力并未得到充分发挥。具体来说,我们指出通常存在具有更多判别信息的模态,例如踢足球的视觉和刮风的听觉。它们可能在联合训练过程中占据主导地位,导致其他模态严重欠优化。为了缓解这个问题,我们首先从优化的前馈和反向传播阶段分析了欠优化现象。然后,提出了动态预测调制(OPM)和动态梯度调制(OGM)策略,通过在训练过程中监控模态间的判别差异来调节每个模态的优化。具体而言,OPM在前馈阶段通过动态概率丢弃主导模态的特征来削弱其影响,而OGM在反向传播阶段减轻其梯度。在实验中,我们的方法在各种多模态任务中都表现出相当大的改进。这些简单而有效的策略不仅增强了普通和面向任务的多模态模型的性能,而且在更复杂的多模态任务中也表现出色,展示了它们的有效性和灵活性。源代码可在\url{https://github.com/GeWu-Lab/BML_TPAMI2024}获取。  
2024-10-15 Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference null 多模态变分自编码器 (VAE) 旨在通过整合来自不同数据模态的信息来捕获共享的潜在表示。一个重大挑战是在不需要为所有可能的模态组合训练不切实际数量 (2^M) 个推理网络的情况下,准确地从任何模态子集推断表示。基于混合的模型通过仅需要与模态数量一样多的推理模型来简化这一过程,从而聚合单模态推理。然而,当模态缺失时,它们会遭受信息丢失的困扰。基于对齐的 VAE 通过最小化 Kullback-Leibler (KL) 散度将单模态推理模型与多模态模型对齐来解决这个问题,但由于摊销差距导致推理精度下降,因此面临着问题。为了解决这些问题,我们在多模态 VAE 框架内引入了多模态迭代摊销推理,这是一种迭代细化机制。该方法通过使用所有可用模态迭代地细化多模态推理,从而克服了缺失模态造成的信息丢失,并最大程度地减少了摊销差距。通过将单模态推理与这种细化的多模态后验对齐,我们实现了单模态推理,该推理有效地结合了多模态信息,同时在推理过程中仅需要单模态输入。在基准数据集上的实验表明,我们的方法提高了推理性能,更高的线性分类精度和竞争性余弦相似性证明了这一点,并增强了跨模态生成,FID 得分较低表明了这一点。这表明我们的方法增强了从单模态输入推断的表示。  
2024-10-15 LargePiG: Your Large Language Model is Secretly a Pointer Generator null 最近关于查询生成的研究集中在使用大型语言模型(LLM)上,虽然LLM带来了最先进的性能,但也引入了生成查询中的幻觉问题。在这项工作中,我们将相关性幻觉和事实性幻觉作为一种新的类型学来描述基于LLM的查询生成带来的幻觉问题。我们提出了一种有效的方法来分离LLM生成查询中的内容和形式,该方法保留了从输入中提取和集成的 factual knowledge,并利用LLM强大的语言能力编译了句法结构,包括功能词。具体来说,我们介绍了一种与模型无关且无需训练的方法,将大型语言模型转换为指针生成器(LargePiG),其中指针注意力分布利用了LLM固有的注意力权重,并且复制概率源自模型高层和最后一层的词汇分布差异。为了验证LargePiG的有效性,我们构建了两个数据集,用于评估查询生成中的幻觉问题,涵盖了文档和视频场景。对各种LLM的实证研究表明,LargePiG在两个数据集上都具有优越性。额外的实验还验证了LargePiG可以减少大型视觉语言模型中的幻觉,并提高基于文档的问答和事实性评估任务的准确性。  
2024-10-15 CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification null 近年来,像CLIP这样的预训练视觉语言模型的进步,已经显示出其在行人重识别(ReID)应用中的潜力。然而,它们在通用行人重识别任务中的性能仍然欠佳。CLIP预训练中使用的大规模多样化的图像-文本对可能导致某些细粒度特征的缺失或不足。针对这些挑战,我们提出了一种名为DFGS(深度优先图采样器)的困难样本挖掘方法,该方法基于深度优先搜索,旨在提供足够具有挑战性的样本,以增强CLIP提取细粒度特征的能力。DFGS可以应用于CLIP中的图像编码器和文本编码器。通过利用CLIP强大的跨模态学习能力,我们的目标是应用DFGS方法提取具有挑战性的样本,并形成具有高判别难度的mini-batches,为图像模型提供更有效、更具挑战性的难以区分的样本,从而增强模型区分个体的能力。我们的结果表明,与其他方法相比,DFGS有显著的改进,证实了DFGS在提供具有挑战性的样本以增强CLIP在通用行人重识别中的性能方面的有效性。  
2024-10-14 Locality Alignment Improves Vision-Language Models null 近年来,视觉语言模型 (VLM) 得到越来越多的应用,但许多模型仍然难以解决基本的 spatial reasoning 错误。我们假设这是由于 VLM 采用了预训练的视觉骨干网络,特别是使用图像级监督和最小归纳偏差训练的视觉变换器 (ViT)。此类模型可能无法编码图像中每个位置的类别内容,我们的目标是通过确保视觉骨干网络有效捕获局部和全局图像语义来解决此问题。我们的主要见解是,我们不需要新的监督来学习这种能力——预训练模型包含大量的局部语义知识,我们可以提取这些知识并将其用于可扩展的自监督。我们为 ViT 提出了一种新的高效的训练后阶段,称为局部性对齐,以及一种新的微调程序,称为 MaskEmbed,它使用掩蔽重建损失来学习每个图像块的语义贡献。我们首先使用仅视觉基准评估局部性对齐,发现它提高了模型在块级语义分割任务中的性能,特别是对于使用图像-标题对(例如,CLIP 和 SigLIP)训练的强骨干网络。然后,我们训练了一系列使用和不使用局部性对齐的 VLM,并表明局部性对齐的骨干网络提高了各种基准测试的性能,特别是那些涉及空间理解的基准测试(例如,RefCOCO、OCID-Ref、TallyQA、VSR、AI2D)。总的来说,我们证明了我们可以通过局部性对齐阶段有效地学习局部语义提取,并且此过程补充了使用现成视觉骨干网络的现有 VLM 训练方法。  
2024-10-14 Towards Foundation Models for 3D Vision: How Close Are We? null 构建用于 3D 视觉的基础模型是一个尚未解决的复杂挑战。为了实现这一目标,重要的是了解当前模型的 3D 推理能力,并确定这些模型与人类之间的差距。因此,我们构建了一个新的 3D 视觉理解基准,该基准涵盖了视觉问答 (VQA) 格式的基本 3D 视觉任务。我们评估了最先进的视觉语言模型 (VLM)、专门模型和人类受试者。我们的结果表明,VLM 的性能普遍较差,而专门模型虽然准确但不稳健,在几何扰动下会失败。相比之下,人类视觉仍然是最可靠的 3D 视觉系统。我们进一步证明,与经典计算机视觉方法相比,神经网络与人类 3D 视觉机制的一致性更高,并且基于 Transformer 的网络(如 ViT)比 CNN 与人类 3D 视觉机制的一致性更高。我们希望我们的研究能够有利于未来 3D 视觉基础模型的开发。  
2024-10-14 VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents link 检索增强生成(RAG)是一种有效的技术,它使大型语言模型(LLM)能够利用外部知识源进行生成。然而,当前的RAG系统完全基于文本,无法利用在现实世界多模态文档中起着至关重要作用的视觉信息,如布局和图像。在本文中,我们介绍了VisRAG,它通过建立一个基于视觉语言模型(VLM)的RAG流程来解决这个问题。在这个流程中,不是先解析文档以获取文本,而是使用VLM将文档作为图像直接嵌入,然后检索以增强VLM的生成。与传统的基于文本的RAG相比,VisRAG最大限度地保留和利用了原始文档中的数据信息,消除了解析过程中引入的信息损失。我们收集了开源数据和合成数据来训练VisRAG中的检索器,并探索了各种生成方法。实验表明,VisRAG在检索和生成阶段都优于传统的RAG,相较于传统的基于文本的RAG流程,实现了25%-39%的端到端性能提升。进一步的分析表明,VisRAG可以有效地利用训练数据并表现出强大的泛化能力,这使其成为多模态文档上RAG的一个很有前景的解决方案。我们的代码和数据可在https://github.com/openbmb/visrag 获取。  
2024-10-14 LG-CAV: Train Any Concept Activation Vector with Language Guidance null 概念激活向量(CAV)通过将模型预测优雅地归因于特定概念,在可解释人工智能领域引起了广泛的研究兴趣。然而,CAV 的训练通常需要大量高质量的图像,这些图像的整理成本很高,因此仅限于一组预定义的概念。为了解决这个问题,我们提出了语言引导的 CAV(LG-CAV),以利用某些预训练的视觉语言模型(例如 CLIP)中丰富的概念知识。该方法允许在没有标记数据的情况下训练任何 CAV,方法是利用相应的概念描述作为指导。为了弥合视觉语言模型与目标模型之间的差距,我们使用视觉语言模型计算了一组通用图像(探测图像)上概念描述的激活值,并利用它们作为语言指导来训练 LG-CAV。此外,在训练了与目标模型中所有预测类别相关的高质量 LG-CAV 后,我们提出了激活样本重新加权(ASR)作为一种模型校正技术,以反过来提高目标模型的性能。在四个数据集上跨越九种架构的实验表明,LG-CAV 在给定任何概念的情况下,相较于以前的 CAV 方法实现了显著的质量提升,并且我们的模型校正方法与现有的基于概念的方法相比,实现了最先进的性能。我们的代码可在 https://github.com/hqhQAQ/LG-CAV 获取。  
2024-10-14 Saliency Guided Optimization of Diffusion Latents null 随着扩散模型的快速发展,从文本提示生成高质量图像已不再是挑战。文本到图像生成的重点是如何优化生成结果,使其更好地与人类意图或提示保持一致。现有的优化方法通常将整个图像视为一个整体,进行全局优化。这些方法忽略了一个事实:当人类观察图像时,视觉系统会自然地将注意力集中在显著区域,而忽略不太重要或不显著的区域。也就是说,人类很可能忽略对非显著区域的优化。因此,尽管在大型多模态模型的指导下进行了模型微调,但现有进行全局优化的方法得到的结果并不理想。为了有效且高效地解决这种对齐挑战,我们提出了显著性引导的扩散潜在空间优化方法(SGOOL)。我们首先使用显著性检测器来模拟人类视觉注意力系统,并标记出显著区域。为了避免重新训练额外的模型,我们的方法直接优化扩散模型的潜在空间。此外,SGOOL 利用了可逆扩散过程,并具有恒定内存实现的优点。因此,我们的方法成为了一种参数高效且即插即用的微调方法。我们使用多种指标和人工评估进行了大量实验。实验结果表明,SGOOL 在图像质量和提示对齐方面具有优越性。  
2024-10-11 SegGrasp: Zero-Shot Task-Oriented Grasping via Semantic and Geometric Guided Segmentation null 面向任务的抓取,即根据物体功能抓取其特定部位,对于开发能够在动态环境中执行复杂任务的先进机器人系统至关重要。在本文中,我们提出了一个免训练框架,该框架结合了语义和几何先验,用于零样本面向任务的抓取生成。所提出的框架名为 SegGrasp,首先利用 GLIP 等视觉语言模型进行粗分割。然后,它使用来自凸分解的详细几何信息,通过名为 GeoFusion 的融合策略来提高分割质量。通过改进分割的抓取网络可以生成有效的抓取姿态。我们在分割基准和真实世界机器人抓取上进行了实验。实验结果表明,SegGrasp 在抓取和分割性能方面均优于基线 15% 以上。  
2024-10-11 Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation null 基于缓存的方法在适应视觉语言模型 (VLM) 方面表现出色且高效。然而,现有的缓存模型忽略了三个关键方面。1) 预训练的 VLM 主要针对图像-文本相似性进行优化,忽略了图像-图像相似性的重要性,导致预训练和适应之间存在差距。2) 当前的缓存模型基于 Nadaraya-Watson (N-W) 估计器,它在构建权重函数时忽略了训练样本之间错综复杂的关系。3) 在样本有限的情况下,缓存模型生成的 logits 具有很高的不确定性,直接使用这些 logits 而不考虑置信度可能会有问题。为了解决上述挑战,本工作提出了三个校准模块。相似性校准通过使用未标记的图像来改进图像-图像相似性。我们在 CLIP 的预训练图像编码器之上添加了一个带有残差连接的可学习投影层,并通过最小化自监督对比损失来优化参数。权重校准在权重函数中引入了一个精度矩阵,以充分模拟训练样本之间的关系,将现有的缓存模型转换为高斯过程 (GP) 回归器,这可能比 N-W 估计器更准确。置信度校准利用 GP 回归计算的预测方差来动态地重新调整缓存模型的 logits,确保缓存模型的输出根据其置信度进行适当调整。此外,为了降低 GP 的高复杂度,我们进一步提出了一种基于组的学习策略。整合上述设计,我们提出了免训练和需要训练的两种变体。在 11 个少样本分类数据集上的大量实验表明,所提出的方法可以达到最先进的性能。  
2024-10-11 RoRA-VLM: Robust Retrieval-Augmented Vision Language Models null 目前的视觉语言模型 (VLM) 在知识密集型任务中仍然表现不佳,这主要是由于难以将视觉对象和场景与其对应的实体和背景知识之间的所有关联进行准确编码。虽然检索增强方法提供了一种集成外部知识的有效方法,但将其扩展到视觉语言领域存在着独特的挑战:(1) 由于多模态查询中固有的差异,难以从外部来源准确检索相关信息;(2) 难以抵抗检索到的多模态知识片段中包含的无关、多余和嘈杂的信息。在这项工作中,我们介绍了 RORA-VLM,这是一个专为 VLM 量身定制的新颖且强大的检索增强框架,它具有两项关键创新:(1) 一种采用图像锚定文本查询扩展的两阶段检索过程,以协同组合查询中的视觉和文本信息,并检索最相关的多模态知识片段;(2) 一种鲁棒的检索增强方法,通过在检索增强训练过程中注入对抗性噪声,增强 VLM 对检索到的多模态知识中无关信息的抵抗力,并通过面向查询的视觉标记优化策略过滤掉无关的视觉信息,例如图像中呈现的无关实体。我们进行了广泛的实验,以验证我们提出的方法在三个广泛采用的基准数据集上的有效性和鲁棒性。我们的结果表明,只需极少的训练实例,RORA-VLM 就可以使基础模型实现显著的性能提升,并在所有基准测试中始终优于最先进的检索增强 VLM,同时还展现出新颖的零样本域迁移能力。  
2024-10-11 VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model null 视觉语言模型 (VLM) 近期因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令生成任务和运动规划,以及为机器人学习模拟训练数据。在本工作中,我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到一个管道中。我们将其命名为 SeeDo,因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划,以便机器人“执行”。为了验证我们的方法,我们收集了一组长时程人类视频,演示了三种不同类别中的拾放任务,并设计了一套指标,以全面比较 SeeDo 与几种基线方法(包括最先进的视频输入 VLM)的性能。实验结果表明 SeeDo 具有优越的性能。我们进一步在仿真环境和真实的机器人手臂上部署了生成的的任务计划。  
2024-10-11 Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models link 机器学习模型的快速发展,特别是在自然语言处理和计算机视觉领域,给在资源有限的硬件上运行这些模型带来了挑战。本文介绍了 Superpipeline,这是一个旨在优化大型 AI 模型在训练和推理过程中在受限硬件上执行的新框架。我们的方法涉及通过将模型划分为单独的层并有效地在 GPU 和 CPU 内存之间传输这些层来动态管理模型执行。在我们的实验中,Superpipeline 在保持模型精度和可接受的处理速度的同时,将 GPU 内存使用量减少了高达 60%。这使得原本会超出可用 GPU 内存的模型能够有效运行。与主要关注推理或特定模型类型的现有解决方案不同,Superpipeline 可以应用于大型语言模型 (LLM)、视觉语言模型 (VLM) 和基于视觉的模型。我们在各种模型和硬件设置中测试了 Superpipeline 的性能。该方法包括两个关键参数,允许微调 GPU 内存使用量和处理速度之间的平衡。重要的是,Superpipeline 不需要重新训练或更改模型参数,确保原始模型的输出保持不变。Superpipeline 的简单性和灵活性使其对在有限硬件上使用高级 AI 模型的研究人员和专业人士非常有用。它允许在现有硬件上使用更大的模型或更大的批次大小,从而有可能加快许多机器学习应用的创新。这项工作标志着朝着使高级 AI 模型更易于访问并在资源有限的环境中优化其部署迈出了重要一步。Superpipeline 的代码可在 https://github.com/abbasiReza/super-pipeline 获取。  
2024-10-11 Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping null 大型视觉语言模型(LVLM)在视觉感知和推理等多模态任务中表现出非凡的能力,在各种多模态评估基准测试中均取得了良好的性能。然而,这些基准测试保持着静态性,并且与预训练数据重叠,导致复杂度限制固定和数据污染问题。这引发了对评估有效性的担忧。为了应对这两项挑战,我们引入了一种称为视觉语言自举(VLB)的动态多模态评估协议。VLB 为 LVLM 提供了一个稳健且全面的评估,减少了数据污染,并具有灵活的复杂性。为此,VLB 通过多模态自举模块动态生成新的视觉问答样本,该模块修改图像和语言,同时通过判断模块确保新生成的样本与原始样本保持一致。通过组合各种自举策略,VLB 提供了具有不同复杂性的现有基准测试的动态变体,使评估能够随着 LVLM 不断发展的能力而共同发展。跨多个基准测试(包括 SEEDBench、MMBench 和 MME)的大量实验结果表明,VLB 显着减少了数据污染,并暴露了 LVLM 的性能局限性。  
2024-10-11 Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models link 零样本分布外 (OOD) 检测的直接 pipeline 涉及从广泛的语义库中选择潜在的 OOD 标签,然后利用预训练的视觉语言模型对分布内 (ID) 和 OOD 标签执行分类。在本文中,我们提出理论,认为提高性能需要扩展语义库,同时增加 OOD 样本激活所选 OOD 标签的预期概率,并确保这些 OOD 标签的激活之间相互依赖性低。一种自然的扩展方式是采用更大的词库;然而,不可避免地引入大量同义词和不常用词无法满足上述要求,这表明可行的扩展方式不仅仅是从词库中选择词语。由于 OOD 检测旨在将输入图像正确分类到 ID/OOD 类别组中,我们可以“编造”OOD 标签候选,这些候选不是标准类别名称,但有利于该过程。观察到原始语义库由未修改的特定类别名称组成,我们相应地构建了一个共轭语义库 (CSP),它由修改后的超类别名称组成,每个名称都充当跨不同类别共享相似属性的样本的聚类中心。与我们建立的理论一致,使用 CSP 扩展 OOD 标签候选满足要求,并且在 FPR95 中的性能比现有工作提高了 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 中获得。  
2024-10-11 ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression null 大型视觉语言模型 (LVLMs) 的效率受到预填充阶段注意力机制的计算瓶颈和解码阶段获取键值 (KV) 缓存的内存瓶颈的限制,尤其是在涉及高分辨率图像或视频的情况下。视觉内容通常表现出大量的冗余,导致 LVLMs 中的注意力图高度稀疏。可以利用这种稀疏性,通过各种方法来加速注意力计算或压缩 KV 缓存。然而,大多数研究只关注解决这些瓶颈中的一个,并且没有充分支持根据不同的层或任务动态调整稀疏性。在本文中,我们提出了 ZipVL,这是一个为 LVLMs 设计的高效推理框架,它通过重要标记的动态比率分配策略来解决计算和内存瓶颈。该比率是根据特定层的注意力分数分布自适应确定的,而不是固定的超参数,从而在较简单的任务中提高效率,同时在更具挑战性的任务中保持高性能。然后我们根据归一化后的注意力分数选择重要的标记,并仅对这些重要的标记执行注意力机制,以加速预填充阶段。为了缓解解码阶段的内存瓶颈,我们对 KV 缓存采用混合精度量化,其中对重要标记的缓存使用高比特量化,而对不那么重要的标记的缓存使用低比特量化。我们的实验表明,ZipVL 可以将预填充阶段的速度提高 2.6 倍,并将 GPU 内存使用量减少 50.0%,在 LongVA-7B 模型上的 Video-MME 基准测试中,准确率仅下降了 0.2%,有效地提高了 LVLMs 的生成效率。  
2024-10-10 LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts null 大规模视觉语言预训练 (VLP) 模型(例如 CLIP)以其多功能性而闻名,因为它们可以在零样本设置中应用于各种应用。然而,当这些模型用于特定领域时,由于领域差距或训练数据中这些领域的代表性不足,它们的性能往往不尽如人意。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决这个问题,但即使是标注小规模数据集(例如,100k 个样本)也可能是一项昂贵的工作,如果任务复杂,通常需要专家标注员。为了应对这些挑战,我们提出了 LatteCLIP,这是一种无监督方法,用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调,而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成富有表现力的文本描述。这些信息提供了额外的上下文信息,以指导自定义领域中的微调过程。由于 LMM 生成的描述容易出现幻觉或细节缺失,我们引入了一种新策略,仅提取有用信息并稳定训练过程。具体来说,我们从噪声生成的文本和双重伪标签中学习丰富的每类原型表示。我们在 10 个特定领域数据集上的实验表明,LatteCLIP 的性能优于预训练的零样本方法,平均提高了 +4.74 个百分点的 top-1 准确率,并且优于其他最先进的无监督方法 +3.45 个百分点。  
2024-10-10 Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision null 当前的大型多模态模型 (LMM) 面临着 grounding 的挑战, grounding 要求模型将语言成分与视觉实体相关联。与使用额外的 grounding 监督微调 LMM 的常见做法相反,我们发现 grounding 能力实际上可以在没有明确 grounding 监督的情况下训练的 LMM 中出现。为了揭示这种新兴的 grounding 能力,我们引入了一种“attend-and-segment”方法,该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外,为了增强 grounding 能力,我们提出了 DIFFLMM,这是一种利用基于扩散的视觉编码器(而不是标准 CLIP 视觉编码器)的 LMM,并使用相同的弱监督进行训练。我们的方法不受限于 grounding 特定监督数据的偏差和规模限制,因此更具通用性和可扩展性。与 grounding LMM 和通才 LMM 相比,我们在 grounding 特定和一般视觉问答基准测试中均取得了有竞争力的性能。值得注意的是,我们在没有任何 grounding 监督的情况下,在 grounded 对话生成方面实现了 44.2 的 grounding 掩码召回率,优于经过广泛监督的模型 GLaMM。项目页面:https://groundLMM.github.io。  
2024-10-10 MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models null 现有的多模态检索基准主要侧重于评估模型是否能够检索和利用外部文本知识来回答问题。然而,在某些情况下,检索视觉信息比文本数据更有益或更容易获取。在本文中,我们介绍了一个多模态检索增强生成基准 MRAG-Bench,在该基准中,我们系统地识别和分类了视觉增强知识优于文本知识的场景,例如,来自不同视角的更多图像。MRAG-Bench 由 16,130 张图像和 1,353 个人工标注的多项选择题组成,涵盖 9 个不同的场景。借助 MRAG-Bench,我们对 10 个开源和 4 个专有的超大型视觉语言模型 (LVLM) 进行了评估。我们的结果表明,与文本知识相比,所有 LVLM 在使用图像增强时都表现出更大的改进,这证实了 MRAG-Bench 以视觉为中心的特点。此外,我们使用 MRAG-Bench 进行了广泛的分析,为了解检索增强型 LVLM 提供了宝贵的见解。值得注意的是,表现最佳的模型 GPT-4o 在有效利用检索到的知识方面面临挑战,在使用真实信息的情况下仅实现了 5.82% 的改进,而人类参与者观察到的改进为 33.16%。这些发现突出了 MRAG-Bench 在鼓励社区增强 LVLM 更有效地利用检索到的视觉知识方面的能力的重要性。  
2024-10-10 Q-VLM: Post-training Quantization for Large Vision-Language Models link 在本文中,我们提出了一种针对大型视觉语言模型 (LVLMs) 的训练后量化框架,以实现高效的多模态推理。传统的量化方法通过最小化激活离散化误差来顺序搜索逐层舍入函数,这种方法由于没有考虑跨层依赖性,因此无法获得最佳量化策略。相反,我们挖掘了对整个视觉语言模型的离散化误差有显著影响的跨层依赖性,并将这种依赖性嵌入到低搜索成本的最佳量化策略搜索中。具体来说,我们观察到激活熵和跨层依赖性之间存在强相关性,这与输出离散化误差有关。因此,我们采用熵作为代理来优化分区块,旨在在离散化误差和搜索成本之间取得令人满意的平衡。此外,我们优化了视觉编码器以解耦跨层依赖性,从而对搜索空间进行细粒度分解,从而在不损害量化精度的情况下进一步降低搜索成本。实验结果表明,我们的方法在不降低各种多模态推理任务性能的情况下,将大约 13B LLaVA 模型的内存压缩了 2.78 倍,并将生成速度提高了 1.44 倍。代码可在 https://github.com/ChangyuanWang17/QVLM 获取。  
2024-10-10 Unsupervised Data Validation Methods for Efficient Model Training null 本文探讨了改进低资源语言机器学习系统所面临的挑战和潜在解决方案。自然语言处理 (NLP)、文本到语音 (TTS)、语音到文本 (STT) 和视觉语言模型 (VLM) 中的最新模型严重依赖于大型数据集,而这些数据集通常不适用于低资源语言。本研究探讨了关键领域,例如定义“高质量数据”、开发生成适当数据的方法以及增强模型训练的可访问性。对当前方法的全面回顾,包括数据增强、多语言迁移学习、合成数据生成和数据选择技术,突出了进步和局限性。确定了几个开放的研究问题,为未来旨在优化数据利用、减少所需数据量和保持高质量模型性能的研究提供了框架。通过应对这些挑战,本文旨在使低资源语言更容易获得先进的机器学习模型,从而增强其在各个领域的效用和影响力。  
2024-10-10 HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter null 基于适配器的调优方法在将知识从预训练的视觉语言模型迁移到下游任务方面已显示出巨大潜力。然而,在回顾现有的适配器后,我们发现它们通常无法充分探索构建特定任务知识时不同模态之间的交互。此外,现有工作通常只关注正文本提示之间的相似性匹配,这使得区分具有高度相似视觉内容的类别变得具有挑战性。为了解决这些问题,在本文中,我们提出了一种新颖的异构图适配器来实现下游任务的视觉语言模型微调。具体来说,我们首先构建了一个统一的异构图模式,它包含 i) 视觉节点、正文本节点和负文本节点,以及 ii) 几种类型的边连接,以全面地对模态内、模态间和类间结构知识进行建模。接下来,我们采用特定的异构图神经网络来挖掘多模态结构知识,以便为下游任务调整视觉和文本特征。最后,在HeGraphAdapter之后,我们同时构建基于文本和基于视觉的分类器,以全面提升CLIP模型的性能。在 11 个基准数据集上的实验结果证明了所提出的 HeGraphAdapter 的有效性和优势。  
2024-10-10 FLIER: Few-shot Language Image Models Embedded with Latent Representations null 随着像对比语言-图像预训练 (CLIP) 这样的大型视觉语言模型的快速发展,许多类似 CLIP 的方法在视觉识别方面表现出了令人印象深刻的能力,尤其是在低数据场景下。然而,我们注意到大多数这些方法仅限于对文本和图像编码器进行新的修改。最近,潜在扩散模型 (LDM) 在图像生成方面表现出了良好的能力。LDM 的强大能力将我们的注意力引向了 UNet 采样的潜在表示。受 CoOp 中学习到的提示编码超出现有词汇量的含义的猜想的启发,我们假设,对于深度模型,潜在表示是对图像的简洁准确的理解,其中抽象掉了高频的、不可感知的细节。在本文中,我们提出了一种融合潜在表示的少样本语言图像模型 (FLIER),通过引入一个与 CLIP 的图像编码器联合训练的潜在编码器来进行图像识别,它结合了 CLIP 的预训练视觉语言知识和稳定扩散的潜在表示。我们首先通过稳定扩散使用 GPT-3 的文本输入生成图像和相应的潜在表示。将潜在表示作为“模型可理解的像素”,我们引入了一个具有两个卷积层的灵活卷积神经网络作为潜在编码器,它比视觉语言模型中的大多数编码器都简单。潜在编码器与 CLIP 的图像编码器联合训练,可以更好地将预训练的知识迁移到下游任务。在各种视觉分类任务上的实验和广泛的消融研究表明,FLIER 在大多数少样本分类的 11 个数据集上表现出最先进的性能。  
2024-10-10 A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks link 视觉语言模型 (VLM) 的最新进展使得通过同时处理文本和图像数据来完成复杂的多模态任务成为可能,从而显著增强了人工智能领域。然而,这些模型经常表现出偏差,这些偏差会导致输出偏向社会刻板印象,因此需要去偏差策略。现有的去偏差方法狭隘地关注特定的模态或任务,并且需要大量的再训练。为了解决这些限制,本文介绍了用于去偏差的选择性特征插补 (SFID),这是一种集成了特征剪枝和低置信度插补 (LCI) 的新方法,可以有效减少 VLM 中的偏差。SFID 具有多种功能,可以保持输出的语义完整性,并且通过消除重新训练的需要来节省成本。我们的实验结果证明了 SFID 在各种 VLM 任务中的有效性,包括零样本分类、文本到图像检索、图像字幕和文本到图像生成,通过在不影响性能的情况下显着减少性别偏差。这种方法不仅增强了 VLM 应用的公平性,而且还保留了它们在不同场景中的效率和实用性。  
2024-10-10 3D Vision-Language Gaussian Splatting null 近年来,三维重建方法和视觉语言模型的进步推动了多模态三维场景理解的发展,这在机器人技术、自动驾驶以及虚拟/增强现实中具有至关重要的应用。然而,当前的多模态场景理解方法简单地将语义表示嵌入到三维重建方法中,而没有在视觉和语言模态之间取得平衡,这导致半透明或反射性物体的语义栅格化效果不理想,以及对颜色模态的过度拟合。为了缓解这些限制,我们提出了一种充分处理不同视觉和语义模态的解决方案,即用于场景理解的三维视觉语言高斯散射模型,以强调语言模态的表示学习。我们提出了一种新颖的跨模态栅格化器,使用模态融合以及平滑语义指示器来增强语义栅格化。我们还采用了相机视图混合技术来提高现有视图和合成视图之间的语义一致性,从而有效地减轻过度拟合。大量实验表明,我们的方法在开放词汇语义分割方面达到了最先进的性能,明显优于现有方法。  
2024-10-09 The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks null 人们越来越关注追踪通用人工智能基础模型的能力。本研究以韦氏成人智力量表(WAIS-IV)为基准,将领先的大型语言模型和视觉语言模型与人类表现进行了比较。WAIS-IV是一种全面、以人群为规范的潜在人类认知和智力能力评估,重点关注语言理解(VCI)、工作记忆(WMI)和知觉推理(PRI)领域。大多数模型在存储、检索和处理诸如字母和数字的任意序列等token方面表现出卓越的能力,与人类群体规范能力相比,工作记忆指数(WMI)的表现等于或大于99.5%。语言理解指数(VCI)衡量的是对获得信息的检索,以及对单词含义及其相互关系的语言理解,其表现也始终保持在98%或以上。尽管有这些广泛的优势,但我们观察到,多模态模型在知觉推理指数(PRI;范围0.1-10%)上的表现一直很差,这表明其在解释和推理视觉信息方面存在严重不足。较小和较旧的模型版本的表现始终较差,这表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著进步。  
2024-10-07 Fine-Tuning CLIP’s Last Visual Projector: A Few-Shot Cornucopia link 我们研究了如何将像 CLIP (Radford et al., 2021) 这样的对比预训练视觉语言模型应用于少样本分类问题。现有文献通过学习冻结视觉特征的线性分类器、优化词嵌入或学习外部特征适配器来解决这个问题。本文介绍了一种无需添加“外部”参数来优化 CLIP 自适应的替代方法。我们发现,与现有的基线相比,简单地微调视觉编码器的最后一个投影矩阵就能获得强大的性能。此外,我们发现,通过微调矩阵和预训练矩阵之间的距离对训练进行正则化,可以提高通过该层自适应 CLIP 的可靠性。也许令人惊讶的是,这种被称为 ProLIP 的方法在 11 个少样本分类基准测试、少样本域泛化、跨数据集迁移和测试时自适应方面取得了与最先进水平相当或更好的性能。代码将在 https://github.com/astra-vision/ProLIP 上提供。  
2024-10-07 TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens null 阅读密集文本和定位图像中的物体是大规模视觉语言模型 (LVLM) 执行高级任务的基本能力。以前的 LVLM,包括像 GPT-4o 这样的优秀专有模型,都难以同时在这两项任务中表现出色。此外,以前具有细粒度感知能力的 LVLM 每张图像需要消耗数千个标记,这使得它们非常消耗资源。我们提出了 TextHawk2,这是一种双语 LVLM,具有高效的细粒度感知能力,并在通用、OCR 和 grounding 任务中展现出最先进的性能,同时图像标记数量减少了 16 倍。关键改进包括:(1) 标记压缩:TextHawk2 建立在其前身的有效架构之上,将每张图像的标记数量显著减少了 16 倍,从而能够以最少的资源促进 TextHawk 系列的训练和部署。(2) 视觉编码器增强:我们通过 LVLM 联合训练增强了视觉编码器,从而释放了其在中文 OCR 和 grounding 等以前未见任务中的潜力。(3) 数据多样性:我们在保持 1 亿个样本的相当规模的同时,使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2,它始终如一地提供卓越的性能,并优于类似规模的闭源模型,例如在 OCRBench 上实现了 78.4% 的准确率,在 ChartQA 上实现了 81.4% 的准确率,在 DocVQA 上实现了 89.6% 的 ANLS,以及在 RefCOCOg-test 上实现了 88.1% 的 [email protected]  
2024-10-07 TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models link 视觉语言模型 (VLM) 在视觉任务中表现出色,但将其应用于新领域通常需要昂贵的微调。提示调整技术,包括文本、视觉和多模态提示,通过利用可学习的提示提供了有效的替代方案。然而,它们在视觉语言分割模型 (VLSM) 中的应用以及在显著领域迁移下的评估仍有待探索。本研究提出了一个开源基准测试框架 TuneVLSeg,将各种单模态和多模态提示调整技术集成到 VLSM 中,使得提示调整适用于任何类别数量的下游分割数据集。TuneVLSeg 包括在 2 个 VLSM 中使用的不同提示深度上的 6 种提示调整策略,总共 8 种不同的组合。我们在 8 个不同的医学数据集上测试了各种提示调整,包括 3 个放射学数据集(乳腺肿瘤、超声心动图、胸部 X 光片病变)和 5 个非放射学数据集(息肉、溃疡、皮肤癌),以及两个自然领域分割数据集。我们的研究发现,文本提示调整在从自然领域图像到医学数据的显著领域迁移下表现不佳。此外,与多模态提示调整相比,视觉提示调整具有更少的超参数,通常可以实现与多模态方法相当的性能,使其成为一种有价值的首次尝试。我们的工作促进了对不同提示调整技术在鲁棒的特定领域分割中的理解和适用性。源代码可在 https://github.com/naamiinepal/tunevlseg 获取。  
2024-10-07 LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation null 基于大型语言模型(LLMs)和视觉语言模型(VLMs)的进步,近期的研究引入了视觉-语言-动作(VLA)模型作为机器人操作任务的集成解决方案。这些模型将相机图像和自然语言任务指令作为输入,直接生成机器人的控制动作来执行指定任务,极大地提高了决策能力和与人类用户的交互。然而,VLA模型的数据驱动特性,加上其缺乏可解释性,使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此,在这项工作中,我们提出了LADEV,这是一个专门为评估VLA模型而设计的综合高效平台。我们首先提出了一种语言驱动的方法,可以根据自然语言输入自动生成仿真环境,从而减少了手动调整的需求,并显著提高了测试效率。然后,为了进一步评估语言输入对VLA模型的影响,我们实现了一种释义机制,可以生成不同的自然语言任务指令进行测试。最后,为了加快评估过程,我们引入了一种批量式方法来对VLA模型进行大规模测试。使用LADEV,我们对几种最先进的VLA模型进行了实验,证明了其作为评估这些模型的工具的有效性。我们的结果表明,LADEV不仅提高了测试效率,而且为评估VLA模型建立了坚实的基础,为开发更智能、更先进的机器人系统铺平了道路。  
2024-10-07 HE-Drive: Human-Like End-to-End Driving with Vision Language Models null 本文提出了HE-Drive:第一个以类人为中心的端到端自动驾驶系统,用于生成时间一致且舒适的轨迹。最近的研究表明,基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的精确轨迹。然而,这种轨迹规划器和评分器面临着生成时间不一致和不舒适轨迹的困境。为了解决上述问题,我们的HE-Drive首先通过稀疏感知提取关键的3D空间表示,然后将其作为基于条件去噪扩散概率模型(DDPMs)的运动规划器的条件输入,以生成时间一致的多模态轨迹。随后,视觉语言模型(VLMs)引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆,确保类人的端到端驾驶。实验表明,HE-Drive不仅在具有挑战性的nuScenes和OpenScene数据集上实现了最先进的性能(即将平均碰撞率降低了71%比VAD)和效率(即比SparseDrive快1.9倍),而且在真实世界的数据上提供了最舒适的驾驶体验。更多信息请访问项目网站:https://jmwang0117.github.io/HE-Drive/。  
2024-10-07 Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models null 视觉语言预训练 (VLP) 模型在各个领域都取得了显著成功,但它们仍然容易受到对抗性攻击。解决这些对抗性漏洞对于增强多模态学习的安全性至关重要。传统上,针对 VLP 模型的对抗性方法涉及同时扰动图像和文本。然而,这种方法面临着显著的挑战:首先,对抗性扰动通常无法有效地转化为现实场景;其次,对文本的直接修改非常明显。为了克服这些限制,我们提出了一种新策略,该策略专门使用图像补丁进行攻击,从而保持原始文本的完整性。我们的方法利用来自扩散模型的先验知识来增强扰动的真实性和自然性。此外,为了优化补丁放置并提高攻击的效率,我们利用了交叉注意力机制,该机制通过生成注意力图来封装模态间交互,以指导战略性补丁放置。在图像到文本场景的白盒设置中进行的综合实验表明,我们提出的方法明显优于现有技术,实现了 100% 的攻击成功率。此外,它在涉及文本到图像配置的迁移任务中表现出 commendable 的性能。  
2024-10-05 TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions link 大型视觉语言模型 (LVLM) 在视觉感知和语言理解方面取得了显著进展。尽管它们在各种任务中表现出色,但 LVLM 仍然存在幻觉问题,即生成与视觉或文本输入不正确或不忠实的内容。传统的基准测试,如 MME 和 POPE,使用可回答的问题在视觉问答 (VQA) 范围内评估 LVLM 中的幻觉。然而,由于图像中信息不足,有些问题无法回答,而 LVLM 在此类无法回答的问题上的表现仍未得到充分探索。为了弥合这一研究差距,我们提出了 TUBench,这是一个专门用于使用无法回答的问题评估 LVLM 可靠性的基准测试。TUBench 包含大量高质量的、无法回答的问题,这些问题是使用十种不同的策略精心制作的。为了全面评估 LVLM,TUBench 中的无法回答的问题基于来自四个不同领域的图像作为视觉上下文:代码片段的屏幕截图、自然图像、几何图形和统计表的屏幕截图。这些无法回答的问题分别用于测试 LVLM 在代码推理、常识推理、几何推理和与表格相关的数学推理方面的可信度。我们对 TUBench 上的 28 个领先基础模型进行了全面的定量评估,其中表现最佳的模型 Gemini-1.5-Pro 在确定问题是否可回答方面达到了 69.2% 的平均准确率,排名第三的模型 GPT-4o 则达到了 66.7% 的平均准确率。TUBench 可在 https://github.com/NLPCode/TUBench 获取。  
2024-10-05 Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks link 虽然视觉语言模型 (VLM) 在视觉和语言推理任务中表现出非凡的能力,但它们也不可避免地会产生错误的响应。自我纠正,即指导模型改进其输出,为解决这个问题提供了一种很有前景的解决方案。以往的研究主要集中在大型语言模型 (LLM) 上,而 VLM 的自我纠正能力,特别是在视觉和语言信息方面的能力,在很大程度上仍未得到检验。本研究调查了 VLM 在推理和微调阶段的自我纠正能力。我们介绍了一种自我纠正学习 (SCL) 方法,该方法使 VLM 能够通过直接偏好优化 (DPO) 从其自我生成的自我纠正数据中学习,而无需依赖外部反馈,从而促进自我改进。具体来说,我们根据初始和改进响应的正确性收集偏好和不偏好的样本,这些样本是通过在推理阶段使用 VLM 进行两轮自我纠正获得的。实验结果表明,虽然 VLM 在没有额外微调和外部反馈的情况下难以在迭代推理过程中有效地进行自我纠正,但当它们自我生成的自我纠正数据被分类为偏好和不偏好样本时,它们可以通过偏好微调来提高性能并避免以前的错误。这项研究强调,自我纠正不仅仅是一个改进过程;相反,它应该通过额外的训练来增强模型的推理能力,使其能够直接生成高质量的响应,而无需进一步改进。  
2024-10-05 Gamified crowd-sourcing of high-quality data for visual fine-tuning null 本文介绍了游戏化对抗提示 (GAP),这是一个为大型多模态模型的视觉指令微调进行众包高质量数据的框架。GAP 将数据收集过程转化为引人入胜的游戏,激励玩家提供针对模型知识差距的细粒度、具有挑战性的问题和答案。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法,这些问答对直接针对模型知识中的弱点,(2) 一种评估和奖励玩家的方法,该方法成功地激励他们提供高质量的提交内容,以及 (3) 一个可扩展的游戏化平台,该平台成功地在几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显着提高了小型多模态模型 MiniCPM-Llama3-V-2.5-8B 的准确性,将其在我们数据集上的 GPT 分数从 0.147 提高到 0.477,接近更大的 GPT-4V 所设定的基准。此外,我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的数据也增强了其在其他基准测试中的性能,并展现出跨模型的优势。具体来说,相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准测试中的性能。  
2024-10-04 Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models link 在现实世界中,学习型系统通常会经历多个模型开发周期,以增强系统处理困难或新出现任务的能力。这种持续的模型开发过程提出了一个重要问题,即为获取新能力或改进现有能力而进行的模型开发可能会无意中失去旧模型的能力,也称为灾难性遗忘。现有的持续学习研究侧重于通过权衡先前任务和新任务的性能来减轻灾难性遗忘,以确保良好的平均性能。然而,它们不足以用于许多应用,特别是在安全关键领域,因为未能严格保持旧模型的性能不仅会带来安全风险和不确定性,还会在重新改进和重新验证现有属性方面造成巨大开销。为了解决这个问题,我们引入了模型开发安全作为学习系统的保证,即在模型开发过程中,新模型应严格保留旧模型现有的受保护能力,同时提高其在目标任务上的性能。为了确保模型开发安全,我们提出了一个以安全为中心的框架,将模型开发安全制定为依赖于数据的约束。在这个框架下,我们研究了如何开发一个预训练的视觉语言模型(又称 CLIP 模型),以获得新的能力或改进现有的图像分类能力。我们提出了一种具有理论保证的高效约束优化算法,并利用其见解微调具有任务依赖头的 CLIP 模型,以促进模型开发安全。我们在自动驾驶和场景识别数据集上改进视觉感知能力的实验结果证明了该方法的有效性。  
2024-10-04 Generalizable Prompt Tuning for Vision-Language Models null 针对诸如 CLIP 等视觉语言模型的提示调优涉及优化用于为特定下游任务生成图像-文本对的文本提示。虽然手工制作或基于模板的提示通常适用于更广泛的未见类别,但它们在下游任务(即已见类别)中往往表现不佳。另一方面,可学习的软提示通常在下游任务中表现良好,但缺乏泛化性。此外,先前的研究主要集中在文本模态上,很少有研究试图从视觉模态探索提示的泛化潜力。考虑到这些限制,我们研究了如何进行提示调优以获得具有竞争力的下游性能和泛化能力。研究表明,通过将软提示和手工提示视为文本模态的双重视图,并最大化它们的互信息,我们可以更好地集成特定任务的语义信息和通用语义信息。此外,为了生成更具表达力的提示,该研究引入了来自视觉模态的类别增强,从而显著提高了对更广泛的未见类别的鲁棒性。对多个基准的广泛评估表明,所提出的方法在特定任务性能和泛化能力方面都取得了具有竞争力的结果。  
2024-10-04 Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models link 大型视觉语言模型 (LVLM) 已经取得了令人瞩目的性能,但研究指出,这些模型存在严重的物体幻觉问题。然而,对于这些幻觉源自模型的哪个部分,目前还没有明确的结论。在本文中,我们深入研究了 CLIP 模型中的物体幻觉问题,CLIP 模型是许多最先进的视觉语言系统的支柱。我们揭示了即使是单独使用,CLIP 模型也容易出现物体幻觉,这表明幻觉问题不仅仅是由于视觉和语言模态之间的交互造成的。为了解决这个问题,我们提出了一种反事实数据增强方法,通过创建具有各种幻觉问题的负样本来实现。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉,并且我们展示了增强后的模型可以用作视觉编码器,有效地缓解了 LVLMs 中的物体幻觉问题。  
2024-10-04 AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark null 视频详细字幕生成是一项关键任务,旨在生成对视频内容全面而连贯的文本描述,有利于视频理解和生成。在本文中,我们提出了 AuroraCap,一个基于大型多模态模型的视频字幕生成器。我们遵循最简单的架构设计,没有为时间建模添加额外的参数。为了解决长视频序列带来的开销,我们实施了标记合并策略,减少了输入视觉标记的数量。令人惊讶的是,我们发现这种策略几乎没有造成性能损失。AuroraCap 在各种视频和图像字幕基准测试中表现出色,例如,在 Flickr30k 上获得了 88.9 的 CIDEr 分数,超过了 GPT-4V (55.3) 和 Gemini-1.5 Pro (82.2)。然而,现有的视频字幕基准测试只包含简单的描述,由几十个词组成,这限制了该领域的研究。因此,我们开发了 VDC,这是一个包含一千多个精心标注的结构化字幕的视频详细字幕基准测试。此外,我们提出了一种新的 LLM 辅助指标 VDCscore,用于改进评估,该指标采用分治策略将长字幕评估转化为多个简短的问答对。在人工 Elo 排名的帮助下,我们的实验表明,该基准测试与人类对视频详细字幕质量的判断具有更好的相关性。  
2024-10-03 CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification null 在短视频分类中,针对不同业务场景定制的密集特征至关重要。然而,它们的复杂性、特定的适应性要求和高计算成本使得它们在在线推理过程中资源密集且难以访问。因此,这些密集特征被称为“特权密集特征”。同时,端到端多模态模型在众多计算机视觉任务中显示出良好的效果。在工业应用中,优先考虑端到端多模态特征可以提高效率,但往往会导致丢失历史特权密集特征中的宝贵信息。为了在保持效率和可管理的资源成本的同时整合这两种特征,我们提出了置信度感知的特权特征蒸馏(CPFD),它通过在训练过程中自适应地提取特权特征来增强端到端多模态模型的特征。与现有的特权特征蒸馏(PFD)方法不同,CPFD不会在蒸馏过程中对所有实例应用统一的权重(这可能会导致不同业务场景下的性能不稳定,以及教师模型(密集特征增强的多模态模型DF-X-VLM)和学生模型(仅使用多模态模型X-VLM)之间存在显著的性能差距),而是利用从教师模型中获得的置信度分数来自适应地减轻学生模型的性能差异。我们在五个不同的任务上进行了广泛的离线实验,结果表明,与端到端多模态模型(X-VLM)相比,CPFD将视频分类的F1分数提高了6.76%,与普通的PFD相比平均提高了2.31%。它将性能差距缩小了84.6%,并取得了与教师模型DF-X-VLM相当的结果。在线实验进一步证实了CPFD的有效性,我们的框架已经部署到生产系统中,用于十多个模型。  
2024-10-03 MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection null 多模态学习旨在结合来自多个输入源的数据,以提高不同下游任务的性能。在现实场景中,如果缺少某些输入模态,性能可能会大幅下降。现有的可以处理缺失模态的方法包括针对每个输入模态组合进行定制训练或适应步骤。这些方法要么绑定到特定的模态,要么随着输入模态数量的增加而变得计算成本高昂。在本文中,我们提出了掩蔽模态投影(MMP),这是一种旨在训练单个模型的方法,该模型对任何缺失模态场景都具有鲁棒性。我们通过在训练期间随机掩蔽一部分模态并学习投影可用的输入模态来估计掩蔽模态的标记来实现这一点。这种方法使模型能够有效地学习利用来自可用模态的信息来补偿缺失的模态,从而增强缺失模态的鲁棒性。我们使用各种基线模型和数据集进行了一系列实验,以评估该策略的有效性。实验表明,我们的方法提高了对不同缺失模态场景的鲁棒性,优于为缺失模态或特定模态组合设计的现有方法。  
2024-10-03 Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL null 尽管机器人烹饪行为的需求日益增长,但基于机器人在现实世界中对新食谱描述的一系列烹饪行为尚未实现。在本研究中,我们提出了一种机器人系统,该系统集成了使用大型语言模型 (LLM) 和 PDDL 描述的经典规划的可执行的真实世界机器人烹饪行为规划,以及使用视觉语言模型 (VLM) 从少量数据中学习食物成分状态识别。我们成功地进行了实验,在实验中,双臂轮式机器人 PR2 在真实环境中根据安排的新食谱进行烹饪,并确认了所提出系统的有效性。  
2024-10-03 Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos null 最近,越来越多的人认为现代大型多模态模型 (LMM) 已经解决了与短视频理解相关的大多数关键挑战。因此,学术界和工业界都逐渐将注意力转向理解长视频带来的更复杂挑战。然而,事实真的如此吗?我们的研究表明,即使在处理短视频时,LMM 仍然缺乏许多基本的推理能力。我们介绍了 Vinoground,这是一个包含 1000 个短而自然的视频-字幕对的时间反事实 LMM 评估基准。我们证明,现有的 LMM 很难区分不同动作和对象转换之间的时间差异。例如,最佳模型 GPT-4o 在我们的文本和视频得分中仅获得约 50% 的分数,与约 90% 的人类基线相比存在较大差距。所有开源多模态模型和基于 CLIP 的模型表现更差,产生的结果大多是随机的。通过这项工作,我们揭示了短视频中的时间推理是一个尚未完全解决的问题。数据集和评估代码可在 https://vinoground.github.io 获取。  
2024-10-03 Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations link 我们研究了视觉语言模型 (VLM) 的内部表征,以解决幻觉问题,尽管模型规模和训练方面取得了进步,但这仍然是一个持续的挑战。我们将 VLM 的内部图像表征投影到它们的语言词汇表中,并观察到真实物体的输出概率比幻觉物体更有信心。我们还使用这些输出概率来对真实物体进行空间定位。在此方法的基础上,我们引入了一种知识擦除算法,通过线性正交化图像特征和幻觉物体特征来消除幻觉。我们表明,对模型潜在表征的有针对性的编辑可以将 COCO2014 数据集上的幻觉减少高达 25.7%,同时保持性能。我们的研究结果表明,更深入地理解 VLM 的潜在表征可以增强可靠性并实现新的功能,例如零样本分割。  
2024-10-03 Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models null 多模态模型的最新进展突出了重写图像描述对于提高性能的价值,但也存在一些关键挑战。例如,虽然合成图像描述通常提供更高的质量和图文对齐性,但尚不清楚它们是否可以完全替代 AltTexts:合成图像描述的作用及其与原始网络抓取的 AltTexts 在预训练中的交互作用仍不清楚。此外,不同的多模态基础模型可能对特定的图像描述格式有独特的偏好,但确定每个模型的最佳图像描述的努力仍然有限。在这项工作中,我们提出了一种新颖的、可控的和可扩展的图像描述生成流程,旨在生成适合各种多模态模型的不同图像描述格式。通过以简短合成图像描述 (SSC) 和密集合成图像描述 (DSC+) 作为案例研究,我们系统地探索了它们对 CLIP、多模态 LLM 和扩散模型等模型的影响以及与 AltTexts 的交互作用。我们的研究结果表明,保留合成图像描述和 AltTexts 的混合方法可以优于单独使用合成图像描述,从而提高对齐性和性能,并且每个模型都表现出对特定图像描述格式的偏好。这种全面的分析为优化图像描述策略提供了宝贵的见解,从而推进了多模态基础模型的预训练。  
2024-10-03 DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects link 在未知环境中进行物体导航对于在现实世界应用中部署具身代理至关重要。虽然由于大规模场景数据集、更快的模拟器和更强大的模型,我们已经目睹了巨大的进步,但之前的研究主要集中在有限的场景类型和目标物体上。在本文中,我们研究了在大量场景类型中导航到不同目标物体的新任务。为了对该问题进行基准测试,我们提出了一个大规模场景数据集 DivScene,其中包含跨越 81 种不同类型的 4,614 个场景。利用该数据集,我们通过模仿学习微调大型视觉语言模型 (LVLM),构建了一个端到端的具身代理 NatVLM。LVLM 被训练用于获取来自环境的先前观察结果并生成下一步动作。我们还引入了动作预测的思维链 (CoT) 解释轨迹,以便在调整 LVLM 时获得更好的性能。我们广泛的实验发现,我们可以通过对由 BFS 规划器构建的最短路径进行模仿学习来构建性能良好的基于 LVLM 的代理,而无需任何人工监督。我们的代理实现了超过 GPT-4o 20% 以上的成功率。同时,我们进行了各种分析,展示了我们代理的泛化能力。  
2024-10-03 Video Instruction Tuning With Synthetic Data null 视频大型多模态模型 (LMM) 的发展一直受到从网络获取大量高质量原始数据的难度的阻碍。为了解决这个问题,我们提出了一种替代方法,即创建一个专门用于视频指令遵循的高质量合成数据集,即 LLaVA-Video-178K。该数据集包括关键任务,例如详细字幕、开放式问答 (QA) 和多项选择 QA。通过结合现有的视觉指令调整数据对该数据集进行训练,我们推出了一个新的视频 LLM,即 LLaVA-Video。我们的实验表明,LLaVA-Video 在各种视频基准测试中均取得了出色的性能,突出了我们数据集的有效性。我们计划发布数据集、其生成管道和模型检查点。  
2024-10-03 LLaVA-Critic: Learning to Evaluate Multimodal Models null 我们推出了 LLaVA-Critic,这是第一个开源的大型多模态模型 (LMM),它被设计成一个通用的评估器,用于评估各种多模态任务的性能。LLaVA-Critic 使用高质量的批评指令遵循数据集进行训练,该数据集包含不同的评估标准和场景。我们的实验结果证明了该模型在两个关键领域的有效性:(1) LMM 作为评判者,LLaVA-Critic 提供可靠的评估分数,在多个评估基准上表现与 GPT 模型相当或更优;(2) 偏好学习,它为偏好学习生成奖励信号,增强模型对齐能力。这项工作强调了开源 LMM 在自我批评和评估方面的潜力,为未来研究 LMM 可扩展的、超人的对齐反馈机制奠定了基础。  
2024-10-03 Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models null 置信度校准对于机器学习模型在现实世界中的安全部署至关重要。然而,像 CLIP 这样的视觉语言模型,特别是在微调之后,尚未完全解决这个问题。 本研究表明,现有的提示微调方法通常会导致基础类别和新类别之间校准的权衡:CoOp 中的交叉熵损失通过增加文本标签差异导致对新类别的过度自信,而 KgCoOp 的正则化保持了置信度水平,但由于准确性的提高,导致对基础类别的不自信。 受这些观察结果的启发,我们引入了动态异常值正则化 (DOR) 来确保微调后对基础类别和新类别的置信度校准。 特别是,我们建议最小化从大型词汇表中采样的新文本标签(而不是基础类别)的特征偏差。 实际上,DOR 阻止了新标签的文本差异的增加,同时放宽了对基础类别的限制。 大量实验表明,DOR 可以增强当前微调方法在基础类别和新类别上的校准性能。  
2024-10-03 Guiding Long-Horizon Task and Motion Planning with Vision Language Models null 视觉语言模型 (VLM) 能够在被提示目标、上下文、场景图像和任何规划约束时生成看似合理的高级计划。但是,无法保证预测的动作对于特定的机器人实施方案在几何和运动学上是可行的。因此,在他们的计划中,许多先决条件步骤(例如打开抽屉以获取物体)经常被省略。机器人任务和运动规划器可以生成尊重动作几何可行性的运动轨迹,并插入物理上必要的动作,但无法扩展到需要常识知识并涉及由许多变量组成的大状态空间的日常问题。我们提出了 VLM-TAMP,这是一种分层规划算法,它利用 VLM 生成语义上有意义且减少范围的中间子目标,从而指导任务和运动规划器。当子目标或动作无法细化时,将再次查询 VLM 以进行重新规划。我们在厨房任务中评估 VLM-TAMP,其中机器人必须完成需要按顺序执行 30-50 个动作并与多达 21 个物体交互的烹饪目标。VLM-TAMP 的性能大大优于严格且独立地执行 VLM 生成的动作序列的基线,无论是在成功率(50% 到 100% 对比 0%)还是平均任务完成百分比(72% 到 100% 对比 15% 到 45%)。有关更多信息,请参阅项目网站 https://zt-yang.github.io/vlm-tamp-robot/。  
2024-10-02 Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations null 多模态学习在使机器学习模型能够融合和利用文本、图像和音频等不同数据源以支持各种下游任务方面发挥着至关重要的作用。跨各种模态的统一表示对于提高效率和性能尤为重要。最近的绑定方法,如ImageBind(Girdhar等人,2023),通常使用固定的锚点模态来对齐锚点模态嵌入空间中的多模态数据。在本文中,我们对固定锚点绑定方法进行了数学分析,并发现了其显著的局限性:(1)过度依赖于锚点模态的选择,(2)无法捕获模态内信息,以及(3)无法解释非锚点模态之间的模态间相关性。为了解决这些局限性,我们提出了CentroBind,这是一种简单而强大的方法,它消除了对固定锚点的需求;相反,它采用从所有可用模态生成的动态可调的基于质心的锚点,从而产生平衡且丰富的表示空间。我们从理论上证明了我们的方法捕获了多模态学习的三个关键属性:模态内学习、模态间学习和多模态对齐,同时还在所有模态中构建了一个稳健的统一表示。我们在合成数据集和真实世界数据集上的实验都证明了该方法的优越性,表明动态锚点方法优于所有固定锚点绑定方法,因为前者捕获了更细微的多模态交互。  
2024-10-02 Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning null 自主智能体在自动化复杂的多步决策任务中展现出巨大潜力。然而,即使是最先进的视觉语言模型(VLM),例如GPT-4o,在复杂网络环境和长期规划任务中仍未达到人类水平。为了解决这些限制,我们引入了反射蒙特卡洛树搜索(R-MCTS),这是一种新颖的测试时算法,旨在增强人工智能体(例如由GPT-4o驱动的智能体)动态探索决策空间的能力。R-MCTS通过以下方式扩展了传统的MCTS:1)结合对比反射,使智能体能够从过去的交互中学习并动态提高其搜索效率;2)使用多智能体辩论来提供可靠的状态评估。此外,我们通过自我学习微调GPT-4o来提高智能体的性能,使用R-MCTS生成的树遍历,无需任何人工提供的标签。在具有挑战性的VisualWebArena基准测试中,我们基于GPT-4o的R-MCTS智能体在各种任务中比之前的最先进技术实现了6%到30%的相对改进。此外,我们还表明,从测试时搜索中获得的知识可以通过微调有效地转移回GPT-4o。经过微调的GPT-4o在测试时可以达到R-MCTS性能的97%,同时计算量减少了四倍。此外,定性结果表明,经过微调的GPT-4o模型能够探索环境、评估状态,并在检测到当前状态无法导致成功时回溯到可行的状态。此外,我们的工作展示了训练(使用R-MCTS收集数据)和测试时的计算扩展特性。这些结果为通过测试时搜索和自我学习来增强VLM的推理和规划能力,以用于智能体应用,提出了一个有希望的研究方向。  
2024-09-30 HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding null 大型视觉语言模型 (LVLM) 在许多视觉语言任务中都表现出了非凡的性能。然而,这些模型仍然受到多模态幻觉的影响,这意味着会生成违反图像内容的对象或内容。许多现有工作通过直接判断一个对象是否存在于图像中来检测幻觉,而忽略了对象与语义之间的关联。为了解决这个问题,我们提出了视觉增强惩罚解码的分层反馈学习 (HELPD)。该框架在对象和句子语义层面都纳入了幻觉反馈。值得注意的是,即使训练程度不高,这种方法也可以减少 15% 以上的幻觉。同时,HELPD 根据图像注意力窗口惩罚输出 logits,以避免过度受生成文本的影响。HELPD 可以无缝集成到任何 LVLMs 中。我们的实验表明,所提出的框架在多个幻觉基准测试中产生了良好的结果。它有效地减轻了不同 LVLMs 的幻觉,同时提高了它们的文本生成质量。  
2024-09-30 CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset link 机器学习模型正越来越多地部署在现实环境中。然而,关于其对特定和关键应用的可迁移性的系统研究在研究文献中却鲜有报道。一个重要的例子是用于机器人电力线巡检的视觉异常检测 (VAD)。虽然现有的 VAD 方法在受控环境中表现良好,但现实场景中存在着当前数据集无法捕捉到的各种意外异常。为了弥补这一差距,我们推出了 $\textit{CableInspect-AD}$,这是一个由加拿大公用事业公司 Hydro-Qu'ebec 的领域专家创建和标注的高质量、公开可用的数据集。该数据集包含具有挑战性的现实世界异常的高分辨率图像,涵盖了不同严重程度的缺陷。为了解决为设置检测阈值而收集各种异常和正常样本的挑战,我们建议对著名的 PatchCore 算法进行增强。这种增强使其能够在标记数据有限的情况下使用。我们还提出了一个基于交叉验证的综合评估方案,以评估模型的性能。我们评估了我们的 $\textit{Enhanced-PatchCore}$ 在少样本和多样本检测方面的性能,以及视觉语言模型在零样本检测方面的性能。虽然这些模型很有前景,但它们难以检测所有异常,这突出了该数据集作为一个具有挑战性的基准对更广泛研究群体的价值。项目页面:https://mila-iqia.github.io/cableinspect-ad/。  
2024-09-30 Visual Context Window Extension: A New Perspective for Long Video Understanding null 大型多模态模型 (LMM) 在短视频理解任务中表现出色,但在应用于长视频理解时面临巨大挑战。相比之下,大型语言模型 (LLM) 在建模长文本方面表现出色。现有工作试图通过在训练期间引入长视频-文本对来解决这个问题。然而,这些方法需要大量的计算和数据资源。在本文中,我们从上下文窗口的角度来应对长视频理解的挑战,旨在将 LMM 应用于长视频任务,而无需在长视频数据集上重新训练。我们首先深入分析了预训练的 LMM 难以理解长视频内容的原因,发现视觉和语言模态之间的差异导致视觉和语言标记的上下文窗口不同,这使得直接扩展视觉标记以匹配语言上下文窗口变得困难。基于此,我们建议通过扩展视觉上下文窗口来调整 LMM 以适应长视频理解任务,从而无需在大型长视频数据集上重新训练。为了进一步减少长序列导致的大量内存消耗,我们引入了一种渐进式池化推理策略,该策略选择性地调整帧嵌入的空间分辨率,在保留重要空间信息的同时减少视觉标记的数量。在多个长视频理解基准测试中,我们的方法随着视频帧数量的增加而持续提高性能。在 MLVU 基准测试中,我们的方法优于 GPT-4o,即使我们的模型大小只有 7B。此外,在 256 帧设置中,与基线相比,我们的方法将内存使用量减少了大约 45%,而不会导致任何性能损失。  
2024-09-30 Towards Robust Multimodal Sentiment Analysis with Incomplete Data link 多模态情感分析(MSA)领域最近出现了一个新兴方向,旨在解决数据不完整性问题。认识到语言模态通常包含密集的情感信息,我们将其视为主要模态,并提出了一种创新的语言主导抗噪学习网络(LNLN),以实现稳健的MSA。所提出的LNLN具有主要模态校正(DMC)模块和基于主要模态的多模态学习(DMML)模块,通过确保主要模态表示的质量,增强了模型在各种噪声场景下的鲁棒性。除了方法论设计之外,我们还在随机数据缺失场景下进行了全面的实验,在几个流行的数据集(例如MOSI、MOSEI和SIMS)上使用了多样化且有意义的设置,与文献中的现有评估相比,提供了额外的统一性、透明度和公平性。根据经验,LNLN始终优于现有的基线,在这些具有挑战性和广泛的评估指标中表现出卓越的性能。  
2024-09-30 Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels null 像 CLIP 这样的大规模视觉语言模型在图像级任务中表现出了令人印象深刻的开放词汇能力,在识别物体方面表现出色。然而,它们在语义分割等像素级识别任务中却表现不佳,因为这些任务还需要理解物体的位置。在这项工作中,我们提出了一种名为 PixelCLIP 的新方法,通过使用从 SAM 和 DINO 等视觉基础模型生成的未标记图像和掩码来指导模型识别物体的位置,从而使 CLIP 图像编码器适应像素级理解。为了解决在没有语义标签的情况下利用掩码的挑战,我们设计了一种使用可学习类名的在线聚类算法来获取一般的语义概念。PixelCLIP 在开放词汇语义分割方面比 CLIP 显示出显著的性能提升,并且与字幕监督方法相比具有竞争力的结果。项目页面:https://cvlab-kaist.github.io/PixelCLIP  
2024-09-29 PALM: Few-Shot Prompt Learning for Audio Language Models null 音频语言模型(ALM)最近在零样本音频识别任务中取得了显著成果,其灵感来自视觉语言模型(VLM)的进步,将音频波形的特征与特定类别的文本提示特征相匹配。鉴于零样本性能对人工设计文本提示选择的敏感性,已经为VLM开发了许多提示学习技术。我们探索了这些方法在ALM中的有效性,并提出了一种名为“音频语言模型中的提示学习”(PALM)的新方法,该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同,我们的方法实现了更高的训练效率。我们在11个音频识别数据集上证明了我们方法的有效性,这些数据集涵盖了各种语音处理任务,并在少样本学习设置中将结果与三个基线进行了比较。我们的方法在计算量较小的同时,其性能与其他方法相当或更优。代码可在https://asif-hanif.github.io/palm/获取。  
2024-09-29 Vision-Language Models are Strong Noisy Label Detectors link 最近关于视觉语言模型微调的研究表明,其在下游任务中表现出色。然而,在实际应用中获取准确标记数据的挑战给微调过程带来了重大障碍。为了应对这一挑战,本文提出了一种名为 DeFT 的去噪微调框架,用于视觉语言模型的适应性训练。DeFT 利用在数百万个辅助图像-文本对上预训练的文本和视觉特征的鲁棒对齐来筛选噪声标签。所提出的框架通过学习每个类别的正负文本提示来建立噪声标签检测器。正提示旨在揭示该类别的独特特征,而负提示则作为可学习的阈值,用于区分干净样本和噪声样本。我们采用参数高效的微调方法来调整预训练的视觉编码器,以促进其与学习到的文本提示对齐。作为一个通用框架,DeFT 可以通过利用精心挑选的干净样本,将许多预训练模型无缝地微调到下游任务。在七个合成和真实噪声数据集上的实验结果验证了 DeFT 在噪声标签检测和图像分类方面的有效性。  
2024-09-29 MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation link 医学本质上是多模态和多任务的,具有涵盖文本、影像等多种数据模态。然而,目前大多数医学领域模型都是单模态单任务的,缺乏良好的泛化性和可解释性。在本研究中,我们介绍了MedViLaM,这是一个通用的医学数据视觉语言模型,它可以使用相同的模型权重灵活地编码和解释各种形式的医学数据,包括临床语言和影像。为了促进这种多任务模型的创建,我们策划了MultiMedBench,这是一个全面的预训练数据集和基准,包含多个不同的任务,即连续问答、多标签疾病分类、疾病定位、放射学报告的生成和总结。MedViLaM在所有MultiMedBench任务中都表现出色,经常大幅超越其他通用模型。此外,我们还展示了零样本泛化到新的医学概念和任务、跨不同任务的有效迁移学习以及零样本医学推理的出现。  
2024-09-29 Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method link 将CLIP等预训练的视觉语言基础模型整合到联邦学习中,以增强跨不同任务的泛化能力,引起了广泛关注。通常,视觉语言模型的联邦学习采用提示学习来降低通信和计算成本,即基于提示的联邦学习。然而,目前对基于提示的联邦学习性能的理论分析还很有限。在这项工作中,我们通过特征学习理论构建了一个基于提示的联邦学习的理论分析框架。具体来说,我们监控了基于提示的联邦学习中信号学习和噪声记忆的演变,证明了可以通过与任务相关和与任务无关的系数之比来评估性能。此外,我们将投资组合优化中的收益和风险与特征学习中的任务相关和任务无关项进行了类比。受投资组合优化理论的启发,即组合两种独立资产将保持收益,同时降低风险,我们引入了两种提示:全局提示和局部提示,以构建一个提示组合来平衡泛化性和个性化。因此,我们展示了提示组合的性能优势,并推导出了最佳混合系数。这些理论主张得到了进一步的实证实验的支持。  
2024-09-28 FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models link 尽管视觉语言模型取得了重大进展并得到广泛应用,但很少有研究探讨其伦理含义。这些模型通常需要大量的训练数据,而这些数据往往来自仓促审查的文本和图像数据集,导致数据集高度失衡并引发伦理问题。此外,最初用英语训练的模型经常针对其他语言进行微调,例如 CLIP 模型,可以通过添加更多数据来增强其功能,但也可能引入新的偏差。CAPIVARA 是一种基于 CLIP 模型并适用于葡萄牙语的模型,在零样本任务中表现出色。在本文中,我们评估了视觉语言模型中的四种不同类型的歧视性做法,并介绍了 FairPIVARA,这是一种通过移除特征嵌入中受影响最大的维度来减少这些做法的方法。FairPIVARA 的应用显著减少了高达 98% 的观察到的偏差,同时促进了模型中更平衡的词语分布。我们的模型和代码可在以下网址获取:https://github.com/hiaac-nlp/FairPIVARA。  
2024-09-27 Image-guided topic modeling for interpretable privacy classification link 用人类可理解的术语预测和解释图像中包含的隐私信息是一项复杂且依赖于上下文的的任务。即使对于大型语言模型来说,这项任务也具有挑战性。为了促进对隐私决策的理解,我们建议根据一组自然语言内容描述符来预测图像隐私。这些内容描述符与隐私分数相关联,这些分数反映了人们如何看待图像内容。我们使用我们新颖的图像引导主题建模(ITM)方法生成描述符。ITM 通过多模态对齐,利用来自视觉语言模型的视觉信息和图像文本描述。我们使用 ITM 生成的描述符来学习隐私预测器 Priv×ITM,其决策在设计上是可解释的。我们的 Priv×ITM 分类器在准确率方面比参考的可解释方法高出 5 个百分点,并且性能与当前最先进的不可解释模型相当。  
2024-09-26 LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness null 大型多模态模型 (LMM) 近期的进步极大地提高了其在 2D 视觉理解任务中的能力,使其能够有效地处理和理解图像和视频。然而,由于缺乏大规模 3D 视觉语言数据集和强大的 3D 编码器,具有 3D 感知能力的 LMM 在 3D 场景理解方面的开发一直受到阻碍。在本文中,我们介绍了一种简单而有效的框架,称为 LLaVA-3D。LLaVA-3D 利用 LLaVA 强大的 2D 理解先验知识,有效地将 LLaVA 应用于 3D 场景理解,而不会影响其 2D 理解能力。为了实现这一点,我们采用了一种简单有效的表示方法,即 3D Patch,它将 2D CLIP 图像块特征与其在 3D 空间中的对应位置连接起来。通过将 3D Patch 集成到 2D LMM 中,并采用联合 2D 和 3D 视觉语言指令微调,我们建立了一个用于 2D 图像理解和 3D 场景理解的统一架构。实验结果表明,在 3D 视觉语言数据集上训练时,LLaVA-3D 的收敛速度比现有 3D LMM 快 3.5 倍。此外,LLaVA-3D 不仅在各种 3D 任务上实现了最先进的性能,而且还保持了与 LLaVA 相当的 2D 图像理解和视觉语言对话能力。  
2024-09-26 EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions null GPT-4o,一个能够进行带有不同情感和语调的语音对话的多模态模型,标志着多模态基础模型的一个里程碑。然而,在开源社区中,使用公开可用的数据赋予大型语言模型以端到端的方式感知和生成图像、文本和语音仍然具有挑战性。现有的视觉语言模型依赖于外部工具进行语音处理,而语音语言模型仍然存在视觉理解能力有限甚至没有的问题。为了解决这个问题,我们提出了EMOVA(情感无所不在的语音助手),它使大型语言模型具备端到端的语音能力,同时保持领先的视觉语言性能。利用语义-声学解耦的语音标记器,我们惊奇地发现,与相应的双模态对齐模型相比,多模态对齐可以进一步增强视觉语言和语音能力。此外,我们还提出了一个轻量级的风格模块,用于灵活控制语音风格(例如情感和音调)。EMOVA首次在视觉语言和语音基准测试中均实现了最先进的性能,同时支持具有生动情感的多模态语音对话。  
2024-09-26 DARE: Diverse Visual Question Answering with Robustness Evaluation null 视觉语言模型 (VLM) 扩展了仅文本大型语言模型和仅视觉模型的卓越能力,并且能够从多模态视觉文本输入中学习和处理。虽然现代 VLM 在许多标准图像分类和图像文本匹配任务中表现良好,但它们仍然难以应对许多关键的视觉语言 (VL) 推理能力,例如计数和空间推理。此外,虽然它们可能对指令和/或评估协议的微小变化非常脆弱,但现有基准测试未能评估它们的稳健性(或者更确切地说是缺乏稳健性)。为了将具有挑战性的 VL 场景与全面的稳健性评估相结合,我们引入了 DARE,即具有稳健性评估的多样化视觉问答,这是一个精心创建和策划的多项选择 VQA 基准。DARE 评估 VLM 在五个不同类别上的性能,并包括四个基于以下变化的面向稳健性的评估:提示、答案选项子集、输出格式和正确答案的数量。在一系列其他发现中,我们报告说,最先进的 VLM 仍然难以回答大多数类别中的问题,并且无法在测试的稳健性评估中始终如一地提供其峰值性能。选项子集的最差情况性能比标准情况下的性能低 34%。诸如 LLaVA 1.6 和 Idefics2 等开源 VLM 的稳健性无法与 GPT-4 和 Gemini 等闭源模型相提并论,但即使是后者仍然非常容易受到不同变化的影响。  
2024-09-26 The Hard Positive Truth about Vision-Language Compositionality link 多项基准测试得出结论,我们最好的视觉语言模型(例如 CLIP)缺乏组合性。给定一张图像,这些基准测试会探测模型从一组组合干扰项中识别其关联标题的能力。作为回应,最近涌现出大量提案,表明通过使用干扰项作为强负例对 CLIP 进行微调可以改进模型。我们的调查表明,这些改进实际上被严重夸大了——因为现有的基准测试没有探究微调后的视觉语言模型是否对强正例保持不变。通过使用 112,382 个强负例和强正例整理评估数据集,我们发现包含强正例会使 CLIP 的性能降低 12.9%,而人类则可以毫不费力地达到 99% 的准确率。使用强负例微调 CLIP 会导致更大的性能下降,高达 38.7%。基于这一发现,我们制作了一个包含 1,775,259 个图像文本的训练集,其中包含强负例和强正例标题。通过同时使用两者进行训练,我们看到现有基准测试的性能有所提高,同时强正例的性能也有所提高,这表明组合性得到了更稳健的改进。我们的工作表明,未来的研究需要严格测试和改进 CLIP 对相关“正”概念之间语义关系的理解。  
2024-09-26 A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios link 大多数推荐系统采用协同过滤 (CF) 并根据过去的集体交互提供推荐。因此,当可用交互很少或没有交互时,CF 算法的性能会下降,这种情况称为冷启动。为了解决这个问题,以前的工作依赖于利用协作数据和用户或项目辅助信息的模型。类似于多模态学习,这些模型旨在将协作和内容表示组合到共享嵌入空间中。在这项工作中,我们提出了一种新的多模态推荐技术,它依赖于用于推荐的多模态单分支嵌入网络 (SiBraR)。SiBraR 利用权重共享,在不同模态上使用相同的单分支嵌入网络对交互数据以及多模态辅助信息进行编码。这使得 SiBraR 在缺少模态的情况下(包括冷启动)非常有效。我们对来自三个不同推荐域(音乐、电影和电子商务)并提供多模态内容信息(音频、文本、图像、标签和交互)的大规模推荐数据集进行了广泛实验,结果表明,SiBraR 在冷启动场景下明显优于 CF 以及最先进的基于内容的 RS,并且在热启动场景下也具有竞争力。我们证明了 SiBraR 的推荐在缺少模态的情况下是准确的,并且该模型能够将不同的模态映射到共享嵌入空间的同一区域,从而减少了模态差距。  
2024-09-26 Cascade Prompt Learning for Vision-Language Model Adaptation link 提示学习已成为一种有效的方法,可以提高视觉语言模型 (VLM)(如 CLIP)在下游任务中的性能。然而,当前的可学习提示标记主要用于适应任务的单一阶段(即,调整提示),容易导致过拟合风险。在这项工作中,我们提出了一种新颖的级联提示学习 CasPL 框架,使提示学习能够同时服务于通用和特定专业知识(即,增强和调整提示)。具体来说,CasPL 是一种新的学习范式,包括两个不同阶段的可学习提示:第一个增强提示旨在通过使用大量未标记的域图像对齐其预测的 logits,从高级更大的 CLIP 教师模型中提取域通用知识。然后,第二个调整提示与冻结的第一组级联,以微调下游任务,遵循先前研究中采用的方法。通过这种方式,CasPL 可以有效地将域通用和任务特定表示捕获到明确不同的渐进提示组中,从而潜在地缓解目标域中的过拟合问题。值得注意的是,CasPL 作为一个即插即用的模块,可以无缝集成到任何现有的提示学习方法中。CasPL 在性能和推理速度之间实现了显著更好的平衡,这对于在资源受限的环境中部署较小的 VLM 模型特别有利。与先前最先进的方法 PromptSRC 相比,CasPL 在 11 个图像分类数据集上,基本类别平均提高了 1.85%,新类别平均提高了 3.44%,调和平均值平均提高了 2.72%。代码公开地址:https://github.com/megvii-research/CasPL。  
2024-09-26 Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification link 深度多模态学习通过利用对比学习来捕捉模态之间显式的一对一关系,已经展现出显著的成果。然而,现实世界的数据往往表现出超越简单成对关联的共享关系。我们提出了M3CoL,一种多模态混合对比学习方法,用于捕捉多模态数据中固有的细微共享关系。我们的主要贡献是一种基于混合的对比损失函数,它通过将来自一种模态的混合样本与其来自其他模态的对应样本对齐来学习鲁棒的表示,从而捕捉它们之间的共享关系。对于多模态分类任务,我们引入了一个框架,该框架将融合模块与单模态预测模块相结合,以便在训练期间进行辅助监督,并辅以我们提出的基于混合的对比损失函数。通过对不同数据集(N24News、ROSMAP、BRCA 和 Food-101)的广泛实验,我们证明了 M3CoL 可以有效地捕捉共享的多模态关系并在不同领域泛化。它在 N24News、ROSMAP 和 BRCA 上的表现优于最先进的方法,同时在 Food-101 上取得了可比的性能。我们的工作突出了学习共享关系对于鲁棒的多模态学习的重要性,为未来的研究开辟了有希望的途径。  
2024-09-26 Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications null 视觉语言模型在为各种机器人应用提取有意义的特征方面发挥了关键作用。其中,对比语言-图像预训练 (CLIP) 广泛应用于需要视觉和自然语言理解的机器人任务。然而,CLIP 仅在与文本提示配对的静态图像上进行训练,尚未完全适应涉及动态动作的机器人任务。在本文中,我们介绍了 Robotic-CLIP 来增强机器人的感知能力。我们首先收集和标记大规模动作数据,然后使用对比学习在 309,433 个视频(约 740 万帧)的动作数据上微调 CLIP,构建我们的 Robotic-CLIP。通过利用动作数据,Robotic-CLIP 继承了 CLIP 强大的图像性能,同时获得了理解机器人环境中动作的能力。大量实验表明,我们的 Robotic-CLIP 在各种语言驱动的机器人任务中优于其他基于 CLIP 的模型。此外,我们还展示了 Robotic-CLIP 在现实世界抓取应用中的实际有效性。  
2024-09-26 MIO: A Foundation Model on Multimodal Tokens link 本文介绍了一种基于多模态token的新型基础模型MIO,它能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。尽管大型语言模型(LLM)和多模态大型语言模型(MM-LLM)凭借其多功能性推动了人工智能通用性的进步,但它们仍然缺乏真正的任意模态之间理解和生成的能力。最近,GPT-4o的发布展示了任意模态之间LLM在处理复杂现实世界任务方面的巨大潜力,它能够实现图像、语音和文本之间的全向输入和输出。然而,它是一个闭源模型,并且不支持生成多模态交错序列。为了解决这个问题,我们提出了MIO,它使用因果多模态建模在四种模态的离散token混合数据集上进行训练。MIO经历了四个训练阶段:(1)对齐预训练,(2)交错预训练,(3)语音增强预训练,以及(4)针对不同文本、视觉和语音任务的综合监督微调。我们的实验结果表明,与之前的双模态基线、任意模态之间模型基线,甚至是特定模态基线相比,MIO表现出具有竞争力的性能,在某些情况下甚至更胜一筹。此外,MIO还展示了其任意模态之间功能所带来的高级能力,例如交错视频文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。  
2024-09-26 P4Q: Learning to Prompt for Quantization in Visual-language Models null 大规模预训练的视觉语言模型(VLM)在各种视觉和多模态任务中取得了显著成果,但由于其对训练样本和计算资源的巨大需求,将VLM部署到下游应用平台仍然具有挑战性。对VLM进行微调和量化可以显著降低样本和计算成本,因此迫切需要这方面的研究。量化领域目前存在两种主要范式:量化感知训练(QAT)可以有效地量化大规模VLM,但会产生巨大的训练成本;而低比特位后训练量化(PTQ)则存在明显的性能下降问题。我们提出了一种平衡微调和量化的方法,称为“量化提示”(P4Q),其中我们设计了一种轻量级架构,利用对比损失监督来增强PTQ模型的识别性能。我们的方法可以有效地减少由低比特位量化引起的图像特征和文本特征之间的差距,其方法是基于可学习的提示来重组文本表示,并使用低比特位适配器重新调整图像和文本特征的分布。我们还引入了一种基于余弦相似度预测的蒸馏损失,以使用全精度教师模型对量化模型进行蒸馏。大量的实验结果表明,我们的P4Q方法优于现有技术,甚至可以达到与其全精度模型相当的结果。例如,我们的8位P4Q理论上可以将CLIP-ViT/B-32压缩4倍,同时在ImageNet数据集上实现66.94%的Top-1准确率,比可学习提示微调的全精度模型高出2.24%,而额外的参数可以忽略不计。  
2024-09-18 Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution link 我们推出了Qwen2-VL系列,这是对先前Qwen-VL模型的先进升级,它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL引入了朴素动态分辨率机制,使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。这种方法允许模型生成更高效、更准确的视觉表示,与人类的感知过程紧密一致。该模型还集成了多模态旋转位置嵌入(M-RoPE),促进了文本、图像和视频中位置信息的有效融合。我们采用统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉语言模型(LVLM)的缩放规律。通过扩展模型规模(包括2B、8B和72B参数的版本)和训练数据量,Qwen2-VL系列实现了极具竞争力的性能。值得注意的是,Qwen2-VL-72B模型在各种多模态基准测试中取得了与GPT-4o和Claude3.5-Sonnet等领先模型相当的结果,优于其他通用模型。代码可在\url{https://github.com/QwenLM/Qwen2-VL}获取。  
2024-09-18 GauTOAO: Gaussian-based Task-Oriented Affordance of Objects null 当您的机器人使用灵巧的手或抓手抓取物体时,它应该理解物体的面向任务的可操作性 (TOAO),因为不同的任务通常需要关注物体的特定部分。为了应对这一挑战,我们提出了 GauTOAO,这是一个基于高斯的物体面向任务可操作性框架,它以零样本的方式利用视觉语言模型,在给定自然语言查询的情况下预测物体上与可操作性相关的区域。我们的方法引入了一种新的范式:“静态相机,移动物体”,使机器人在操作过程中能够更好地观察和理解手中的物体。GauTOAO 解决了现有方法的局限性,这些方法通常缺乏有效的空间分组,它使用 DINO 特征提取完整的 3D 物体掩码。然后,该掩码用于有条件地查询高斯分布,从而生成针对特定任务的、在物体上的精细语义分布。这种方法可以更准确地提取 TOAO,增强机器人对物体的理解并提高任务性能。我们通过现实世界实验验证了 GauTOAO 的有效性,证明了它能够泛化到各种任务。  
2024-09-18 LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models null 视觉语言模型 (VLM) 在众多任务中都表现出色,但与其专用或微调模型相比,它们的零样本能力可能有限。然而,微调 VLM 存在局限性,因为它需要对模型架构和权重的“白盒”访问权限,以及设计微调目标和优化超参数的专业知识,这些都特定于每个 VLM 和下游任务。在这项工作中,我们提出了 LLM-wrapper,这是一种通过利用大型语言模型 (LLM) 来推理其输出,以“黑盒”方式调整 VLM 的新方法。我们通过指代表达理解 (REC) 证明了 LLM-wrapper 的有效性,这是一项需要空间和语义推理的具有挑战性的开放词汇任务。我们的方法显著提高了现成模型的性能,与经典微调相比获得了具有竞争力的结果。  
2024-09-17 NVLM: Open Frontier-Class Multimodal LLMs null 我们推出了 NVLM 1.0,这是一系列前沿的多模态大型语言模型 (LLM),在视觉语言任务上取得了最先进的结果,可与领先的专有模型(例如 GPT-4o)和开放访问模型(例如 Llama 3-V 405B 和 InternVL 2)相媲美。 值得注意的是,NVLM 1.0 在多模态训练后,其纯文本性能优于其 LLM 骨干模型。 在模型设计方面,我们对仅解码器多模态 LLM(例如 LLaVA)和基于交叉注意力的模型(例如 Flamingo)进行了全面比较。 基于这两种方法的优缺点,我们提出了一种新颖的架构,可以提高训练效率和多模态推理能力。 此外,我们为基于图块的动态高分辨率图像引入了 1-D 图块标记设计,这显着提高了多模态推理和 OCR 相关任务的性能。 关于训练数据,我们精心策划并提供有关我们多模态预训练和监督微调数据集的详细信息。 我们的研究结果表明,即使在预训练阶段,在所有架构中,数据集质量和任务多样性都比规模更重要。 值得注意的是,我们为 NVLM-1.0 模型开发了生产级多模态,使其能够在视觉语言任务中表现出色,同时保持甚至改进与其 LLM 骨干模型相比的纯文本性能。 为此,我们将高质量的纯文本数据集与大量的多模态数学和推理数据一起制作并集成到多模态训练中,从而增强了跨模态的数学和编码能力。 为了推动该领域的 研究,我们将发布模型权重,并将开源代码供社区使用:https://nvlm-project.github.io/。  
2024-09-17 CAST: Cross-modal Alignment Similarity Test for Vision Language Models link 视觉语言模型 (VLM) 通常通过视觉问答 (VQA) 任务进行评估,这些任务评估模型对场景的理解。良好的 VQA 性能被视为该模型能够在需要视觉和语言输入的更广泛任务中表现良好的证据。然而,场景感知 VQA 并不能完全捕捉输入偏差,也不能评估由模态之间错位引起的幻觉。为了解决这个问题,我们提出了跨模态对齐相似性测试 (CAST) 来探测 VLM 在不同模态之间的自洽性。该测试包括要求模型仅通过文本、仅通过图像或两者兼用来识别两个场景之间的相似性,然后评估它们生成的相似性的真实性。由于没有可供比较的真实情况,因此该评估的重点不是客观准确性,而是 VLM 在输出方面是否内部一致。我们认为,虽然并非所有自洽模型都具有能力或准确性,但所有有能力的 VLM 都必须是自洽的。  
2024-09-17 KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph link Exploring the narratives conveyed by fine-art paintings is a challenge in image captioning, where the goal is to generate descriptions that not only precisely represent the visual content but also offer a in-depth interpretation of the artwork’s meaning. The task is particularly complex for artwork images due to their diverse interpretations and varied aesthetic principles across different artistic schools and styles. In response to this, we present KALE Knowledge-Augmented vision-Language model for artwork Elaborations), a novel approach that enhances existing vision-language models by integrating artwork metadata as additional knowledge. KALE incorporates the metadata in two ways: firstly as direct textual input, and secondly through a multimodal heterogeneous knowledge graph. To optimize the learning of graph representations, we introduce a new cross-modal alignment loss that maximizes the similarity between the image and its corresponding metadata. Experimental results demonstrate that KALE achieves strong performance (when evaluated with CIDEr, in particular) over existing state-of-the-art work across several artwork datasets. Source code of the project is available at https://github.com/Yanbei-Jiang/Artwork-Interpretation.  
2024-09-16 Do Pre-trained Vision-Language Models Encode Object States? null For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects’ physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.  
2024-09-16 CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera null Camera-to-robot calibration is crucial for vision-based robot control and requires effort to make it accurate. Recent advancements in markerless pose estimation methods have eliminated the need for time-consuming physical setups for camera-to-robot calibration. While the existing markerless pose estimation methods have demonstrated impressive accuracy without the need for cumbersome setups, they rely on the assumption that all the robot joints are visible within the camera’s field of view. However, in practice, robots usually move in and out of view, and some portion of the robot may stay out-of-frame during the whole manipulation task due to real-world constraints, leading to a lack of sufficient visual features and subsequent failure of these approaches. To address this challenge and enhance the applicability to vision-based robot control, we propose a novel framework capable of estimating the robot pose with partially visible robot manipulators. Our approach leverages the Vision-Language Models for fine-grained robot components detection, and integrates it into a keypoint-based pose estimation network, which enables more robust performance in varied operational conditions. The framework is evaluated on both public robot datasets and self-collected partial-view datasets to demonstrate our robustness and generalizability. As a result, this method is effective for robot pose estimation in a wider range of real-world manipulation scenarios.  
2024-09-16 HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models null 能够通过自然语言与人类交互的机器人可以解锁许多应用,例如参考抓取合成(RGS)。给定一个文本查询,RGS确定一个稳定的抓取姿态来操纵机器人工作空间中所指的对象。RGS包括两个步骤:视觉定位和抓取姿态估计。最近的研究利用强大的视觉语言模型(VLM)将自由流动的自然语言视觉定位到现实世界的机器人执行中。然而,在具有多个相同对象实例的复杂、杂乱环境中的比较仍然缺乏。本文介绍了HiFi-CS,它采用特征线性调制(FiLM)的分层应用来融合图像和文本嵌入,增强了机器人抓取中遇到的复杂属性丰富文本查询的视觉定位。视觉定位将二维/三维空间中的对象与自然语言输入相关联,并在两种情况下进行研究:封闭词汇和开放词汇。HiFi-CS具有一个轻量级的解码器,结合了一个冻结的VLM,在封闭词汇设置中优于竞争基线,同时尺寸缩小了100倍。我们的模型可以有效地指导像GroundedSAM这样的开放集目标检测器,以提高开放词汇性能。我们使用一个7自由度机械臂,通过真实的RGS实验验证了我们的方法,在15个桌面场景中实现了90.33%的视觉定位精度。我们在补充材料中包含了我们的代码库。  
2024-09-19 IRIS: Interactive Responsive Intelligent Segmentation for 3D Affordance Analysis null 大型语言和视觉语言模型的最新进展显著增强了多模态理解,然而将高级语言指令转换为精确的3D空间机器人动作仍然具有挑战性。本文介绍了IRIS(交互式响应智能分割),这是一种用于3D功能分割的全新免训练多模态系统,以及一个用于评估日常环境中交互式语言引导功能的基准。IRIS将大型多模态模型与专门的3D视觉网络相结合,实现了2D和3D视觉理解与语言理解的无缝融合。为了便于评估,我们提供了一个包含10个典型室内环境的数据集,每个环境包含50张标注了物体动作和3D功能分割的图像。大量实验表明,IRIS能够处理各种环境下的交互式3D功能分割任务,并在各种指标上均展现出具有竞争力的性能。我们的结果突出了IRIS在增强基于复杂室内环境中功能理解的人机交互方面的潜力,推进了更直观、更高效的机器人系统在现实世界应用中的发展。  
2024-09-15 FSL-LVLM: Friction-Aware Safety Locomotion using Large Vision Language Model in Wheeled Robots null 轮腿式机器人在移动性和多功能性方面具有显著优势,但在湿滑地形上运行时面临着巨大挑战。这些机器人的传统基于模型的控制器假设没有滑动。虽然强化学习(RL)可以帮助四足机器人适应不同的表面,但从滑动中恢复仍然具有挑战性,特别是对于接触点较少的系统。估计地面摩擦系数是另一个开放的挑战。在本文中,我们提出了一种新颖的摩擦感知安全运动框架,该框架将大型视觉语言模型(LLM)与RL策略相结合。我们的方法将估计的摩擦系数明确纳入RL策略,使机器人能够在到达表面之前根据表面类型提前调整其行为。我们引入了一个“视觉摩擦”(FFV)模块,该模块利用LLM估计地面摩擦系数,从而无需大型数据集和大量训练。该框架在定制的轮式倒立摆上进行了验证,实验结果表明,我们的框架通过根据地形类型调整速度来提高完成驾驶任务的成功率,同时与基线方法相比实现了更好的跟踪性能。我们的框架可以轻松地与任何其他RL策略集成。  
2024-09-15 Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models null 尽管近期研究表明视觉语言模型 (VLM) 能够使用自然语言描述图像中的复杂关系,但其对物体大小和距离进行定量推理的能力仍有待探索。在这项工作中,我们引入了一个手动标注的基准测试集 Q-Spatial Bench,其中包含 271 个跨越五个类别的、专为定量空间推理设计的问题,并系统地研究了最先进的 VLM 在这项任务上的性能。我们的分析表明,推理物体之间的距离对 SoTA VLM 来说尤其具有挑战性;然而,一些 VLM 的性能明显优于其他模型,表现最好的两个模型之间存在超过 40 个百分点的差距。我们还惊奇地观察到,当响应中自然出现使用参考对象的推理路径时,性能最佳的 VLM 的成功率提高了 19 个百分点。受此观察结果的启发,我们开发了一种零样本提示技术 SpatialPrompt,该技术鼓励 VLM 使用参考对象作为视觉线索来回答定量空间问题。通过 SpatialPrompt 指导 VLM 在其推理路径中使用参考对象,Gemini 1.5 Pro、Gemini 1.5 Flash 和 GPT-4V 的成功率分别提高了 40、20 和 30 个百分点以上。我们强调,这些显著的改进无需更多数据、模型架构修改或微调即可实现。  
2024-09-15 Finetuning CLIP to Reason about Pairwise Differences link 视觉语言模型 (VLM) 如 CLIP 是通过文本和图像对之间的对比学习进行训练的,从而产生对齐的图像和文本嵌入,这对许多下游任务非常有用。然而,CLIP 的一个显著缺点是,由此产生的嵌入空间似乎缺乏其纯文本替代方案所具有的一些结构。例如,长期以来,人们一直注意到文本嵌入可以使用向量算术来满足嵌入空间中的\emph{类比},而 CLIP 则没有这种特性。在本文中,我们提出了一种以对比方式原生训练 CLIP 的方法,以便推理嵌入空间中的差异。我们对 CLIP 进行了微调,以便图像嵌入空间中的差异对应于\emph{图像差异的文本描述},我们使用大型语言模型在图像-标题配对数据集上合成地生成了这些描述。我们首先证明,我们的方法在按特定属性对图像进行排序(例如,大象比猫大)方面产生了显著改进的能力,这在检索或构建基于属性的分类器中非常有用,并且提高了许多下游图像分类任务上的零样本分类性能。此外,我们的方法还实现了一种新的推理机制,我们将其称为比较提示,其中我们利用对感兴趣类别之间差异的文本描述的先验知识,在分类中实现了更大的性能提升。最后,我们说明了生成的嵌入在嵌入空间中遵循更大程度的几何特性,例如在文本到图像的生成中。  
2024-09-13 Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing null 遥感影像中的目标检测在地球观测的各种应用中发挥着至关重要的作用。然而,与自然场景图像中的目标检测不同,这项任务特别具有挑战性,因为在不同的地形中存在大量的小型且通常难以察觉的目标。为了应对这些挑战,可以使用多模态学习来整合来自不同数据模态的特征,从而提高检测精度。然而,多模态学习的性能往往受到标记数据集大小的限制。在本文中,我们建议使用掩蔽图像建模(MIM)作为一种预训练技术,利用无标记数据的自监督学习来提高检测性能。然而,传统的MIM方法(如MAE)使用没有上下文信息的掩蔽标记,由于缺乏与图像其他部分的交互,难以捕捉到细粒度的细节。为了解决这个问题,我们提出了一种新的交互式MIM方法,可以在不同的标记之间建立交互,这对于遥感中的目标检测特别有利。大量的消融研究和评估证明了我们方法的有效性。  
2024-09-13 A Multimodal Approach for Fluid Overload Prediction: Integrating Lung Ultrasound and Clinical Data null 维持透析患者的体液平衡至关重要,因为管理不当会导致严重并发症。在本文中,我们提出了一种多模态方法,该方法整合了肺部超声图像的视觉特征和临床数据,以增强对体内多余液体预测的准确性。我们的框架采用独立的编码器来提取每种模态的特征,并通过跨域注意力机制将它们组合起来,以捕获互补信息。通过将预测构建为分类任务,该模型实现了比回归模型更好的性能。结果表明,多模态模型始终优于单模态模型,尤其是在注意力机制优先考虑表格数据时。伪样本生成进一步有助于缓解分类问题中的数据不平衡问题,实现了 88.31% 的最高准确率。这项研究强调了多模态学习对透析患者液体超负荷管理的有效性,为改善临床结果提供了宝贵的见解。  
2024-09-13 ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning null 遥感 (RS) 变化分析通过检测图像随时间的变化来监测地球动态过程,至关重要。传统的变点检测擅长识别像素级的变化,但缺乏将这些变化置于背景中的能力。虽然最近在变化描述方面的进展提供了对变化的自然语言描述,但它们不支持交互式的、用户特定的查询。为了解决这些限制,我们引入了 ChangeChat,这是第一个专为 RS 变化分析设计的双时态视觉语言模型 (VLM)。ChangeChat 利用多模态指令微调,使其能够处理复杂的查询,例如变化描述、特定类别的量化和变化定位。为了提高模型的性能,我们开发了 ChangeChat-87k 数据集,该数据集是使用基于规则的方法和 GPT 辅助技术相结合生成的。实验表明,ChangeChat 为 RS 变化分析提供了一个全面、交互式的解决方案,在特定任务上的性能达到甚至优于最先进 (SOTA) 方法,并显着超过了最新的通用模型 GPT-4。代码和预训练权重可在 https://github.com/hanlinwu/ChangeChat 获取。  
2024-09-13 Generalization Boosted Adapter for Open-Vocabulary Segmentation null 视觉语言模型 (VLM) 已展现出卓越的开放词汇对象识别能力,这促使它们被应用于密集预测任务,例如分割。然而,由于缺乏像素级粒度以及可用于微调的数据有限,直接将 VLM 应用于此类任务仍然具有挑战性,导致过度拟合和泛化能力差。为了解决这些限制,我们提出了泛化增强适配器 (GBA),这是一种新颖的适配器策略,可以增强 VLM 对开放词汇分割的泛化能力和鲁棒性。GBA 包含两个核心组件:(1) 风格多样化适配器 (SDA),它将特征解耦为幅度和相位分量,仅对幅度进行操作以丰富特征空间表示,同时保持语义一致性;(2) 相关性约束适配器 (CCA),它采用交叉注意力机制在文本类别和目标区域之间建立更紧密的语义关联,抑制不相关的低频“噪声”信息并避免错误关联。通过浅层 SDA 和深层 CCA 的协同效应,GBA 有效地缓解了过度拟合问题,并增强了特征表示的语义相关性。作为一个简单、高效、即插即用的组件,GBA 可以灵活地集成到各种基于 CLIP 的方法中,展现出广泛的适用性,并在多个开放词汇分割基准测试中实现了最先进的性能。  
2024-09-12 Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations null 像 CLIP 这样的视觉语言模型 (VLM) 已被应用于部分标注的多标签识别 (MLR),其方法是利用提示学习,为每个类别学习正负提示,以便将它们的嵌入与共享视觉文本特征空间中的类别存在或不存在相关联。虽然这种方法通过依赖 VLM 先验信息提高了 MLR 性能,但我们假设学习负面提示可能不是最优的,因为用于训练 VLM 的数据集缺乏明确关注类别缺失的图像-标题对。为了分析正负提示学习对 MLR 的影响,我们引入了 PositiveCoOp 和 NegativeCoOp,其中只有一个提示是在 VLM 指导下学习的,而另一个提示则被直接在共享特征空间中学习的嵌入向量所取代,而不依赖于文本编码器。通过实证分析,我们观察到负面提示会降低 MLR 性能,并且仅学习正面提示并结合学习到的负面嵌入(PositiveCoOp)优于双提示学习方法。此外,我们量化了提示学习相对于仅使用视觉特征的简单基线的性能优势,观察到当缺失标签的比例较低时,基线表现出与双提示学习方法 (DualCoOp) 相当的强劲性能,同时所需的训练计算量减少一半,参数数量减少 16 倍。  
2024-09-12 What Makes a Maze Look Like a Maze? null 人类视觉理解的一个独特之处在于能够灵活地解释抽象概念:获取解释其象征意义的提升规则,将它们应用于熟悉和不熟悉的语境,并对其进行预测或推理。虽然现成的视觉语言模型擅长对图像进行字面解释(例如,识别树枝等物体类别),但它们仍然难以理解此类视觉抽象概念(例如,树枝的排列方式如何形成迷宫的墙壁)。为了应对这一挑战,我们引入了深度模式基础(DSG),这是一个利用视觉抽象的显式结构化表示进行基础化和推理的框架。DSG 的核心是模式——抽象概念的依赖图描述,将它们分解成更原始级别的符号。DSG 使用大型语言模型来提取模式,然后使用视觉语言模型将模式的具体组件到抽象组件分层地基础化到图像上。基础化的模式用于增强视觉抽象理解。我们在新的视觉抽象数据集上系统地评估了 DSG 和不同的推理方法,该数据集包含各种现实世界中抽象概念的图像以及由人类标记的相应问答对。我们表明,DSG 显着提高了视觉语言模型的抽象视觉推理性能,并且是朝着人类一致的视觉抽象理解迈出的一步。  
2024-09-13 A Comprehensive Survey on Deep Multimodal Learning with Missing Modality null 在多模态模型训练和推理过程中,由于传感器限制、成本限制、隐私问题、数据丢失以及时间和空间因素,数据样本可能会缺少某些模态,从而导致模型性能下降。本综述概述了缺失模态的多模态学习 (MLMM) 的最新进展,重点关注深度学习技术。它是第一个涵盖历史背景和 MLMM 与标准多模态学习设置之间区别的综合性综述,然后详细分析了当前的 MLMM 方法、应用和数据集,最后讨论了该领域的挑战和潜在的未来方向。  
2024-09-12 Top-down Activity Representation Learning for Video Question Answering null 从原子动作(例如,拿起一个礼物,移动到沙发,打开礼物)到上下文事件(例如,庆祝圣诞节)捕捉复杂的分层人类活动对于实现高性能视频问答 (VideoQA) 至关重要。 最近的工作已经扩展了多模态模型(例如,CLIP,LLaVA)来处理连续视频序列,增强了模型的时间推理能力。 然而,这些方法通常无法捕捉可以分解为多个原子动作的上下文事件,这些动作非连续地分布在相对长期的序列中。 在本文中,为了利用 CLIP 模型的空间视觉上下文表示能力来获得视频中上下文事件方面的非连续视觉表示,我们将长期视频序列转换为空间图像域,并针对 VideoQA 任务微调多模态模型 LLaVA。 我们的方法在 STAR 任务上取得了具有竞争力的性能,特别是在 NExTQA 任务上,获得了 78.4% 的准确率,超过了当前最先进的得分 2.8 个百分点。  
2024-09-12 DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? link 大型语言模型(LLM)和大型视觉语言模型(LVLM)已经展现出令人印象深刻的语言/视觉推理能力,引发了构建针对特定应用(如购物助手或AI软件工程师)的代理的最新趋势。最近,许多数据科学基准测试被提出,以研究其在数据科学领域的性能。然而,现有的数据科学基准测试与现实世界的数据科学应用相比仍然存在不足,因为它们的设置过于简化。为了弥合这一差距,我们引入了 DSBench,这是一个全面的基准测试,旨在评估具有现实任务的数据科学代理。该基准测试包括 466 个数据分析任务和 74 个数据建模任务,这些任务来自 Eloquence 和 Kaggle 竞赛。DSBench 通过包含长上下文、多模态任务背景、对大型数据文件和多表结构进行推理以及执行端到端数据建模任务,提供了一个真实的设置。我们对最先进的 LLM、LVLM 和代理的评估表明,它们难以完成大多数任务,最好的代理仅能解决 34.12% 的数据分析任务,并实现了 34.74% 的相对性能差距 (RPG)。这些发现强调了进一步发展更实用、更智能、更自主的数据科学代理的必要性。  
2024-09-12 Open-Vocabulary Remote Sensing Image Semantic Segmentation link 开放词汇图像语义分割 (OVS) 旨在将图像分割成跨开放类别集的语义区域。现有的 OVS 方法通常依赖于基础视觉语言模型,并利用相似度计算来处理 OVS 任务。然而,这些方法主要针对自然图像量身定制,难以应对遥感图像的独特特征,例如快速变化的方向和显著的尺度变化。这些挑战使地球视觉中的 OVS 任务变得复杂,需要专门的方法。为了解决这一难题,我们借鉴了独特的遥感特征,提出了第一个专门为遥感图像设计的 OVS 框架。特别是,为了解决不同的方向问题,我们引入了一种旋转聚合相似度计算模块,该模块生成方向自适应相似度图作为初始语义图。随后,这些图会在空间和类别级别进行细化,以生成更准确的语义图。此外,为了管理显著的尺度变化,我们将多尺度图像特征集成到上采样过程中,从而得到最终的尺度感知语义掩码。为了推进地球视觉中的 OVS 并鼓励可重复研究,我们建立了第一个用于遥感图像的开源 OVS 基准,包括四个公共遥感数据集。在这个基准上的大量实验表明,我们提出的方法达到了最先进的性能。所有代码和数据集都可以在 https://github.com/caoql98/OVRS 获取。  
2024-09-11 Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks link 基于多模态大数据集训练的大型视觉语言模型 (LVLM) 在视觉语言任务方面表现出色,极大地推进了人工智能的发展。然而,这些模型仍然容易受到对抗性攻击,尤其是越狱攻击,这些攻击会绕过安全协议,导致模型生成误导性或有害的响应。这种脆弱性源于大型语言模型 (LLM) 固有的敏感性以及视觉模态引入的扩大攻击面。我们提出了 Sim-CLIP+,这是一种新颖的防御机制,它利用 Siamese 架构通过对抗性微调 CLIP 视觉编码器。这种方法最大限度地提高了扰动样本和干净样本之间的余弦相似度,增强了对对抗性操作的抵抗力。Sim-CLIP+ 提供了一种即插即用的解决方案,允许作为强大的视觉编码器无缝集成到现有的 LVLM 架构中。与以前的防御措施不同,我们的方法不需要对 LVLM 进行结构修改,并且计算开销最小。Sim-CLIP+ 证明了其对基于梯度的对抗性攻击和各种越狱技术的有效性。我们针对三种不同的越狱攻击策略评估了 Sim-CLIP+,并使用标准下游数据集(包括用于图像字幕的 COCO 和用于视觉问答的 OKVQA)执行了干净评估。大量实验表明,Sim-CLIP+ 在保持高清洁精度的同时,显着提高了对基于梯度的对抗性攻击和越狱技术的鲁棒性。我们的代码和强大的视觉编码器可在 https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git 获取。  
2024-09-11 MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving link 视觉语言模型 (VLM) 作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型 (LLM),这使得它们难以部署在现实世界场景和实时应用程序中。同时,大多数现有 VLM 缺乏处理多图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一种名为 MiniDrive 的新型框架,该框架结合了我们提出的特征工程混合专家 (FE-MoE) 模块和动态指令适配器 (DI-Adapter)。FE-MoE 在输入语言模型之前,将 2D 特征有效地映射到视觉标记嵌入中。DI-Adapter 使视觉标记嵌入能够随指令文本嵌入动态变化,解决了以往方法中同一图像的静态视觉标记嵌入问题。与之前的工作相比,MiniDrive 在参数大小、浮点运算和响应效率方面实现了最先进的性能,最小版本仅包含 83M 参数。  
2024-09-11 MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis null 本文介绍了MVLLaVA,这是一种专为新视角合成任务设计的智能代理。MVLLaVA将多个多视图扩散模型与大型多模态模型LLaVA相结合,使其能够高效地处理各种任务。MVLLaVA代表了一个通用且统一的平台,可以适应不同的输入类型,包括单个图像、描述性标题或视角方位角的特定变化,并以语言指令指导视角生成。我们精心设计了特定于任务的指令模板,随后用于微调LLaVA。因此,MVLLaVA获得了根据用户指令生成新视角图像的能力,展示了其在不同任务中的灵活性。实验验证了MVLLaVA的有效性,证明了其在应对各种新视角合成挑战时的强大性能和多功能性。  
2024-09-11 FSMDet: Vision-guided feature diffusion for fully sparse 3D detector null 近年来,全稀疏三维目标检测引起了越来越多的关注。然而,这些框架中特征的稀疏性由于扩散过程有限,对候选框的生成提出了挑战。此外,对效率的追求导致对视觉辅助的全稀疏模型的研究很少。在本文中,我们提出了FSMDet(全稀疏多模态检测),它使用视觉信息来指导激光雷达特征扩散过程,同时仍然保持管道的效率。具体来说,大多数全稀疏工作都集中在复杂的定制中心融合扩散/回归算子上。然而,我们观察到,如果执行了适当的目标补全,即使是最简单的插值算子也能得到令人满意的结果。受此观察的启发,我们将视觉引导的扩散过程分为两个模块:形状恢复层(SRLayer)和自扩散层(SDLayer)。前者使用RGB信息来恢复物体可见部分的形状,后者使用视觉先验将特征进一步扩散到中心区域。实验表明,我们的方法成功地提高了以往仅使用激光雷达的全稀疏模型的性能,并在多模态模型中达到了SOTA性能。同时,由于采用了稀疏架构,我们的方法在推理过程中比以往的SOTA方法效率最高可提高5倍。  
2024-09-10 ExIQA: Explainable Image Quality Assessment Using Distortion Attributes null 盲图像质量评估 (BIQA) 旨在开发无需参考图像即可估计图像质量分数的方法。在本文中,我们从失真识别角度探讨 BIQA,主要目标是利用视觉语言模型 (VLM)(如 CLIP)预测失真类型和强度,因为它们具有广泛的知识和泛化能力。基于这些预测的失真,我们然后估计图像的质量分数。为此,我们提出了一种基于属性学习的可解释失真识别方法。我们没有使用失真名称提示 VLM,而是使用失真的属性或影响提示它们,并汇总这些信息以推断失真强度。此外,我们为每张图像考虑了多种失真,使我们的方法更具可扩展性。为此,我们生成了一个包含 100,000 张图像的数据集,用于高效训练。最后,检索属性概率并将其输入回归器以预测图像质量分数。结果表明,我们的方法除了具有可解释性和透明度外,还在多个数据集的 PLCC 和 SRCC 指标上均达到了最先进 (SOTA) 的性能。此外,零样本结果证明了该方法的泛化能力。  
2024-09-10 MAGDA: Multi-agent guideline-driven diagnostic assistance null 在急诊科、乡村医院或欠发达地区的诊所,临床医生往往缺乏训练有素的放射科医生进行快速图像分析,这可能对患者的医疗保健产生不利影响。大型语言模型 (LLM) 有可能通过提供有助于临床医生做出决策的见解,从而减轻他们的一些压力。虽然这些 LLM 在医学考试中取得了很高的测试成绩,展示了其丰富的理论医学知识,但它们往往不遵循医学指南。在这项工作中,我们介绍了一种新的零样本指南驱动决策支持方法。我们模拟了一个由多个 LLM 代理组成的系统,该系统增强了对比视觉语言模型,这些代理协作以达成患者诊断。在向代理提供简单的诊断指南后,他们将根据这些指南合成提示并筛选图像以查找结果。最后,他们为自己的诊断提供易于理解的思维链推理,然后对其进行自我完善,以考虑疾病之间的相互依赖性。由于我们的方法是零样本的,因此它适用于罕见疾病的设置,在这些情况下,训练数据有限,但可以使用专家制定的疾病描述。我们在两个胸部 X 光数据集 CheXpert 和 ChestX-ray 14 Longtail 上评估了我们的方法,展示了其相对于现有零样本方法的性能改进以及对罕见疾病的泛化能力。  
2024-09-10 INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding null 可供性是指物体固有的潜在交互方式。对可供性的感知可以让智能体高效地在新环境中导航和交互。弱监督可供性基础可以让智能体在没有昂贵的像素级标注的情况下学习可供性的概念,但需要使用以环境为中心的图像。尽管弱监督可供性基础的最新进展已经取得了可喜的成果,但仍然存在一些挑战,例如需要配对的以环境为中心和以自我为中心的图像数据集,以及为单个物体基础多种可供性的复杂性。为了解决这些问题,我们提出了交互关系感知的弱监督可供性基础 (INTRA)。与现有技术不同,INTRA 将这个问题重新定义为表征学习,通过仅使用以环境为中心的图像进行对比学习来识别交互的独特特征,从而消除了对配对数据集的需求。此外,我们利用视觉语言模型嵌入来灵活地使用任何文本进行可供性基础,设计了以文本为条件的可供性映射生成,以反映交互关系以进行对比学习,并通过我们的文本同义词增强来增强鲁棒性。我们的方法在 AGD20K、IIT-AFF、CAD 和 UMD 等不同的数据集上优于现有技术。此外,实验结果表明,我们的方法对合成图像/插图具有显著的领域可扩展性,并且能够对新的交互和物体进行可供性基础。  
2024-09-10 Revisiting Prompt Pretraining of Vision-Language Models null 提示学习是一种有效的定制视觉语言模型 (VLM) 以适应各种下游任务的方法,它仅需微调输入提示词符的少量参数。近年来,在大规模数据集(例如 ImageNet-21K)上进行提示预训练已成为通用视觉识别提示学习的关键。然而,我们重新审视并观察到,在提示预训练期间,鉴于图像数量庞大,有限的可学习提示可能会面临欠拟合的风险,同时导致泛化能力较差。为了解决上述问题,本文提出了一种名为“重新审视提示预训练”(RPP)的通用框架,旨在从提示结构和提示监督两个方面提高拟合和泛化能力。对于提示结构,我们打破了查询、键和值向量均来自共享的可学习提示词符的常见做法的限制。相反,我们引入了非共享的独立查询、键和值可学习提示,从而通过增加参数多样性来增强模型的拟合能力。对于提示监督,我们还利用了由预训练的对比语言图像预训练 (CLIP) 教师模型提供的零样本概率预测得到的软标签。这些软标签可以更细致、更全面地洞察类间关系,从而赋予预训练过程更好的泛化能力。RPP 产生更稳健的提示初始化,增强其在各种视觉识别任务中的鲁棒迁移能力。跨多个基准的实验一致证实了我们预训练提示的最新性能。代码和模型将很快发布。  
2024-09-09 PEERNet: An End-to-End Profiling Tool for Real-Time Networked Robotic Systems link 网络机器人系统在自动驾驶汽车、无人机群和远程手术等应用中需要平衡计算、功耗和延迟约束。该领域的核心问题是何时将计算量大的任务卸载到云端(远程服务器)以换取通信延迟。任务卸载算法通常依赖于对系统特定性能指标的精确了解,例如传感器数据速率、网络带宽和机器学习模型延迟。虽然这些指标可以在系统设计期间进行建模,但连接质量、服务器负载和硬件条件的不确定性会导致实时性能变化,从而影响整体性能。我们推出了 PEERNet,这是一种用于云机器人的端到端实时分析工具。PEERNet 通过对传感器、网络、深度学习管道和设备等系统组件进行有针对性但自适应的分析,从而能够在异构硬件上进行性能监控。我们通过网络机器人任务展示了 PEERNet 的功能,例如基于图像的 Franka Emika Panda 机械臂远程操作和使用 Nvidia Jetson Orin 查询视觉语言模型。PEERNet 揭示了机器人系统中非直观的的行为,例如非对称网络传输和双峰语言模型输出。我们的评估强调了网络机器人中基准测试的有效性和重要性,证明了 PEERNet 的适应性。我们的代码是开源的,可在 github.com/UTAustin-SwarmLab/PEERNet 获取。  
2024-09-07 Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries null 在药物发现领域,DNA 编码化合物库 (DEL) 筛选技术已成为识别高亲和力化合物的有效方法。然而,DEL 筛选面临着一个重大挑战:复杂生物系统中非特异性相互作用产生的噪声。在 DEL 库上训练的神经网络已被用于提取化合物特征,旨在对数据进行去噪并发现潜在的治疗靶点结合剂。然而,DEL 的固有结构受限于结构单元的有限多样性,这影响了化合物编码器的性能。此外,现有方法仅在单一级别捕获化合物特征,进一步限制了去噪策略的有效性。为了缓解这些问题,我们提出了一种多模态预训练 DEL-Fusion 模型 (MPDF),该模型通过预训练增强编码器能力,并在不同尺度上整合化合物特征。我们开发了在不同化合物表示及其文本描述之间应用对比目标的预训练任务,增强了化合物编码器获取通用特征的能力。此外,我们提出了一种新颖的 DEL-fusion 框架,该框架融合了原子、亚分子和分子水平的化合物信息,这些信息由各种化合物编码器捕获。这些创新的协同作用使 MPDF 具备丰富的多尺度特征,从而实现全面的下游去噪。在三个 DEL 数据集上进行的评估表明,MPDF 在验证任务的数据处理和分析方面表现出优异的性能。值得注意的是,MPDF 为识别高亲和力分子提供了新的见解,为改进 DEL 在药物发现中的应用铺平了道路。  
2024-09-09 DexDiff: Towards Extrinsic Dexterity Manipulation of Ungraspable Objects in Unrestricted Environments null 抓取又大又平的物体(例如书或平底锅)通常被认为是一项无法完成的任务,因为抓取姿势无法企及,这带来了重大挑战。以前的工作利用墙壁或桌子边缘等外部灵活性来抓取此类物体。然而,它们仅限于特定于任务的策略,并且缺乏寻找预抓取条件的任务规划。这使得适应各种环境和外部灵活性约束变得困难。因此,我们提出了 DexDiff,一种用于具有外部灵活性的长视野规划的稳健机器人操作方法。具体来说,我们利用视觉语言模型 (VLM) 来感知环境状态并生成高级任务计划,然后使用目标条件动作扩散 (GCAD) 模型来预测低级动作序列。该模型从离线数据中学习低级策略,并将高级规划引导的累积奖励作为目标条件,从而可以改进对机器人动作的预测。实验结果表明,我们的方法不仅可以有效地执行无法完成的任务,而且可以泛化到以前从未见过的物体。它在模拟中的成功率比基线高 47%,并有助于在现实场景中高效部署和操作。  
2024-09-08 PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions link 大型视觉语言模型 (LVLM) 已经展示出强大的多模态能力。然而,它们也面临着严重的安全问题,因为攻击者可以通过精心设计的对抗样本在 LVLM 中引发鲁棒性问题。因此,LVLM 迫切需要针对对抗样本的检测工具,以防止出现错误响应。在这项工作中,我们首先发现,当使用探测问题时,LVLM 对干净图像表现出规律的注意力模式。我们提出了一种名为 PIP 的非常规方法,它利用一个随机选择的无关探测问题(例如,“有钟表吗?”)的注意力模式来区分对抗样本和干净样本。无论待测图像及其对应的问题是什么,PIP 只需要对待测图像和探测问题进行一次额外的推理,即可成功检测对抗样本。即使在黑盒攻击和开放数据集场景下,我们的 PIP 与简单的 SVM 相结合,仍然可以实现超过 98% 的召回率和超过 90% 的精确率。我们的 PIP 是首次尝试通过简单的无关探测问题来检测针对 LVLM 的对抗攻击,为更深入地理解和反思 LVLM 提供了思路。代码可在 https://github.com/btzyd/pip 获取。  
2024-09-07 POINTS: Improving Your Vision-language Model with Affordable Strategies null 近年来,视觉语言模型取得了重大进展,在光学字符识别和几何问题解决等任务中表现出色。然而,仍然存在几个关键问题:1)专有模型的架构往往缺乏透明度,而开源模型需要对其训练策略进行更详细的消融研究。2)开源工作中的预训练数据尚未得到充分探索,数据集是根据经验添加的,这使得过程变得繁琐。3)微调通常侧重于添加数据集,导致收益递减。为了解决这些问题,我们提出以下贡献:1)我们使用视觉语言模型的最新进展训练了一个强大的基线模型,引入了有效的改进,并对每种技术进行了全面的消融和验证。2)受近期大型语言模型工作的启发,我们使用困惑度对预训练数据进行过滤,选择困惑度最低的数据进行训练。这种方法使我们能够在精选的 1M 数据集上进行训练,并取得了具有竞争力的性能。3)在视觉指令微调期间,当添加更多数据集的收益微乎其微时,我们对不同数据集使用了模型融合。这些创新产生了一个 9B 参数的模型,其性能与最先进的模型相比具有竞争力。我们的策略高效且轻量级,因此社区很容易采用。  
2024-09-07 Enhancing Outlier Knowledge for Few-Shot Out-of-Distribution Detection with Extensible Local Prompts null 分布外 (OOD) 检测旨在区分已知类别之外的异常值,在实际场景中已变得越来越重要。近年来,视觉语言模型 (VLM) 的出现激发了人们对通过少量样本微调来增强 VLM 的 OOD 检测的兴趣。然而,现有方法主要侧重于优化全局提示,而忽略了对异常值的局部信息的精细利用。基于此,我们冻结全局提示,并引入了一种新颖的从粗到精的微调范式,以强调使用局部提示进行区域增强。我们的方法包括两个组成部分:全局提示引导的负增强和局部提示增强的区域正则化。前者利用冻结的、粗略的全局提示作为指导线索来合并负增强,从而利用局部异常值知识。后者采用可训练的局部提示和区域正则化来有效地捕获局部信息,从而帮助识别异常值。我们还提出了区域相关指标,以增强 OOD 检测的丰富性。此外,由于我们的方法仅探索增强局部提示,因此可以在推理过程中与训练好的全局提示无缝集成,以提高性能。综合实验结果证明了我们方法的有效性和潜力。值得注意的是,在 ImageNet-1k 数据集上进行的 4 次样本微调中,我们的方法相对于最先进的方法将平均 FPR95 降低了 5.17%,甚至优于先前方法的 16 次样本微调结果。  
2024-09-06 COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes null 虽然视觉问答 (VQA) 基准测试推动了推理技术的发展,但它们一直专注于垂直思维。有效的解决问题还需要横向思维,而横向思维在人工智能领域仍未得到充分研究,也没有用于测试视觉感知系统。为了弥合这一差距,我们将视觉横向思维形式化为一个多项选择题问答任务,并描述了一个由分类法驱动的三步法来实例化任务示例。然后,我们开发了 COLUMBUS,这是一个合成基准测试,它应用任务管道,根据公开可用的化合物和常用短语集合,创建带有文本和图标字谜的 QA 集。COLUMBUS 包含超过 1,000 个谜题,每个谜题有四个候选答案。虽然最先进的视觉语言模型 (VLM) 取得了不错的性能,但我们的评估表明人类和模型之间存在巨大差距。VLM 受益于人工策划的描述,但在正确的抽象级别上难以自行生成此类表示。  
2024-09-06 Generating Faithful and Salient Text from Multimodal Data link 虽然大型多模态模型 (LMM) 在许多多模态任务中取得了良好的性能,但它们在生成文本时仍可能会出现幻觉。它们在从视觉数据中检测显著特征方面的性能也不清楚。在本文中,我们开发了一个框架,用于从混合模态数据(包括图像和结构化数据(以知识图谱或表格表示))生成忠实且显著的文本。具体来说,我们训练了一个小型视觉评论家模型,用于从图像模态中识别幻觉和非显著特征。评论家模型还会生成显著图像特征列表。此信息用于后期编辑步骤,以提高生成质量。在两个数据集上的实验表明,我们的框架提高了 LMM 在忠实度和显著性方面的生成质量,优于最近旨在减少幻觉的技术。  
2024-09-05 Few-shot Adaptation of Medical Vision-Language Models link Integrating image and text data through multi-modal learning has emerged as a new approach in medical imaging research, following its successful deployment in computer vision. While considerable efforts have been dedicated to establishing medical foundation models and their zero-shot transfer to downstream tasks, the popular few-shot setting remains relatively unexplored. Following on from the currently strong emergence of this setting in computer vision, we introduce the first structured benchmark for adapting medical vision-language models (VLMs) in a strict few-shot regime and investigate various adaptation strategies commonly used in the context of natural images. Furthermore, we evaluate a simple generalization of the linear-probe adaptation baseline, which seeks an optimal blending of the visual prototypes and text embeddings via learnable class-wise multipliers. Surprisingly, such a text-informed linear probe yields competitive performances in comparison to convoluted prompt-learning and adapter-based strategies, while running considerably faster and accommodating the black-box setting. Our extensive experiments span three different medical modalities and specialized foundation models, nine downstream tasks, and several state-of-the-art few-shot adaptation methods. We made our benchmark and code publicly available to trigger further developments in this emergent subject: \url{https://github.com/FereshteShakeri/few-shot-MedVLMs}.  
2024-09-05 Have Large Vision-Language Models Mastered Art History? null The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.  
2024-09-04 Can LVLMs Obtain a Driver’s License? A Benchmark Towards Reliable AGI for Autonomous Driving null Large Vision-Language Models (LVLMs) have recently garnered significant attention, with many efforts aimed at harnessing their general knowledge to enhance the interpretability and robustness of autonomous driving models. However, LVLMs typically rely on large, general-purpose datasets and lack the specialized expertise required for professional and safe driving. Existing vision-language driving datasets focus primarily on scene understanding and decision-making, without providing explicit guidance on traffic rules and driving skills, which are critical aspects directly related to driving safety. To bridge this gap, we propose IDKB, a large-scale dataset containing over one million data items collected from various countries, including driving handbooks, theory test data, and simulated road test data. Much like the process of obtaining a driver’s license, IDKB encompasses nearly all the explicit knowledge needed for driving from theory to practice. In particular, we conducted comprehensive tests on 15 LVLMs using IDKB to assess their reliability in the context of autonomous driving and provided extensive analysis. We also fine-tuned popular models, achieving notable performance improvements, which further validate the significance of our dataset. The project page can be found at: \url{https://4dvlab.github.io/project_page/idkb.html}  
2024-09-04 Benchmarking Spurious Bias in Few-Shot Image Classifiers link Few-shot image classifiers are designed to recognize and classify new data with minimal supervision and limited data but often show reliance on spurious correlations between classes and spurious attributes, known as spurious bias. Spurious correlations commonly hold in certain samples and few-shot classifiers can suffer from spurious bias induced from them. There is an absence of an automatic benchmarking system to assess the robustness of few-shot classifiers against spurious bias. In this paper, we propose a systematic and rigorous benchmark framework, termed FewSTAB, to fairly demonstrate and quantify varied degrees of robustness of few-shot classifiers to spurious bias. FewSTAB creates few-shot evaluation tasks with biased attributes so that using them for predictions can demonstrate poor performance. To construct these tasks, we propose attribute-based sample selection strategies based on a pre-trained vision-language model, eliminating the need for manual dataset curation. This allows FewSTAB to automatically benchmark spurious bias using any existing test data. FewSTAB offers evaluation results in a new dimension along with a new design guideline for building robust classifiers. Moreover, it can benchmark spurious bias in varied degrees and enable designs for varied degrees of robustness. Its effectiveness is demonstrated through experiments on ten few-shot learning methods across three datasets. We hope our framework can inspire new designs of robust few-shot classifiers. Our code is available at https://github.com/gtzheng/FewSTAB.  
2024-09-06 CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models link Large language models (LLMs) have obtained promising results in mathematical reasoning, which is a foundational skill for human intelligence. Most previous studies focus on improving and measuring the performance of LLMs based on textual math reasoning datasets (e.g., MATH, GSM8K). Recently, a few researchers have released English multimodal math datasets (e.g., MATHVISTA and MATH-V) to evaluate the effectiveness of large multimodal models (LMMs). In this paper, we release a Chinese multimodal math (CMM-Math) dataset, including benchmark and training parts, to evaluate and enhance the mathematical reasoning of LMMs. CMM-Math contains over 28,000 high-quality samples, featuring a variety of problem types (e.g., multiple-choice, fill-in-the-blank, and so on) with detailed solutions across 12 grade levels from elementary to high school in China. Specifically, the visual context may be present in the questions or opinions, which makes this dataset more challenging. Through comprehensive analysis, we discover that state-of-the-art LMMs on the CMM-Math dataset face challenges, emphasizing the necessity for further improvements in LMM development. We also propose a Multimodal Mathematical LMM (Math-LMM) to handle the problems with mixed input of multiple images and text segments. We train our model using three stages, including foundational pre-training, foundational fine-tuning, and mathematical fine-tuning. The extensive experiments indicate that our model effectively improves math reasoning performance by comparing it with the SOTA LMMs over three multimodal mathematical datasets.  
2024-09-04 MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark null This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models’ true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly “see” and “read” simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.  
2024-09-04 Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection null The proliferation of deepfake faces poses huge potential negative impacts on our daily lives. Despite substantial advancements in deepfake detection over these years, the generalizability of existing methods against forgeries from unseen datasets or created by emerging generative models remains constrained. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach that repurposes a well-trained VLM for general deepfake detection. Motivated by the model reprogramming paradigm that manipulates the model prediction via data perturbations, our method can reprogram a pretrained VLM model (e.g., CLIP) solely based on manipulating its input without tuning the inner parameters. Furthermore, we insert a pseudo-word guided by facial identity into the text prompt. Extensive experiments on several popular benchmarks demonstrate that (1) the cross-dataset and cross-manipulation performances of deepfake detection can be significantly and consistently improved (e.g., over 88% AUC in cross-dataset setting from FF++ to WildDeepfake) using a pre-trained CLIP model with our proposed reprogramming method; (2) our superior performances are at less cost of trainable parameters, making it a promising approach for real-world applications.  
2024-09-04 Understanding eGFR Trajectories and Kidney Function Decline via Large Multimodal Models null The estimated Glomerular Filtration Rate (eGFR) is an essential indicator of kidney function in clinical practice. Although traditional equations and Machine Learning (ML) models using clinical and laboratory data can estimate eGFR, accurately predicting future eGFR levels remains a significant challenge for nephrologists and ML researchers. Recent advances demonstrate that Large Language Models (LLMs) and Large Multimodal Models (LMMs) can serve as robust foundation models for diverse applications. This study investigates the potential of LMMs to predict future eGFR levels with a dataset consisting of laboratory and clinical values from 50 patients. By integrating various prompting techniques and ensembles of LMMs, our findings suggest that these models, when combined with precise prompts and visual representations of eGFR trajectories, offer predictive performance comparable to existing ML models. This research extends the application of foundation models and suggests avenues for future studies to harness these models in addressing complex medical forecasting challenges.  
2024-09-03 Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems null 近年来,视觉语言模型(VLM)的最新发展显示出其在图像理解相关应用方面的巨大潜力。在本研究中,我们探索了最先进的VLM模型在基于视觉的交通工程任务中的应用,例如图像分类和目标检测。图像分类任务包括拥堵检测和裂缝识别,而目标检测任务则用于识别未佩戴头盔的行为。我们应用了CLIP、BLIP、OWL-ViT、Llava-Next等开源模型和闭源模型GPT-4o,评估了这些最先进的VLM模型的性能,以利用语言理解能力来完成基于视觉的交通任务。这些任务是通过对VLM模型应用零样本提示来执行的,因为零样本提示允许在不对任务进行任何训练的情况下执行任务。它消除了对特定任务进行标注数据集或微调的需求。虽然这些模型在图像分类任务中取得了与基准卷积神经网络(CNN)模型相当的结果,但在目标定位任务中仍有改进的空间。因此,本研究对最先进的VLM模型进行了全面评估,突出了这些模型的优势和局限性,可以作为未来改进和大规模实施的基线。  
2024-09-03 How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? link 大型基础模型彻底改变了该领域,但针对特定视觉任务优化多模态模型仍然存在挑战。我们提出了一种新颖且通用的方法,通过测量不同输入提示下输出的一致性,来确定黑盒视觉语言模型 (VLM) 的首选图像分布。我们将其应用于 3D 对象的不同渲染类型,证明了其在需要精确解释复杂结构的各个领域的有效性,重点关注计算机辅助设计 (CAD) 作为示例领域。我们使用人类反馈的上下文学习进一步完善了 VLM 输出,显著提高了解释质量。为了解决专业领域缺乏基准的问题,我们引入了 CAD-VQA,这是一个用于评估 VLM 在 CAD 相关视觉问答任务上的新数据集。我们对 CAD-VQA 上最先进的 VLM 进行了评估,建立了基线性能水平,为在需要专家级视觉解释的各个领域推进 VLM 在复杂视觉推理任务中的能力提供了一个框架。我们在 \url{https://github.com/asgsaeid/cad_vqa} 上发布了数据集和评估代码。  
2024-09-03 Towards Real-World Adverse Weather Image Restoration: Enhancing Clearness and Semantics with Vision-Language Models link 本文探讨了在合成数据上训练的恶劣天气图像恢复方法应用于现实场景时的局限性。我们构建了一个半监督学习框架,利用视觉语言模型来增强现实环境中不同恶劣天气条件下的恢复性能。我们的方法包括使用视觉语言模型对真实数据进行图像清晰度评估和语义提供,作为训练恢复模型的监督信号。对于清晰度增强,我们使用真实数据,采用双重策略,即利用视觉语言模型评估的伪标签和天气提示学习。对于语义增强,我们通过调整视觉语言模型描述中的天气条件,同时保留语义,来整合真实世界的数据。此外,我们引入了一种有效的训练策略来提升恢复性能。我们的方法在真实世界的恶劣天气图像恢复方面取得了优异的结果,通过与现有最佳工作的定性和定量比较证明了这一点。  
2024-09-03 GraspSplats: Efficient Manipulation with 3D Feature Splatting null The ability for robots to perform efficient and zero-shot grasping of object parts is crucial for practical applications and is becoming prevalent with recent advances in Vision-Language Models (VLMs). To bridge the 2D-to-3D gap for representations to support such a capability, existing methods rely on neural fields (NeRFs) via differentiable rendering or point-based projection methods. However, we demonstrate that NeRFs are inappropriate for scene changes due to their implicitness and point-based methods are inaccurate for part localization without rendering-based optimization. To amend these issues, we propose GraspSplats. Using depth supervision and a novel reference feature computation method, GraspSplats generates high-quality scene representations in under 60 seconds. We further validate the advantages of Gaussian-based representation by showing that the explicit and optimized geometry in GraspSplats is sufficient to natively support (1) real-time grasp sampling and (2) dynamic and articulated object manipulation with point trackers. With extensive experiments on a Franka robot, we demonstrate that GraspSplats significantly outperforms existing methods under diverse task settings. In particular, GraspSplats outperforms NeRF-based methods like F3RM and LERF-TOGO, and 2D detection methods.  

(<a href=#updated-on-20241204>back to top</a>)

6DOF Object Pose

Publish Date Title Code Abstract  
2024-12-02 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting null 高效且准确的目标姿态估计是许多应用(例如增强现实、自动驾驶和机器人技术)中现代视觉系统的关键组成部分。虽然基于模型的 6D 目标姿态估计研究已取得令人满意的结果,但无模型方法仍受限于实时 RGB-D 视频流中渲染和推断任意目标一致姿态的高计算负荷。为了解决这个问题,我们提出了 6DOPE-GS,这是一种利用高斯渲染(Gaussian Splatting)的最新进展,通过单个 RGB-D 相机进行在线 6D 目标姿态估计和跟踪的新方法。得益于高斯渲染的快速可微渲染能力,6DOPE-GS 可以同时优化 6D 目标姿态和 3D 目标重建。为了实现实时跟踪所需的效率和精度,我们的方法使用带有智能动态关键帧选择程序的增量 2D 高斯渲染,以实现高空间目标覆盖率并防止错误的姿态更新。我们还提出了一种基于不透明度统计的剪枝机制,用于自适应高斯密度控制,以确保训练的稳定性和效率。我们在 HO3D 和 YCBInEOAT 数据集上评估了我们的方法,并表明 6DOPE-GS 在无模型同步 6D 姿态跟踪和重建方面与最先进的基线性能相当,同时提供了 5 倍的加速。我们还在真实场景中演示了该方法对实时动态目标跟踪和重建的适用性。  
2024-12-01 Particle-based 6D Object Pose Estimation from Point Clouds using Diffusion Models link 从单一视角进行物体姿态估计仍然是一个具有挑战性的问题。特别是部分可观察性、遮挡和物体对称性最终会导致姿态模糊。为了解决这种多模态问题,本工作提出训练一个基于扩散的生成模型用于6D物体姿态估计。在推理过程中,训练好的生成模型允许对多个粒子(即姿态假设)进行采样。为了将这些信息提炼成单一的姿态估计,我们提出了两种新颖且有效的姿态选择策略,它们不需要任何额外的训练或计算密集型操作。此外,虽然许多现有的姿态估计方法主要关注图像域,并且仅将深度信息用于最终的姿态细化,但我们的模型仅对点云数据进行操作。因此,该模型利用了点云处理的最新进展,并在一个SE(3)等变的潜在空间上运行,该空间构成了粒子选择策略的基础,并缩短了推理时间。我们详尽的实验结果证明了我们的方法在Linemod数据集上的竞争性能,并展示了我们设计选择的有效性。代码可在https://github.com/zitronian/6DPoseDiffusion 获取。  
2024-11-25 UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image null 未见物体姿态估计方法通常依赖于CAD模型或多个参考视图,这使得引入阶段成本高昂。为了简化参考获取,我们的目标是通过单个未姿态的RGB-D参考图像来估计未见物体的姿态。虽然先前的工作利用参考图像作为姿态锚点来限制相对姿态的范围,但我们的场景提出了重大挑战,因为相对变换可能在整个SE(3)空间中变化。此外,遮挡、传感器噪声和极端几何形状等因素可能导致视点重叠率低。为了应对这些挑战,我们提出了一种新的方法和基准测试,称为UNOPose,用于基于单个参考的未见物体姿态估计。基于由粗到精的范式,UNOPose构建了一个SE(3)不变的参考框架,以在姿态和大小变化的情况下标准化物体表示。为了缓解视点之间的小重叠,我们根据每个对应关系预测的位于重叠区域内的可能性重新校准其权重。在我们提出的基于BOP挑战赛的基准测试中进行评估,UNOPose展现了优越的性能,在单参考设置下显著优于传统方法和基于学习的方法,并且与基于CAD模型的方法保持竞争力。代码和数据集将公开发布。  
2024-11-24 Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching link 本文提出了一种新的可泛化的物体姿态估计方法,仅使用一张RGB图像即可确定物体姿态。与依赖于实例级物体姿态估计且需要大量训练数据的传统方法不同,我们的方法无需大量训练即可泛化到未见过的物体,仅需一张物体的参考图像,并且无需3D物体模型或物体的多个视图。这些特性是通过利用扩散模型生成新视角图像并在这些生成的图像上进行双边匹配来实现的。定量实验表明,在合成数据集和真实数据集上,我们的方法均优于现有的姿态估计技术。值得注意的是,即使在视角变化很大的场景中,我们的方法仍能保持强大的性能,突出了其在挑战性条件下的鲁棒性和多功能性。代码将在https://github.com/scy639/Gen2SM发布。  
2024-11-21 SEMPose: A Single End-to-end Network for Multi-object Pose Estimation null 在计算机视觉领域,从RGB图像估计六自由度姿态是一个基本任务。然而,在多目标场景中,这项任务变得极具挑战性。目前,最好的方法通常采用间接策略,即识别2D和3D对应关系,然后使用PnP(Perspective-n-Points)方法求解。然而,这种方法无法进行端到端训练。另一方面,直接方法由于物体大小变化和遮挡等挑战,精度较低。为了解决这些问题,我们提出了SEMPose,一个端到端的多个物体姿态估计网络。SEMPose利用精心设计的纹理形状引导特征金字塔网络,有效地解决了物体尺寸变化的挑战。此外,它采用迭代细化头部结构,逐步分别回归旋转和平移,以提高估计精度。在训练过程中,我们通过从可见部分选择正样本来减轻遮挡的影响。实验结果表明,SEMPose可以在32 FPS的速度下进行推理,而无需RGB图像以外的输入。它可以实时准确地估计多个物体的姿态,推理时间不受目标物体数量的影响。在LM-O和YCB-V数据集上,我们的方法优于其他基于RGB的单模型方法,实现了更高的精度。即使与多模型方法和使用额外细化的方法相比,我们的结果仍然具有竞争力。  
2024-11-08 DeepArUco++: Improved detection of square fiducial markers in challenging lighting conditions link 基准标记是用于物体姿态估计和检测的计算机视觉工具。这些标记在工业、医疗和物流等领域非常有用。然而,最佳照明条件并非总是可用,并且其他因素(例如模糊或传感器噪声)会影响图像质量。精确定位和解码基准标记的经典计算机视觉技术在困难的照明条件下(例如,同一帧内光照的极端变化)通常会失效。因此,我们提出了 DeepArUco++,这是一个基于深度学习的框架,它利用卷积神经网络的鲁棒性在挑战性照明条件下执行标记检测和解码。该框架基于一个在每个步骤中使用不同神经网络模型的流水线,即标记检测、角点细化和标记解码。此外,我们提出了一种简单的方法来生成用于训练构成所提出流水线的不同模型的合成数据,并且我们提出了第二个在挑战性照明条件下的 ArUco 标记的真实数据集,用于评估我们的系统。所开发的方法在此类任务中优于其他最先进的方法,即使在用于开发这些方法的数据集上进行测试时也保持竞争力。代码可在 GitHub 上获得:https://github.com/AVAuco/deeparuco/  
2024-10-08 AIVIO: Closed-loop, Object-relative Navigation of UAVs with AI-aided Visual Inertial Odometry null 面向对象的移动机器人导航对于各种任务至关重要,例如自主关键基础设施检查,但这需要从原始传感器数据中提取有关感兴趣对象的语义信息的能力。虽然基于深度学习 (DL) 的方法擅长从图像中推断语义对象信息,例如类别和相对六自由度 (6-DoF) 位姿,但它们的计算要求很高,因此通常不适合有效载荷受限的移动机器人。在这篇短文中,我们提出了一种实时无人机 (UAV) 系统,用于对象相关的闭环导航,该系统采用最少的传感器配置,包括惯性测量单元 (IMU) 和 RGB 摄像头。利用仅在合成数据上训练并针对伴侣板部署进行优化的基于深度学习的对象位姿估计器,将对象相关位姿测量值与 IMU 数据融合以执行对象相关定位。我们进行了多项真实世界的实验,以验证我们的系统在电线杆检查这一具有挑战性的用例中的性能。补充视频中展示了一个闭环飞行的示例。  
2024-09-24 LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation link 虽然基于RGBD的类别级物体姿态估计方法很有前景,但它们对深度数据的依赖限制了其在不同场景中的适用性。因此,最近的研究转向了基于RGB的方法;然而,由于缺乏深度信息,它们面临着巨大的挑战。一方面,深度信息的缺失加剧了处理类内形状变化的难度,导致形状预测的不确定性增加。另一方面,仅RGB输入引入了固有的尺度模糊性,使得物体大小和位移的估计成为一个不适定问题。为了应对这些挑战,我们提出了LaPose,一个用拉普拉斯混合模型建模物体形状进行姿态估计的新框架。通过将每个点表示为概率分布,我们显式地量化了形状的不确定性。LaPose利用一个广义3D信息流和一个专门的特征流来独立预测每个点的拉普拉斯分布,从而捕捉物体几何形状的不同方面。然后,这两个分布被整合为一个拉普拉斯混合模型,以建立2D-3D对应关系,并利用这些对应关系通过PnP模块求解姿态。为了减轻尺度模糊性,我们引入了一种与尺度无关的物体大小和位移表示方法,从而提高了训练效率和整体鲁棒性。在NOCS数据集上的大量实验验证了LaPose的有效性,在基于RGB的类别级物体姿态估计中取得了最先进的性能。代码已发布在https://github.com/lolrudy/LaPose  
2024-09-22 Tactile Functasets: Neural Implicit Representations of Tactile Datasets null 现代触觉传感器的各种形式会产生高维原始感官反馈,例如图像,这使得高效存储、处理和跨传感器泛化变得困难。为了解决这些问题,我们引入了一种新的隐函数表示法来表示触觉传感器反馈。我们没有直接使用原始触觉图像,而是提出了经过训练以重建触觉数据集的神经隐函数,从而生成紧凑的表示来捕捉感官输入的底层结构。这些表示法相比原始数据具有多种优势:它们紧凑,支持概率可解释的推理,并促进跨不同传感器的泛化。我们展示了这种表示法在下游手持物体姿态估计任务中的有效性,实现了比基于图像的方法更好的性能,同时简化了下游模型。我们在https://www.mmintlab.com/tactile-functasets发布了代码、演示和数据集。  
2024-09-18 FAST GDRNPP: Improving the Speed of State-of-the-Art 6D Object Pose Estimation null 6D物体姿态估计涉及确定场景中物体相对于所选坐标系的三维平移和旋转。这个问题在许多工业任务的实际应用中尤其重要,例如质量控制、零件拾取和机器人操作,在这些应用中,速度和精度对于实际部署都至关重要。当前的模型,包括经典模型和基于深度学习的模型,通常难以在精度和延迟之间取得平衡。我们的研究重点是在保持其高精度的同时,提高最先进的深度学习模型GDRNPP的速度。我们采用多种技术来减小模型大小并缩短推理时间。这些技术包括使用更小、更快的骨干网络、剪枝不必要的参数以及通过蒸馏将知识从大型高性能模型迁移到更小、更高效的学生模型。我们的研究结果表明,所提出的配置在显著缩短推理时间的同时,保持了与最先进模型相当的精度。这一进步可以促使在各种工业场景中实现更高效和实用的应用,从而提高6D物体姿态估计模型在实际环境中的整体适用性。  
2024-09-12 Touch2Touch: Cross-Modal Tactile Generation for Object Manipulation null 现今的触摸传感器种类繁多,形状各异。由于模型通常与特定的传感器设计绑定,这给开发通用触摸处理方法带来了挑战。我们通过在触摸传感器之间进行跨模态预测来解决这个问题:给定一个传感器的触觉信号,我们使用生成模型来估计另一个传感器如何感知相同的物理接触。这允许我们将特定于传感器的处理方法应用于生成的信号。我们通过训练一个扩散模型来实现这个想法,该模型可以在流行的 GelSlim 和 Soft Bubble 传感器之间进行转换。作为一个下游任务,我们使用 GelSlim 传感器进行手持物体姿态估计,同时使用一种仅对 Soft Bubble 信号进行操作的算法。数据集、代码和更多详细信息可以在 https://www.mmintlab.com/research/touch2touch/ 找到。  
2024-09-04 Object Gaussian for Monocular 6D Pose Estimation from Sparse Views null 单目物体姿态估计作为计算机视觉和机器人技术中的一项关键任务,高度依赖于精确的2D-3D对应关系,而这通常需要昂贵的CAD模型,这些模型可能并不容易获得。物体三维重建方法提供了一种替代方案,其中最近3D高斯 splatting (3DGS) 的进展提供了一种引人注目的潜力。然而,它的性能仍然存在不足,并且在输入视图较少的情况下容易过拟合。为了应对这一挑战,我们引入了SGPose,这是一个使用基于高斯方法的稀疏视图物体姿态估计的新框架。只需十个视图,SGPose 就可以通过从随机长方体初始化开始生成几何感知表示,从而避免依赖传统3DGS方法所需的基于运动恢复结构 (SfM) 流程的几何形状。SGPose 通过回归稀疏输入和随机初始化的图像和重建模型之间的密集2D-3D对应关系,消除了对CAD模型的依赖,而几何一致性深度监督和在线合成视图扭曲是成功的关键。在典型基准数据集,尤其是在Occlusion LM-O数据集上的实验表明,即使在稀疏视图限制下,SGPose 的性能也优于现有方法,这凸显了其在实际应用中的潜力。  
2024-08-29 OP-Align: Object-level and Part-level Alignment for Self-supervised Category-level Articulated Object Pose Estimation link 类别级铰接物体姿态估计专注于对已知类别中未知铰接物体的姿态估计。尽管意义重大,但由于物体的形状和姿态各不相同、数据集标注成本高昂以及复杂的现实环境,这项任务仍然具有挑战性。在本文中,我们提出了一种新的自监督方法,利用单帧点云来解决这个问题。我们的模型一致地生成具有规范姿态和关节状态的完整输入物体重建,并估计物体级姿态(减少整体姿态方差)和部件级姿态(将输入的每个部件与其对应的重建部件对齐)。实验结果表明,我们的方法显著优于以往的自监督方法,并且与最先进的监督方法相当。为了评估我们的模型在真实场景中的性能,我们还引入了一个新的真实世界铰接物体基准数据集。  
2024-08-19 RUMI: Rummaging Using Mutual Information null 本文提出了一种名为基于互信息的翻找方法(RUMI),用于在线生成机器人在视觉遮挡环境中收集已知可移动物体姿态信息的动作序列。该方法专注于富接触翻找,利用物体姿态分布和机器人轨迹之间的互信息进行动作规划。RUMI从观测到的部分点云推断出兼容的物体姿态分布,并实时计算其与工作空间占有率的互信息近似值。基于此,我们开发了信息增益成本函数和可达性成本函数,以保持物体在机器人的可达范围内。这些函数被集成到一个具有随机动力学模型的模型预测控制(MPC)框架中,并在闭环中更新姿态分布。主要贡献包括一个新的物体姿态估计置信框架、一个高效的信息增益计算策略和一个鲁棒的基于MPC的控制方案。与基线方法相比,RUMI在仿真和实际任务中均表现出优异的性能。  
2024-08-15 Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation link 物体姿态估计对于许多涉及机器人操作、导航和增强现实的工业应用至关重要。当前通用的物体姿态估计器,即不需要针对每个物体进行训练的方法,依赖于精确的3D模型。目前主要使用CAD模型,但在实践中获取CAD模型可能很困难。同时,获取物体的图像是相对容易的。自然,这就引出了一个问题:从图像重建的3D模型是否足以实现精确的物体姿态估计?为了回答这个问题,我们提出了一个新的基准测试,用于衡量3D重建质量对姿态估计精度的影响。我们的基准测试提供了用于物体重建的校准图像,这些图像与YCB-V数据集的测试图像配准,以便在BOP基准测试格式下进行姿态评估。使用多种最先进的3D重建和物体姿态估计方法进行的详细实验表明,现代重建方法生成的几何模型通常足以进行精确的姿态估计。我们的实验得出了一些有趣的观察结果:(1)用于衡量3D重建质量的标准指标并不一定能指示姿态估计的精度,这表明需要像我们这样的专用基准测试。(2)传统的、非基于学习的方法可以与现代的基于学习的重建技术相媲美,甚至可以提供更好的重建时间-姿态精度权衡。(3)使用重建模型和CAD模型的性能之间仍然存在相当大的差距。为了促进缩小这一差距的研究,我们的基准测试已在https://github.com/VarunBurde/reconstruction_pose_benchmark公开发布。  
2024-07-16 NeuSurfEmb: A Complete Pipeline for Dense Correspondence-based 6D Object Pose Estimation without CAD Models link 目前最先进的6D物体姿态估计方法假设CAD模型可用,并要求用户手动设置基于物理的渲染(PBR)流程以生成合成训练数据。这两个因素都限制了这些方法在实际场景中的应用。在这项工作中,我们提出了一个不需要CAD模型的流程,并且只需少量真实图像作为输入即可训练出最先进的姿态估计器。我们的方法基于NeuS2对象表示,我们通过基于运动恢复结构(SfM)和物体无关分割的半自动化程序来学习该表示。我们利用NeuS2的新视角合成能力和简单的剪切粘贴增强功能来自动生成逼真的物体渲染,用于训练基于对应的SurfEmb姿态估计器。我们在LINEMOD-Occlusion数据集上评估了我们的方法,广泛研究了其各个组件的影响,并展示了相对于基于CAD模型和PBR数据的方法的竞争性能。我们还在自行收集的真实世界物体上展示了我们流程的易用性和有效性,表明我们的方法优于最先进的无CAD模型方法,具有更好的精度和对轻微遮挡的鲁棒性。为了让机器人社区能够从该系统中受益,我们将在https://www.github.com/ethz-asl/neusurfemb公开发布它。  
2024-06-06 Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking null 6D物体姿态估计是计算机视觉中一项至关重要但极具挑战性的任务,其面临的主要问题是大规模数据集的严重缺乏。这种稀缺性阻碍了对模型性能的全面评估,限制了研究进展。此外,可用实例或类别的数量有限也限制了其应用。为了解决这些问题,本文提出了Omni6DPose,这是一个以对象类别多样性、规模大和对象材质多样性为特征的大型数据集。Omni6DPose主要由三个部分组成:ROPE(真实6D物体姿态估计数据集),包含332K张图像,涵盖149个类别、581个实例的超过150万个标注;SOPE(模拟6D物体姿态估计数据集),由混合现实环境中创建的475K张图像组成,利用深度模拟技术进行标注,涵盖与ROPE相同的149个类别、4162个实例的超过500万个标注;以及在ROPE和SOPE中均使用的、经过手动对齐的真实扫描物体。由于存在大量的变化和模糊性,Omni6DPose本身就具有很大的挑战性。为了应对这一挑战,我们引入了GenPose++,它是SOTA类别级姿态估计框架的增强版本,它包含两个关键改进:语义感知特征提取和基于聚类的聚合。此外,我们还提供了一个全面的基准测试分析,以评估先前方法在这个大规模数据集上在6D物体姿态估计和姿态跟踪方面的性能。  
2024-06-05 Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices null 随着机器人和增强现实应用越来越依赖于精确高效的6D物体姿态估计,边缘设备上的实时性能对于实现更具交互性和响应能力的系统至关重要。我们提出的稀疏颜色代码网络(SCCN)体现了一种清晰简洁的流程设计,以有效满足这一需求。SCCN对RGB图像中的目标物体进行像素级预测,利用基本物体几何特征的稀疏性来加速Perspective-n-Point(PnP)计算过程。此外,它引入了一种新颖的基于像素级几何的物体对称表示,该表示与初始姿态预测无缝集成,有效地解决了对称物体歧义问题。SCCN在英伟达Jetson AGX Xavier上分别实现了在基准LINEMOD数据集和遮挡LINEMOD数据集上每秒19帧(FPS)和6帧的估计速率,同时在这些速率下始终保持较高的估计精度。  
2024-05-31 Deep Learning-Based Object Pose Estimation: A Comprehensive Survey link 物体姿态估计是计算机视觉中的一个基本问题,在增强现实和机器人技术中有着广泛的应用。在过去的十年中,深度学习模型由于其卓越的准确性和鲁棒性,越来越多地取代了依赖于工程点对特征的传统算法。然而,当代方法仍然存在若干挑战,包括它们对标记训练数据的依赖性、模型紧凑性、在挑战性条件下的鲁棒性以及泛化到未见过的新物体能力。目前缺乏一篇综述来讨论该领域的进展、面临的挑战和未来有希望的方向。为了填补这一空白,我们讨论了基于深度学习的物体姿态估计的最新进展,涵盖了该问题的所有三种形式,即实例级、类别级和未见过物体的姿态估计。我们的综述还涵盖了多种输入数据模态、输出姿态的自由度、物体属性和下游任务,为读者提供了对该领域的全面理解。此外,它还讨论了不同领域的训练范式、推理模式、应用领域、评估指标和基准数据集,并报告了当前最先进方法在这些基准上的性能,从而方便读者为其应用选择最合适的方法。最后,该综述指出了关键挑战,回顾了当前的趋势及其优缺点,并确定了未来研究的有希望的方向。我们还在 https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation 上持续跟踪最新的工作。  
2024-03-28 Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation link 类别级 6D 物体姿态估计旨在估计特定类别中未见实例的旋转、平移和大小。在这一领域,基于密集对应的方法取得了领先的性能。然而,它们没有明确考虑不同实例的局部和全局几何信息,导致对形状变化显著的未见实例的泛化能力较差。为了解决这个问题,我们提出了一种新颖的实例自适应和几何感知的关键点学习方法,用于类别级 6D 物体姿态估计 (AG-Pose),它包括两个关键设计:(1)第一个设计是实例自适应关键点检测模块,它可以自适应地检测一组稀疏的关键点,用于表示各种实例的几何结构。(2) 第二个设计是几何感知特征聚合模块,它可以有效地将局部和全局几何信息整合到关键点特征中。这两个模块可以协同工作,为未见实例建立鲁棒的关键点级对应关系,从而增强模型的泛化能力。在 CAMERA25 和 REAL275 数据集上的实验结果表明,所提出的 AG-Pose 在没有类别特定形状先验的情况下,大大优于最先进的方法。  
2024-06-01 Object Pose Estimation via the Aggregation of Diffusion Features link 从图像中估计物体姿态是3D场景理解的关键任务,最近的方法在非常大的基准测试中显示出可喜的结果。然而,这些方法在处理未见过的物体时性能会显著下降。我们认为这是由于图像特征的泛化能力有限造成的。为了解决这个问题,我们对扩散模型(例如Stable Diffusion)的特征进行了深入分析,这些模型在对未见过的物体建模方面具有巨大潜力。在此分析的基础上,我们创新性地将这些扩散特征引入物体姿态估计。为此,我们提出了三种不同的架构,可以有效地捕获和聚合不同粒度的扩散特征,极大地提高了物体姿态估计的泛化能力。我们的方法在三个流行的基准数据集LM、O-LM和T-LESS上,以相当大的优势优于最先进的方法。特别是,我们的方法在未见过的物体上取得了比先前最佳结果更高的精度:在Unseen LM上为98.2%对93.5%,在Unseen O-LM上为85.9%对76.3%,显示了我们方法强大的泛化能力。我们的代码发布在https://github.com/Tianfu18/diff-feats-pose。  

(<a href=#updated-on-20241204>back to top</a>)

nerf

Publish Date Title Code Abstract  
2024-11-27 SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images null 稀疏多视角图像可以通过可泛化的 Gaussian Splatting 方法学习预测显式辐射场,这在不需要真实相机参数作为输入的现实生活中具有更广泛的应用前景。本文提出了一种新的可泛化的 Gaussian Splatting 方法,SmileSplat,仅需要无约束的稀疏多视角图像即可重建像素对齐的高斯表面元素。首先,基于多头高斯回归解码器预测高斯表面元素,该解码器可以用较少的自由度表示,但具有更好的多视角一致性。此外,基于高质量的法线先验增强了高斯表面元素的法向量。其次,通过提出的捆绑调整 Gaussian Splatting 模块优化高斯和相机参数(包括外参和内参),以获得用于新视角合成任务的高质量高斯辐射场。在公共数据集上进行了新视角渲染和深度图预测任务的广泛实验,表明所提出的方法在各种 3D 视觉任务中实现了最先进的性能。更多信息可以在我们的项目页面上找到 (https://yanyan-li.github.io/project/gs/smilesplat)。  
2024-11-26 3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes link 近年来,辐射场重建技术取得了显著进展,例如 3D 高斯 splatting (3DGS),通过使用高斯基元组合表示场景,实现了高质量的新视角合成和快速渲染。然而,3D 高斯在场景重建方面存在一些局限性。准确捕捉硬边缘需要大量的基元,这会导致内存占用过大。此外,由于高斯函数在空间中是弥散的,它们难以表示平面。如果没有手动设计的正则化器,它们往往会在实际表面周围不规则地分散。为了规避这些问题,我们引入了一种名为 3D 凸 splatting (3DCS) 的新方法,它利用 3D 平滑凸体作为基元,从多视图图像中建模具有几何意义的辐射场。平滑凸形状比高斯形状更具灵活性,可以用更少的基元更好地表示具有硬边缘和密集体积的 3D 场景。得益于我们高效的基于 CUDA 的光栅化器,3DCS 在 Mip-NeRF360、Tanks and Temples 和 Deep Blending 等基准测试中实现了优于 3DGS 的性能。具体来说,与 3DGS 相比,我们的方法在 PSNR 中提高了 0.81,在 LPIPS 中提高了 0.026,同时保持了高渲染速度并减少了所需基元的数量。我们的结果表明,3D 凸 splatting 有可能成为高质量场景重建和新视角合成的新标准。项目页面:convexsplatting.github.io。  
2024-11-20 GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting null 视线估计在处理分布外数据时会遇到泛化挑战。为了解决这个问题,最近的方法使用神经辐射场 (NeRF) 来生成增强数据。然而,现有的基于 NeRF 的方法计算成本高且缺乏面部细节。三维高斯 splatting (3DGS) 已成为神经场的流行表示方法。虽然 3DGS 已在头部头像中得到广泛检验,但它在精确的视线控制和跨不同对象的泛化方面面临挑战。在这项工作中,我们提出了 GazeGaussian,一种高保真视线重定向方法,它使用双流 3DGS 模型分别表示面部和眼睛区域。通过利用 3DGS 的非结构化特性,我们开发了一种基于目标视线方向的用于刚性眼球旋转的新颖的眼睛表示方法。为了增强跨不同对象的合成泛化能力,我们集成了一个表情条件模块来指导神经渲染器。综合实验表明,GazeGaussian 在渲染速度、视线重定向精度和跨多个数据集的面部合成方面优于现有方法。我们还证明了现有的视线估计方法可以利用 GazeGaussian 来提高其泛化性能。代码将在 https://ucwxb.github.io/GazeGaussian/ 上提供。  
2024-11-15 GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization null 随着大规模文本到图像 (T2I) 模型和诸如神经辐射场 (NeRF) 等隐式三维表示的出现,许多基于 NeRF 的文本驱动生成式编辑方法应运而生。然而,几何和纹理信息的隐式编码给编辑过程中对象的准确定位和控制带来了挑战。最近,基于显式表示的实时渲染技术——三维高斯溅射的编辑方法取得了显著进展。然而,这些方法仍然存在定位不准确和编辑操作有限等问题。为了应对这些挑战,我们提出了 GSEditPro,一个新颖的三维场景编辑框架,允许用户仅使用文本提示执行各种创造性和精确的编辑。利用三维高斯分布的显式特性,我们引入了一个基于注意力的渐进式定位模块,在渲染过程中为每个高斯添加语义标签。这使得可以通过根据高斯与从 T2I 模型的交叉注意力层派生的编辑提示的相关性对高斯进行分类来精确定位编辑区域。此外,我们提出了一种基于三维高斯溅射的创新编辑优化方法,通过分数蒸馏采样和伪真值的指导获得稳定和精细的编辑结果。我们通过大量实验证明了我们方法的有效性。  
2024-11-13 Biomass phenotyping of oilseed rape through UAV multi-view oblique imaging with 3DGS and SAM model null 油菜生物量估算对于优化作物产量和育种策略至关重要。虽然基于无人机 (UAV) 的成像技术推进了高通量表型分析,但目前的方法通常依赖于正射影像,这在复杂的田间环境中难以处理叶片重叠和结构信息不完整的问题。本研究将三维高斯 splatting (3DGS) 与 Segment Anything Model (SAM) 相结合,以实现油菜的精确三维重建和生物量估算。使用来自 36 个角度的无人机多视角倾斜图像进行三维重建,并利用 SAM 模块增强点云分割。然后将分割后的点云转换为点云体积,并使用线性回归将其与地面测量的生物量进行拟合。结果表明,3DGS(7k 和 30k 次迭代)提供了高精度,峰值信噪比 (PSNR) 分别为 27.43 和 29.53,训练时间分别为 7 分钟和 49 分钟。这一性能超过了运动恢复结构 (SfM) 和 mipmap 神经辐射场 (Mip-NeRF),展现出更高的效率。SAM 模块实现了高分割精度,平均交并比 (mIoU) 为 0.961,F1 值为 0.980。此外,对生物量提取模型的比较发现,点云体积模型最为准确,决定系数 (R2) 为 0.976,均方根误差 (RMSE) 为 2.92 克/株,平均绝对百分比误差 (MAPE) 为 6.81%,优于小区作物体积模型和单株作物体积模型。这项研究突出了将 3DGS 与多视角无人机成像相结合以改进生物量表型分析的潜力。  
2024-11-13 MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation link 新兴的3D场景表示方法,例如神经辐射场(NeRF)和3D高斯 splatting(3DGS),已证明其在同时定位和建图(SLAM)中用于照片级真实感渲染的有效性,尤其是在使用高质量视频序列作为输入时。然而,现有方法难以处理运动模糊帧,这在现实场景中很常见,例如低光或长曝光条件。这通常会导致相机定位精度和地图重建质量的显着下降。为了应对这一挑战,我们提出了一种密集视觉SLAM流程(即MBA-SLAM)来处理严重的运动模糊输入。我们的方法将一个高效的运动模糊感知跟踪器与基于神经辐射场或高斯Splatting的建图器相结合。通过精确建模运动模糊图像的物理成像过程,我们的方法可以同时学习3D场景表示并估计相机在曝光时间内的局部轨迹,从而能够主动补偿由相机移动引起的运动模糊。在我们的实验中,我们证明了MBA-SLAM在相机定位和地图重建方面都超越了以往的先进方法,在包括合成和真实数据集(包含清晰图像以及受运动模糊影响的图像)在内的一系列数据集上展现了优越的性能,突出了我们方法的多功能性和鲁棒性。代码可在https://github.com/WU-CVGL/MBA-SLAM获取。  
2024-11-06 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement link 我们提出了3DGS-CD,这是第一个基于三维高斯散射(3DGS)的方法,用于检测三维场景中物体的物理重排。我们的方法通过比较两组不同时间拍摄的未对齐图像来估计三维物体级别的变化。利用3DGS的新颖视图渲染和EfficientSAM的零样本分割能力,我们检测二维物体级别的变化,然后跨视图关联和融合这些变化以估计三维变化。我们的方法可以在杂乱的环境中使用稀疏的变化后图像在短短18秒内检测变化,只需一张新图像即可。它不依赖于深度输入、用户指令、物体类别或物体模型——只要一个物体被重新排列,它就会被识别。我们的方法在公共和自收集的真实世界数据集上进行了评估,与最先进的基于辐射场变化检测方法相比,实现了高达14%的更高精度和三个数量级的更快性能。这种显著的性能提升使得广泛的下游应用成为可能,我们重点介绍了三个关键用例:物体重建、机器人工作空间重置和3DGS模型更新。我们的代码和数据将在https://github.com/520xyxyzq/3DGS-CD上提供。  
2024-11-06 Structure Consistent Gaussian Splatting with Matching Prior for Few-shot Novel View Synthesis link 尽管新型视图合成取得了实质性进展,但现有方法,无论是基于神经辐射场 (NeRF) 还是最近出现的 3D 高斯 splatting (3DGS),在输入稀疏时都会出现显著的性能下降。人们已经提出了许多努力来缓解这个问题,但它们仍然难以高效地合成令人满意的结果,尤其是在大场景中。本文提出了 SCGaussian,一种使用匹配先验来学习 3D 一致场景结构的结构一致性高斯 splatting 方法。考虑到高斯属性之间的高度相互依赖性,我们从两个方面优化场景结构:渲染几何以及更重要的高斯基元的的位置,这在普通的 3DGS 中由于其非结构化特性而难以直接约束。为此,我们提出了一种混合高斯表示。除了普通的非结构化高斯基元外,我们的模型还包含与匹配光线绑定的基于光线的高斯基元,其位置优化被限制在光线上。因此,我们可以利用匹配对应关系来直接强制这些高斯基元的位置收敛到光线相交的表面点。在正面、环绕和复杂大场景上的大量实验表明,我们的方法具有最先进的性能和高效率。代码可在 https://github.com/prstrive/SCGaussian 获取。  
2024-11-05 HFGaussian: Learning Generalizable Gaussian Human with Integrated Human Features null 最近基于辐射场的渲染技术在三维场景表示方面展现出显著成果,其中基于高斯 splatting 的技术因其质量和效率成为当前最佳方案。高斯 splatting 已被广泛应用于各种应用,包括三维人体表示。然而,先前基于高斯 splatting 的三维人体表示方法要么使用参数化人体模型作为附加信息,要么未能提供任何底层结构,例如对不同应用至关重要的人体生物力学特征。在本文中,我们提出了一种名为 HFGaussian 的新方法,它可以实时(25 FPS)地从稀疏输入图像中估计新视角和人体特征,例如三维骨架、三维关键点和密集姿态。该方法利用可泛化的 splatting 技术来表示人体及其相关特征,从而实现高效且可泛化的重建。通过结合姿态回归网络和特征 splatting 技术与高斯 splatting,HFGaussian 展示了比现有三维人体方法更强的能力,展现了融合生物力学信息的三维人体表示的潜力。我们将 HFGaussian 方法与人体高斯 splatting 和姿态估计领域的最新技术进行了全面比较,证明了其实时的、最先进的性能。  
2024-11-05 FewViewGS: Gaussian Splatting with Few View Matching and Multi-stage Training null 基于图像的新视角合成领域随着神经辐射场 (NeRF) 的引入以及最近 3D 高斯 splatting 的出现而取得了快速进展。由于其效率和准确渲染新视角的能力,高斯 splatting 得到了广泛采用。虽然在有足够训练图像的情况下高斯 splatting 表现良好,但其非结构化的显式表示在稀疏输入图像的情况下容易过拟合,导致渲染性能不佳。为了解决这个问题,我们提出了一种基于 3D 高斯的稀疏输入图像新视角合成方法,可以从训练图像未覆盖的视点准确地渲染场景。我们提出了一种多阶段训练方案,在不依赖预训练深度估计或扩散模型的情况下,对新视角施加基于匹配的一致性约束。这是通过使用可用训练图像的匹配来监督在训练帧之间采样的新视角的生成,并使用颜色、几何和语义损失来实现的。此外,我们引入了一种用于 3D 高斯的局部性保留正则化,通过保留场景的局部颜色结构来消除渲染伪影。在合成数据集和真实世界数据集上的评估表明,与现有的最先进方法相比,我们的方法在少样本新视角合成方面具有竞争力或更优的性能。  
2024-10-31 GaussianMarker: Uncertainty-Aware Copyright Protection of 3D Gaussian Splatting null 三维高斯 splatting (3DGS) 已成为获取三维资产的关键方法。为了保护这些资产的版权,可以应用数字水印技术将所有权信息谨慎地嵌入到 3DGS 模型中。然而,现有的用于网格、点云和隐式辐射场的数字水印方法不能直接应用于 3DGS 模型,因为 3DGS 模型使用具有独特结构的显式三维高斯函数,并且不依赖于神经网络。简单地在预训练的 3DGS 模型上嵌入水印会导致渲染图像出现明显的失真。在我们的工作中,我们提出了一种基于不确定性的方法,该方法通过约束模型参数的扰动来实现 3DGS 的不可见水印。在消息解码阶段,即使在各种三维和二维失真情况下,也可以从三维高斯函数和二维渲染图像中可靠地提取版权信息。我们在 Blender、LLFF 和 MipNeRF-360 数据集上进行了大量实验,以验证我们提出的方法的有效性,证明了其在消息解码精度和视图合成质量方面的最新性能。  
2024-10-23 VR-Splatting: Foveated Radiance Field Rendering via 3D Gaussian Splatting and Neural Points null 近年来,新视角合成(NVS)技术,特别是神经辐射场(NeRF)和高斯 splatting(3DGS),在逼真的场景渲染方面取得了令人瞩目的成果。这些技术在虚拟旅游和远程呈现等对沉浸式真实感要求很高的应用中具有巨大的潜力。然而,虚拟现实(VR)系统的高性能需求给直接利用即使是像 3DGS 这样渲染速度很快的场景表示也带来了挑战,这主要是因为延迟和计算资源的限制。在本文中,我们提出将注视点渲染作为解决这些障碍的有效方案。我们分析了最先进的 NVS 方法的渲染性能及其与人类视觉系统的兼容性。我们的方法引入了一种新颖的用于虚拟现实的注视点渲染方法,它利用神经点渲染为中心凹区域提供清晰、细节丰富的输出,并将其与 3DGS 为周边视觉提供的平滑渲染相融合。我们的评估证实,与标准的 VR-ready 3DGS 配置相比,我们的方法提高了感知的清晰度和细节丰富度。我们的系统满足实时 VR 交互所需的性能要求,最终增强了用户的沉浸式体验。项目页面:https://lfranke.github.io/vr_splatting  
2024-10-18 GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting null 本文介绍了GS-LIVM,一个面向户外场景的实时逼真激光雷达-惯性-视觉建图框架,该框架采用高斯 splatting 技术。与现有的基于神经辐射场 (NeRF) 和三维高斯 splatting (3DGS) 的方法相比,我们的方法能够在保证大规模无界户外环境高质量图像渲染的同时,实现实时逼真建图。本文采用高斯过程回归 (GPR) 来缓解由稀疏且分布不均匀的激光雷达观测数据带来的问题。基于体素的三维高斯地图表示有助于在大型户外环境中进行实时密集建图,并通过自定义 CUDA 内核进行加速。此外,整个框架以协方差为中心进行设计,其中估计的协方差用于初始化三维高斯的尺度和旋转,以及更新 GPR 的参数。我们在多个户外数据集上评估了我们的算法,结果表明,我们的方法在建图效率和渲染质量方面达到了最先进的水平。源代码可在 GitHub 上获取。  
2024-10-22 E-3DGS: Gaussian Splatting with Exposure and Motion Events link 在视觉领域,从理想条件下拍摄的图像中估计神经辐射场(NeRFs)已被广泛研究。然而,机器人应用通常面临运动模糊、光照不足和高计算开销等挑战,这些挑战会对导航、检查和场景可视化等下游任务产生不利影响。为了应对这些挑战,我们提出了E-3DGS,一种基于事件的新方法,它将事件划分为运动事件(来自相机或物体运动)和曝光事件(来自相机曝光),前者用于处理快速运动场景,后者用于重建灰度图像,以实现基于事件的三维高斯 splatting(3DGS)的高质量训练和优化。我们引入了一种将3DGS与曝光事件相结合的新方法,以实现高质量的显式场景表示重建。我们的多功能框架可以单独使用运动事件进行三维重建,使用曝光事件提高质量,或者采用混合模式,先用初始曝光事件优化,再用高速运动事件优化,从而平衡质量和效率。我们还引入了EME-3D,这是一个真实世界的三维数据集,包含曝光事件、运动事件、相机校准参数和稀疏点云。我们的方法比基于事件的NeRF速度更快,重建质量更好,同时比结合事件和RGB数据的NeRF方法更具成本效益,因为它只使用单个事件传感器。通过结合运动事件和曝光事件,E-3DGS为基于事件的三维重建设定了新的基准,在挑战性条件下具有稳健的性能和更低的硬件要求。源代码和数据集将在https://github.com/MasterHow/E-3DGS上提供。  
2024-10-18 DaRePlane: Direction-aware Representations for Dynamic Scene Reconstruction null 许多近期对动态场景建模和重新渲染的方法利用基于平面的显式表示,解决了与神经辐射场 (NeRF) 和高斯 splatting (GS) 等模型相关的训练时间慢的问题。然而,仅仅将 4D 动态场景分解成多个 2D 基于平面的表示不足以高保真地重新渲染具有复杂运动的场景。为此,我们提出了 DaRePlane,一种新颖的方向感知表示方法,可从六个不同方向捕获场景动态。这种学习到的表示经过逆双树复小波变换 (DTCWT) 来恢复基于平面的信息。在 NeRF 流程中,DaRePlane 通过融合来自这些恢复平面的向量来计算每个时空点的特征,然后将其传递给一个小型 MLP 进行颜色回归。应用于高斯 splatting 时,DaRePlane 计算高斯点的特征,然后通过一个小型多头 MLP 进行时空变形预测。值得注意的是,为了解决由六个实部和六个虚部方向感知小波系数引入的冗余问题,我们引入了一种可训练的掩蔽方法,在不显著降低性能的情况下缓解了存储问题。为了证明 DaRePlane 的通用性和效率,我们在常规和手术动态场景上分别针对 NeRF 和 GS 系统对其进行了测试。大量实验表明,DaRePlane 在各种复杂动态场景的新颖视图合成中实现了最先进的性能。  
2024-10-16 3D Gaussian Splatting in Robotics: A Survey null 在机器人领域,环境的密集3D表示一直是一个长期目标。虽然以前基于坐标的隐式神经辐射场(NeRF)表示法很流行,但最近出现的3D高斯 splatting (3DGS)在其显式辐射场表示方面展现了显著的潜力。通过利用3D高斯基元进行显式场景表示并支持可微渲染,3DGS在实时渲染和逼真性能方面比其他辐射场表现出显著优势,这有利于机器人应用。在本综述中,我们提供了对3DGS在机器人领域中的全面理解。我们将相关工作的讨论分为两大类:3DGS的应用和3DGS技术的进步。在应用部分,我们探讨了3DGS如何在各种机器人任务中从场景理解和交互的角度得到应用。3DGS技术的进步部分重点介绍3DGS自身属性在适应性和效率方面的改进,旨在提高其在机器人领域的性能。然后,我们总结了机器人领域中最常用的数据集和评估指标。最后,我们指出了当前3DGS方法的挑战和局限性,并讨论了3DGS在机器人领域的未来发展方向。  
2024-10-15 MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields null 用三维高斯函数表示的辐射场在合成新视角方面表现出色,兼具高训练效率和快速渲染速度。然而,由于输入视角稀疏,缺乏多视角一致性约束会导致点云初始化不良以及优化和密集化过程中的启发式方法不可靠,从而导致性能欠佳。现有方法通常会结合来自密集估计网络的深度先验,但忽略了输入图像中固有的多视角一致性。此外,它们依赖于基于多视角立体视觉 (MVS) 的初始化,这限制了场景表示的效率。为了克服这些挑战,我们提出了一个基于三维高斯 splatting 的视图合成框架,名为 MCGS,可以从稀疏的输入视角实现逼真的场景重建。MCGS 在增强多视角一致性方面的关键创新如下:i) 我们引入了一种初始化方法,利用稀疏匹配器结合随机填充策略,生成一组紧凑但足以表示场景的初始点。这种方法增强了初始几何先验,促进了高效的场景表示。ii) 我们开发了一种多视角一致性引导的渐进式剪枝策略,通过加强一致性并消除低贡献的高斯函数来细化高斯场。这些模块化、即插即用的策略增强了对稀疏输入视角的鲁棒性,加快了渲染速度,并减少了内存消耗,使 MCGS 成为一个实用且高效的三维高斯 splatting 框架。  
2024-10-14 Few-shot Novel View Synthesis using Depth Aware 3D Gaussian Splatting link 三维高斯 splatting 技术在新型视图合成方面已经超越了神经辐射场方法,实现了更低的计算成本和实时高质量渲染。尽管在输入视图较多时可以生成高质量的渲染结果,但在只有少量视图可用时,其性能会显著下降。在本文中,我们提出了一种用于少样本新型视图合成的深度感知高斯 splatting 方法来解决这个问题。我们使用单目深度预测作为先验,并结合尺度不变的深度损失,在少量输入视图下约束三维形状。我们还使用低阶球谐函数对颜色进行建模,以避免过拟合。此外,我们观察到,像原始工作中那样周期性地移除低不透明度的 splat 会导致点云非常稀疏,从而降低渲染质量。为了缓解这个问题,我们保留了所有的 splat,从而在少量视图设置下实现了更好的重建效果。实验结果表明,我们的方法优于传统的三维高斯 splatting 方法,峰值信噪比提高了 10.5%,结构相似性指数提高了 6%,感知相似度提高了 14.1%,从而验证了我们方法的有效性。代码将在 https://github.com/raja-kumar/depth-aware-3DGS 上提供。  
2024-10-09 DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation null 近年来,2D/3D 生成技术的进步促进了从单目视频生成动态 3D 对象。先前的方法主要依赖于隐式神经辐射场 (NeRF) 或显式高斯 splatting 作为底层表示,难以实现令人满意的时空一致性和表面外观。受现代 3D 动画流程的启发,我们引入了 DreamMesh4D,这是一个结合了网格表示和几何蒙皮技术的新颖框架,可以从单目视频生成高质量的 4D 对象。我们没有使用经典的纹理贴图来表现外观,而是将高斯 splat 绑定到网格的三角面上,以便对纹理和网格顶点进行可微分优化。特别是,DreamMesh4D 从通过图像到 3D 生成过程获得的粗网格开始。然后在网格表面均匀采样稀疏点,并使用这些点构建变形图来驱动 3D 对象的运动,以提高计算效率并提供额外的约束。对于每个步骤,使用变形网络预测稀疏控制点的变换,并通过一种新颖的几何蒙皮算法对网格顶点和表面高斯进行变形,该算法结合了 LBS(线性混合蒙皮)和 DQS(双四元数蒙皮)的混合方法,减轻了两种方法相关的缺点。静态表面高斯和网格顶点以及变形网络通过参考视图光度损失、分数蒸馏损失以及其他正则化器以两阶段方式学习。大量实验表明我们的方法具有优越的性能。此外,我们的方法与现代图形流程兼容,展示了其在 3D 游戏和电影行业的潜力。  
2024-10-08 Comparative Analysis of Novel View Synthesis and Photogrammetry for 3D Forest Stand Reconstruction and extraction of individual tree parameters null 精确高效的三维树木重建对于森林资源评估和管理至关重要。近景摄影测量法 (CRP) 常用于重建森林场景,但面临效率低、质量差等挑战。近年来,包括神经辐射场 (NeRF) 和三维高斯 splatting (3DGS) 在内的新视角合成 (NVS) 技术已展现出利用有限图像进行三维植物重建的潜力。然而,现有研究主要集中在果园中的小型植物或单棵树木上,其在更大、更复杂的林分中的应用仍存在不确定性。在本研究中,我们收集了不同复杂程度的森林样地的序列图像,并使用 NeRF 和 3DGS 进行了密集重建。将所得点云与摄影测量和激光扫描的点云进行了比较。结果表明,NVS 方法显著提高了重建效率。摄影测量法在处理复杂林分时存在困难,导致点云树冠噪声过多,树木重建错误,例如树干重复。NeRF 虽然更适合树冠区域,但在视野有限的地面区域可能会产生错误。3DGS 方法生成的点云更稀疏,尤其是在树干区域,影响胸径 (DBH) 的精度。所有三种方法都可以提取树高信息,其中 NeRF 的精度最高;然而,摄影测量法在胸径精度方面仍然具有优势。这些发现表明,NVS 方法在林分三维重建方面具有巨大潜力,可为复杂的森林资源清查和可视化任务提供宝贵支持。  
2024-09-30 RL-GSBridge: 3D Gaussian Splatting Based Real2Sim2Real Method for Robotic Manipulation Learning null Sim-to-Real 指的是将仿真环境中学习到的策略迁移到现实世界的过程,这对于实现实际机器人应用至关重要。然而,最近的 Sim2real 方法要么依赖大量的增强数据,要么依赖大型学习模型,这对于特定任务来说效率低下。近年来,基于辐射场的重建方法,尤其是 3D Gaussian Splatting 的出现,使得重现逼真的现实世界场景成为可能。为此,我们提出了一种新颖的 real-to-sim-to-real 强化学习框架 RL-GSBridge,该框架引入了基于网格的 3D Gaussian Splatting 方法,以实现基于视觉的深度强化学习的零样本 sim-to-real 迁移。我们通过使用软绑定约束改进了基于网格的 3D GS 建模方法,从而提高了网格模型的渲染质量。然后,我们采用 GS 编辑方法将渲染与物理模拟器同步,更准确地反映物理机器人的交互。通过一系列 sim-to-real 机械臂实验,包括抓取和拾放任务,我们证明了 RL-GSBridge 在 sim-to-real 迁移过程中保持了令人满意的实际任务完成成功率。此外,一系列渲染指标和可视化结果表明,我们提出的基于网格的 3D Gaussian 减少了非结构化对象中的伪影,展现了更逼真的渲染性能。  
2024-09-25 SeaSplat: Representing Underwater Scenes with 3D Gaussian Splatting and a Physically Grounded Image Formation Model null 我们介绍SeaSplat,这是一种利用最新3D辐射场技术实现水下场景实时渲染的方法。水下场景是具有挑战性的视觉环境,因为透过水等介质进行渲染会在图像捕获中引入距离和颜色相关的影响。我们使用物理基础的水下成像模型来约束3D高斯渲染(3DGS),这是一种最新的辐射场技术,可以实现完整3D场景的快速训练和实时渲染。将SeaSplat应用于SeaThru-NeRF数据集中的真实场景(由美属维尔京群岛的水下航行器收集的场景)和模拟退化的真实场景,我们不仅看到在存在介质的情况下渲染场景新视点的定量性能有所提高,而且还能够恢复场景的底层真实颜色,并将渲染恢复到不存在介入介质的状态。我们证明了水下成像模型有助于学习场景结构,获得更好的深度图,并表明我们的改进保持了利用3D高斯表示带来的显著计算优势。  
2024-09-25 Let’s Make a Splan: Risk-Aware Trajectory Optimization in a Normalized Gaussian Splat null 神经辐射场和高斯 splatting 通过实现复杂场景的逼真表示,改变了计算机视觉领域。尽管取得了成功,但它们在现实世界机器人任务(如轨迹优化)中的应用仍然有限。造成这种有限成功有两个关键因素。首先,在辐射模型中难以推理碰撞。其次,很难足够快地执行辐射模型的推理以进行实时轨迹合成。本文提出了 SPLANNING,一种在高斯 splatting 模型中运行的风险感知轨迹优化器,以应对这些挑战。本文首先推导出一种严格限制机器人与辐射场之间碰撞概率上限的方法。其次,本文介绍了高斯 splatting 的归一化重构,以便在高斯 splat 中高效计算碰撞边界。第三,提出了一种在避免与高斯 splat 表示的场景发生碰撞的同时优化轨迹的方法。实验表明,在高度杂乱的环境中,SPLANNING 在生成无碰撞轨迹方面优于最先进的方法。所提出的系统还在现实世界的机器人机械臂上进行了测试。项目页面位于 https://roahmlab.github.io/splanning。  
2024-09-22 MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views null 近年来,神经辐射场(NeRF)的进步促进了少样本新视角合成(NVS)的发展,这是三维视觉应用中的一个重大挑战。尽管人们做了很多尝试来减少NeRF中对密集输入的需求,但它仍然面临着训练和渲染过程耗时的难题。最近,三维高斯散射(3DGS)通过基于点的显式表示实现了实时高质量渲染。然而,与NeRF类似,由于缺乏约束,它往往会对训练视图过拟合。在本文中,我们提出了MVPGS,一种基于三维高斯散射挖掘多视图先验的少样本NVS方法。我们利用最近基于学习的多视图立体(MVS)来提高3DGS几何初始化的质量。为了减轻过拟合,我们提出了一种前向扭曲方法,用于根据计算出的几何形状对场景进行额外的外观约束。此外,我们引入了一种视图一致性几何约束来约束高斯参数,以促进适当的优化收敛,并利用单目深度正则化作为补偿。实验表明,该方法在实时渲染速度下达到了最先进的性能。项目页面:https://zezeaaa.github.io/projects/MVPGS/  
2024-09-10 Sources of Uncertainty in 3D Scene Reconstruction link 三维场景重建过程会受到现实世界场景中众多不确定性来源的影响。虽然神经辐射场 (NeRF) 和三维高斯散射 (GS) 可以实现高保真渲染,但它们缺乏内置机制来直接解决或量化由噪声、遮挡、混杂异常值和不精确的相机姿态输入引起的不确定性。在本文中,我们引入了一种分类法,对这些方法中固有的不同不确定性来源进行分类。此外,我们使用不确定性估计技术扩展了基于 NeRF 和 GS 的方法,包括学习不确定性输出和集成,并进行了实证研究来评估它们捕捉重建敏感性的能力。我们的研究强调了在设计基于 NeRF/GS 的不确定性感知三维重建方法时,需要解决各种不确定性方面的需求。  
2024-09-05 Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction null 三维高斯 splatting (3DGS) 已成为一种很有前景的三维场景表示方法,与神经辐射场 (NeRF) 相比,它可以降低计算开销。然而,3DGS 容易出现高频伪影,并且在稀疏视点条件下表现不佳,从而限制了其在机器人和计算机视觉中的应用。为了解决这些限制,我们引入了 SVS-GS,这是一种用于稀疏视点场景重建的新框架,它集成了三维高斯平滑滤波器来抑制伪影。此外,我们的方法结合了深度梯度剖面先验 (DGPP) 损失和动态深度掩码来锐化边缘,并结合了分数蒸馏采样 (SDS) 损失的二维扩散来增强新视图合成中的几何一致性。在 MipNeRF-360 和 SeaThru-NeRF 数据集上的实验评估表明,SVS-GS 显着改善了稀疏视点下的三维重建,为机器人和计算机视觉应用中的场景理解提供了一种稳健且高效的解决方案。  
2024-08-20 Gaussian in the Dark: Real-Time View Synthesis From Inconsistent Dark Images Using Gaussian Splatting link 3D Gaussian Splatting has recently emerged as a powerful representation that can synthesize remarkable novel views using consistent multi-view images as input. However, we notice that images captured in dark environments where the scenes are not fully illuminated can exhibit considerable brightness variations and multi-view inconsistency, which poses great challenges to 3D Gaussian Splatting and severely degrades its performance. To tackle this problem, we propose Gaussian-DK. Observing that inconsistencies are mainly caused by camera imaging, we represent a consistent radiance field of the physical world using a set of anisotropic 3D Gaussians, and design a camera response module to compensate for multi-view inconsistencies. We also introduce a step-based gradient scaling strategy to constrain Gaussians near the camera, which turn out to be floaters, from splitting and cloning. Experiments on our proposed benchmark dataset demonstrate that Gaussian-DK produces high-quality renderings without ghosting and floater artifacts and significantly outperforms existing methods. Furthermore, we can also synthesize light-up images by controlling exposure levels that clearly show details in shadow areas.  
2024-09-05 EaDeblur-GS: Event assisted 3D Deblur Reconstruction with Gaussian Splatting null 3D deblurring reconstruction techniques have recently seen significant advancements with the development of Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although these techniques can recover relatively clear 3D reconstructions from blurry image inputs, they still face limitations in handling severe blurring and complex camera motion. To address these issues, we propose Event-assisted 3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS), which integrates event camera data to enhance the robustness of 3DGS against motion blur. By employing an Adaptive Deviation Estimator (ADE) network to estimate Gaussian center deviations and using novel loss functions, EaDeblur-GS achieves sharp 3D reconstructions in real-time, demonstrating performance comparable to state-of-the-art methods.  
2024-10-02 DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation link 分数蒸馏采样(SDS)已成为文本驱动3D编辑任务中一种有效的框架,它利用扩散模型进行3D一致性编辑。然而,现有的基于SDS的3D编辑方法存在训练时间长、生成结果质量低的问题。我们发现,造成这种性能下降的根本原因是它们与扩散模型的采样动力学相冲突。解决这种冲突使我们能够将SDS视为通过从数据空间采样进行3D编辑的扩散逆过程。相比之下,现有方法简单地使用扩散模型提取分数函数。基于这些见解,我们提出了DreamCatalyst,这是一个在SDS框架中考虑了这些采样动力学的新框架。具体来说,我们设计了DreamCatalyst的优化过程来逼近编辑任务中的扩散逆过程,从而与扩散采样动力学保持一致。因此,DreamCatalyst成功地减少了训练时间并提高了编辑质量。我们的方法提供了两种模式:(1)快速模式,编辑神经辐射场(NeRF)场景的速度比当前最先进的NeRF编辑方法快约23倍;(2)高质量模式,生成的结果比这些方法好约8倍。值得注意的是,我们的高质量模式在速度和质量方面都优于当前最先进的NeRF编辑方法。DreamCatalyst还超越了最先进的3D高斯样条(3DGS)编辑方法,使其成为一种有效且与模型无关的3D编辑解决方案。请在我们的项目页面上查看更多结果:https://dream-catalyst.github.io。  
2024-07-10 3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes null 基于粒子的辐射场表示法,例如 3D 高斯 splatting,在复杂场景的重建和重新渲染方面取得了巨大成功。大多数现有方法通过光栅化渲染粒子,将它们投影到屏幕空间图块中,以便按排序顺序进行处理。而这项工作则考虑对粒子进行光线追踪,构建边界体积层次结构,并使用高性能 GPU 光线追踪硬件为每个像素投射光线。为了有效处理大量半透明粒子,我们描述了一种专门的渲染算法,该算法使用边界网格封装粒子,以利用快速的光线三角形相交,并按深度顺序对成批的相交进行着色。光线追踪的优势在计算机图形学中是众所周知的:处理非相干光线以获得阴影和反射等二次照明效果、从机器人技术中常见的高度扭曲的相机进行渲染、随机采样光线等等。使用我们的渲染器,与光栅化相比,这种灵活性几乎没有成本。实验证明了我们方法的速度和准确性,以及在计算机图形学和视觉方面的几种应用。我们进一步提出了对基本高斯表示的相关改进,包括简单地使用广义核函数,这可以显着减少粒子命中次数。  
2024-07-07 GaussReg: Fast 3D Registration with Gaussian Splatting null 点云配准是大规模三维场景扫描和重建的基本问题。在深度学习的帮助下,配准方法得到了显著发展,已接近成熟阶段。随着神经辐射场(NeRF)的引入,它凭借强大的视图合成能力成为最受欢迎的三维场景表示方法。对于NeRF表示,大规模场景重建也需要对其进行配准。然而,这方面还缺乏深入的探索。这是因为对具有隐式表示的两个场景之间的几何关系进行建模存在固有的挑战。现有方法通常将隐式表示转换为显式表示以进行进一步配准。最近,引入了高斯 splatting(GS),它采用显式三维高斯函数。这种方法在保持高质量渲染效果的同时,显著提高了渲染速度。给定两个具有显式GS表示的场景,我们在这项工作中探索了它们之间的三维配准任务。为此,我们提出了GaussReg,一个快速且准确的由粗到精的框架。粗配准阶段遵循现有的点云配准方法,并估计来自GS的点云的粗略对齐。我们还提出了一种新的图像引导的精配准方法,该方法通过从GS渲染图像,为精确对齐提供更详细的几何信息。为了支持全面的评估,我们仔细构建了一个名为ScanNet-GSReg的场景级数据集,其中包含从ScanNet数据集中获得的1379个场景,并收集了一个名为GSReg的真实世界数据集。实验结果表明,我们的方法在多个数据集上实现了最先进的性能。我们的GaussReg比HLoc(SuperPoint作为特征提取器,SuperGlue作为匹配器)快44倍,并且具有相当的精度。  
2024-07-04 CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion Blur Images null 由于神经辐射场 (NeRFs) 能够高质量地渲染新视角,因此备受关注,这促使人们对其在各种真实场景中的应用进行研究。其中一个关键挑战是相机在曝光时间内移动造成的相机运动模糊,这阻碍了精确的三维场景重建。在本研究中,我们提出了连续刚体运动感知高斯散射 (CRiM-GS),以实时渲染速度从模糊图像中重建精确的三维场景。考虑到实际的相机运动模糊过程包含复杂的运动模式,我们基于神经常微分方程 (ODEs) 预测相机的连续运动。具体来说,我们利用刚体变换来模拟相机运动并进行适当的正则化,以保持对象的形状和大小。此外,我们在\textit{SE(3)} 场中引入连续可变形三维变换,通过确保更高的自由度使刚体变换适应现实问题。通过重新审视基本相机理论并采用先进的神经网络训练技术,我们实现了对连续相机轨迹的精确建模。我们进行了大量的实验,在基准数据集上定量和定性地证明了其最先进的性能。  
2024-07-29 Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning link 近年来,由于神经辐射场和最近出现的3D高斯样条曲线(3DGS)模型提供了端到端训练的能力,3D模型的使用得到了推广。后者在训练过程中能够轻松地快速收敛并提供广泛的可编辑性,因此具有显著的优势。然而,尽管发展迅速,但关于这些模型可扩展性的文献仍处于起步阶段。在本研究中,我们为解决这一差距采取了一些初步措施,展示了一种能够实现此类模型内存和计算可扩展性的方法。具体来说,我们提出了“Trimming the fat”,这是一种基于梯度的迭代式后剪枝技术,用于消除模型中编码的冗余信息。我们在广泛认可的基准测试集上的实验结果证明了我们方法的有效性,结果表明,在保持甚至提高基线性能的同时,最多可以移除75%的高斯函数。我们的方法实现了大约50倍的压缩,同时保持了与基线模型相似的性能,并且能够将计算速度提高到600 FPS。  
2024-06-21 Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks null 模拟器是自动机器人学习的强大工具,因为它们可以提供可扩展的数据生成、灵活的设计和轨迹优化。然而,将从模拟数据中学习到的行为迁移到现实世界中被证明是困难的,通常需要通过计算量大的域随机化方法或进一步的模型微调来缓解。我们提出了一种方法来提高模拟到真实视觉四旋翼导航任务中对分布变化的泛化能力和鲁棒性。为此,我们首先通过将高斯 splatting 与四旋翼飞行动力学相结合来构建模拟器,然后使用 Liquid 神经网络训练鲁棒的导航策略。通过这种方式,我们获得了一个完整的模仿学习协议,它结合了 3D 高斯 splatting 辐射场渲染的进步、专家演示训练数据的巧妙编程以及 Liquid 网络的任务理解能力。通过一系列定量飞行测试,我们证明了在单个模拟场景中学习到的导航技能可以直接稳健地迁移到现实世界。我们进一步展示了在剧烈的分布和物理环境变化下,在训练环境之外保持性能的能力。我们学习的 Liquid 策略,仅在从真实感室内模拟飞行中提取的单个目标操作上进行训练,可以泛化到户外真实硬件平台上的多步远足。  
2024-06-14 Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections null 在非结构化的旅游环境中拍摄的照片经常表现出多变的外观和短暂的遮挡,这对准确的场景重建提出了挑战,并在新视角合成中导致了伪影。虽然先前的方法已经将神经辐射场 (NeRF) 与其他可学习模块相结合来处理动态外观并消除瞬态对象,但其大量的训练需求和缓慢的渲染速度限制了实际部署。最近,3D 高斯 splatting (3DGS) 已成为 NeRF 的一种有前途的替代方案,它提供了卓越的训练和推理效率以及更好的渲染质量。本文介绍了 Wild-GS,这是一种针对不受约束的照片集优化的 3DGS 创新改编,同时保留了其效率优势。Wild-GS 通过每张图像的固有材质属性、全局照明和相机属性以及逐点反射率的局部变化来确定每个 3D 高斯的外观。与先前在图像空间中对参考特征进行建模的方法不同,Wild-GS 通过对从参考图像中提取的三平面进行采样,将像素外观特征明确地与相应的局部高斯对齐。这种新颖的设计有效地将参考视图的高频细节外观转移到 3D 空间,并显着加快了训练过程。此外,2D 可见性图和深度正则化分别用于减轻瞬态效应和约束几何形状。大量实验表明,Wild-GS 在所有现有技术中实现了最先进的渲染性能以及最高的训练和推理效率。  
2024-06-06 A Survey on 3D Human Avatar Modeling – From Reconstruction to Generation null 3D modeling has long been an important area in computer vision and computer graphics. Recently, thanks to the breakthroughs in neural representations and generative models, we witnessed a rapid development of 3D modeling. 3D human modeling, lying at the core of many real-world applications, such as gaming and animation, has attracted significant attention. Over the past few years, a large body of work on creating 3D human avatars has been introduced, forming a new and abundant knowledge base for 3D human modeling. The scale of the literature makes it difficult for individuals to keep track of all the works. This survey aims to provide a comprehensive overview of these emerging techniques for 3D human avatar modeling, from both reconstruction and generation perspectives. Firstly, we review representative methods for 3D human reconstruction, including methods based on pixel-aligned implicit function, neural radiance field, and 3D Gaussian Splatting, etc. We then summarize representative methods for 3D human generation, especially those using large language models like CLIP, diffusion models, and various 3D representations, which demonstrate state-of-the-art performance. Finally, we discuss our reflection on existing methods and open challenges for 3D human avatar modeling, shedding light on future research.  
2024-06-13 3D-HGS: 3D Half-Gaussian Splatting link 照片级逼真的三维重建是三维计算机视觉中的一个基本问题。由于最近神经渲染技术的出现,该领域取得了相当大的进步。这些技术主要集中于学习三维场景的体积表示,并通过渲染得到的损失函数来细化这些表示。其中,三维高斯散射(3D-GS)已成为一种重要的方法,其性能超过了神经辐射场(NeRFs)。3D-GS使用参数化的三维高斯函数来建模空间位置和颜色信息,并结合基于图块的快速渲染技术。尽管其渲染性能和速度都很出色,但使用三维高斯核函数在准确表示不连续函数方面存在固有限制,特别是在形状不连续的边缘和角落,以及在颜色不连续的不同纹理之间。为了解决这个问题,我们建议采用三维半高斯(3D-HGS)核函数,它可以作为一种即插即用的核函数。我们的实验表明,它们能够提高当前与3D-GS相关方法的性能,并在不影响渲染速度的情况下,在各种数据集上实现最先进的渲染性能。  

(<a href=#updated-on-20241204>back to top</a>)

分类/检测/识别/分割

Publish Date Title Code Abstract  
2024-12-03 Efficient Algorithms for Low Tubal Rank Tensor Approximation with Applications to Image Compression, Super-Resolution and Deep Learning null 本文提出了高效的随机固定精度技术,用于低管秩张量逼近。所提出的方法比现有的用于逼近截断张量奇异值分解(T-SVD)的固定精度算法更快、更高效。此外,关于用于计算张量低管秩逼近的随机单遍算法的研究很少,并且没有一项研究通过实验报告了此类算法对于现实世界数据张量(例如图像和视频)的低秩逼近的鲁棒性。目前的张量单遍算法是将矩阵的单遍算法推广到张量。然而,矩阵的单遍随机算法最近得到了改进和稳定。受此进展的启发,在本文中,我们还基于管积(T-积)将它们推广到张量情况。我们进行了大量的模拟,以研究它们与现有单遍随机算法相比的鲁棒性。特别是,我们通过实验发现,具有相同大小的草图参数的单遍算法通常会导致病态张量最小二乘问题和不准确的结果。实验表明,我们提出的单遍算法在这种意义上是鲁棒的。数值结果表明,在相同条件下(设置相同的超参数),我们提出的算法提供了更好的性能。本文还介绍了图像压缩、超分辨率问题和深度学习的三个应用。  
2024-12-03 Randomized algorithms for Kroncecker tensor decomposition and applications null 本文提出了用于计算克罗内克张量分解 (KTD) 的快速随机算法。与现有的最先进算法相比,所提出的算法可以更快地将给定张量分解为 KTD 格式。我们的主要思想是使用随机化框架来显著降低计算复杂度。我们提供了广泛的模拟,以验证所提出的随机算法的有效性和性能,与确定性算法相比,其加速了几个数量级。我们的模拟使用了合成数据集和真实世界数据集,并将其应用于张量补全、视频/图像压缩、图像去噪和图像超分辨率。  
2024-12-03 SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection null 尽管视觉语言理解取得了进步,但在多模态架构中实现图像分割仍然是现代人工智能系统中的一个基本挑战。现有的视觉语言模型主要依赖于骨干架构或基于CLIP的嵌入学习,在细粒度空间定位和操作能力方面表现出固有的局限性。本文介绍了SJTU:多模态模型中的空间判断——通过坐标检测实现统一分割,这是一个利用空间坐标理解来桥接视觉语言交互和精确分割的新颖框架,能够通过自然语言指令实现准确的目标识别。该框架提出了一种基于多模态空间推理的将分割技术与视觉语言模型相结合的新方法。通过利用用于边界框的归一化坐标检测并将其转换为可操作的分割输出,我们探索了整合多模态空间和语言表示的可能性。基于所提出的技术方法,该框架在各种基准数据集上展现出优越的性能以及准确的目标分割。在COCO 2017通用目标检测数据集和Pascal VOC语义分割数据集上的结果证明了该框架的泛化能力。  
2024-12-03 GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing null 数据增强广泛用于增强视觉分类任务中的泛化能力。然而,由于传统方法无法解决域差异,因此在源域和目标域不同的情况下(例如在域适应中)表现不佳。本文介绍了 GenMix,一种通用的提示引导生成数据增强方法,可以增强域内和跨域图像分类。我们的技术利用图像编辑根据自定义条件提示生成增强图像,这些提示是专门为每种问题类型设计的。通过将输入图像的部分与其编辑后的生成对应物混合,并结合分形图案,我们的方法减少了不真实的图像和标签歧义,从而提高了最终模型的性能和对抗鲁棒性。我们在八个公共数据集上进行了广泛的实验,涵盖了通用和细粒度分类,以及域内和跨域设置,证实了我们方法的有效性。此外,我们还展示了在自监督学习、数据稀缺学习和对抗鲁棒性方面的性能改进。与现有的最先进方法相比,我们的技术在各个方面都取得了更强的性能。  
2024-12-03 Active Learning via Classifier Impact and Greedy Selection for Interactive Image Retrieval link 主动学习 (AL) 是一种用户交互方法,旨在通过选择最关键的示例进行标记来降低标注成本。尽管 AL 已被广泛研究用于图像分类任务,但交互式图像检索的特定场景却很少受到关注。这种情况呈现出独特的特征,包括开放集和类别不平衡的二元分类,并且从很少的标记样本开始。我们引入了一个名为 GAL(贪婪主动学习)的新型批量模式主动学习框架,它可以更好地应对这种应用。它包含一个用于样本选择的新的获取函数,用于衡量每个未标记样本对分类器的影响。我们进一步将此策略嵌入到贪婪选择方法中,更好地利用每个批次中的样本。我们使用线性和非线性 MLP/高斯过程分类器评估了我们的框架。对于高斯过程情况,我们展示了贪婪近似的理论保证。最后,我们评估了我们针对几个基准上的基于交互式内容的图像检索任务的性能,并证明了其优于现有方法和常见基线的性能。代码可在 https://github.com/barleah/GreedyAL 获取。  
2024-12-03 CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution null 轻量级图像超分辨率 (SR) 方法旨在使用轻量级神经网络来提高图像的分辨率并恢复图像细节。然而,目前的轻量级 SR 方法仍然存在性能较差和细节不佳的问题。我们的分析表明,这些方法受到特征多样性不足的限制,这会对特征表示和细节恢复产生负面影响。为了解决这个问题,我们提出了一个简单而有效的基线模型,称为 CubeFormer,旨在通过完整的全局信息聚合来增强特征丰富度。具体来说,我们引入了立方体注意力机制,将 2D 注意力扩展到 3D 空间,促进更全面的信息交互,进一步鼓励全面信息提取并提升特征多样性。此外,我们注入了块采样和网格采样策略来构建立方体内 Transformer 块 (Intra-CTB) 和立方体间 Transformer 块 (Inter-CTB),分别执行局部和全局建模。大量实验表明,我们的 CubeFormer 在常用的 SR 基准测试中实现了最先进的性能。我们的源代码和模型将公开发布。  
2024-12-03 GSOT3D: Towards Generic 3D Single Object Tracking in the Wild link 在本文中,我们提出了一个名为 GSOT3D 的全新基准测试,旨在促进野外通用三维单目标跟踪 (SOT) 的发展。具体而言,GSOT3D 提供了 620 个序列,包含 123K 帧,涵盖 54 个目标类别。每个序列都提供多种模态,包括点云 (PC)、RGB 图像和深度信息。这使得 GSOT3D 能够支持各种三维跟踪任务,例如基于点云的单模态三维 SOT 和基于 RGB-PC 或 RGB-D 的多模态三维 SOT,从而极大地拓宽了三维目标跟踪的研究方向。为了提供高质量的逐帧三维标注,所有序列都经过多轮细致的人工检查和 refinement。据我们所知,GSOT3D 是目前最大的致力于各种通用三维目标跟踪任务的基准测试。为了了解现有三维跟踪器的性能并为 GSOT3D 的未来研究提供比较,我们评估了八个具有代表性的基于点云的跟踪模型。我们的评估结果表明,这些模型在 GSOT3D 上的性能大幅下降,需要付出更多努力来实现鲁棒和通用的三维目标跟踪。此外,为了鼓励未来的研究,我们提出了一个简单而有效的通用三维跟踪器,名为 PROT3D,它通过渐进式时空网络定位目标对象,并大幅超越了所有现有解决方案。通过发布 GSOT3D,我们期望在未来的研究和应用中进一步推进三维跟踪。我们的基准测试、模型以及评估结果将在我们的网页 https://github.com/ailovejinx/GSOT3D 上公开发布。  
2024-12-03 Redundant Queries in DETR-Based 3D Detection Methods: Unnecessary and Prunable null 基于查询的模型广泛用于三维目标检测任务,并且有大量预训练的检查点可供在线使用。然而,尽管这些模型很受欢迎,它们通常需要过多的对象查询,远远超过实际需要检测的对象数量。冗余的查询会导致不必要的计算和内存成本。在本文中,我们发现并非所有查询的贡献都相同——很大一部分查询的影响远小于其他查询。基于这一观察,我们提出了一个非常简单的方法,称为逐步修剪查询(GPQ),它根据查询的分类得分逐步修剪查询。它可以很容易地应用于任何基于查询的方法,因为它可以作为微调步骤无缝集成到训练后的现有检查点中。使用GPQ,用户可以轻松地从具有过多查询的检查点开始,生成多个查询较少的模型。在各种先进的三维检测器上的实验表明,GPQ可以有效地减少冗余查询,同时保持性能。使用我们的方法,在桌面GPU上的模型推理可以加速高达1.31倍。此外,在边缘设备上部署后,它可以减少高达67.86%的FLOPs和76.38%的推理时间。代码将在\url{https://github.com/iseri27/Gpq}上提供。  
2024-12-02 HPRM: High-Performance Robotic Middleware for Intelligent Autonomous Systems null 智能自主系统的兴起,尤其是在机器人和自主代理领域,对能够确保大量传感器数据实时处理的稳健通信中间件提出了迫切需求。当前的机器人中间件,如机器人操作系统 (ROS) 2,在多核计算平台上处理跨多个订阅者的海量数据时,面临着非确定性和高通信延迟的挑战。为了解决这些问题,我们提出了高性能机器人中间件 (HPRM),它构建于确定性协调语言 Lingua Franca (LF) 之上。HPRM 采用了一系列优化策略,包括用于高效零拷贝传输大型有效负载的内存对象存储、用于最小化序列化开销的自适应序列化以及带有实时套接字的主动协议以减少握手延迟。基准测试表明,在向多个节点广播大型消息时,HPRM 的延迟比 ROS2 低 173 倍。然后,我们通过将 HPRM 与 CARLA 模拟器集成,并运行强化学习代理以及目标检测工作负载来展示 HPRM 的优势。在 CARLA 自动驾驶应用中,HPRM 的延迟比 ROS2 降低了 91.1%。HPRM 的确定性协调语义与其优化的进程间通信机制相结合,可为智能自主系统实现高效且可预测的实时通信。  
2024-12-02 Identifying Reliable Predictions in Detection Transformers null 检测Transformer (DETR) 已成为一种很有前景的目标检测架构,它提供了一个端到端的预测流程。然而,在实践中,DETR会生成数百个预测,远远超过图像中实际存在的目标数量。这就引出了一个问题:我们能否信任并使用所有这些预测?为了解决这个问题,我们提供了经验证据,强调了同一图像内的不同预测如何扮演不同的角色,导致这些预测的可靠性水平各不相同。更具体地说,虽然通常会对单个目标进行多个预测,但我们的研究结果表明,大多数情况下,其中一个预测是经过良好校准的,而其他预测的校准效果很差。基于这些见解,我们证明了识别DETR预测的可靠子集对于准确评估模型在目标和图像级别的可靠性至关重要。基于这一观点,我们首先解决了广泛使用的性能和校准指标(例如平均精度和各种形式的预期校准误差)的缺点。具体来说,它们不足以确定应该信任和使用DETR预测的哪个子集。为此,我们提出了目标级校准误差 (OCE),它能够评估不同模型之间以及特定模型内各种配置之间的校准质量。作为最后一项贡献,我们引入了一个事后不确定性量化 (UQ) 框架,用于预测模型在每张图像上的准确性。通过对比由OCE确定的正(即可能匹配)和负预测的平均置信度分数,该框架评估了DETR模型对于每个测试图像的可靠性。  
2024-11-29 Real-Time Anomaly Detection in Video Streams null 本论文是Othello公司与LIASD实验室CIFRE协议的一部分。目标是开发一种能够实时检测视频流中危险的人工智能系统。为此,提出了一种结合时空分析的新方法。为了改进异常检测,探索了多种途径,包括整合目标检测、人体姿态检测和运动分析。为了提高结果的可解释性,将图像分析中常用的技术(如激活图和显著性图)扩展到视频分析,并提出了一种原创方法。根据是否需要识别警报或警报原因,所提出的架构执行二元或多类别分类。测试了大量的深度神经网络模型,并从中选择了三个模型。“你只看一次”(YOLO)用于空间分析,由VGG19和门控循环单元(GRU)组成的卷积循环神经网络(CRNN)用于时间分析,多层感知器用于分类。这些模型处理不同类型的数据,并且可以并行或串行组合。虽然并行模式速度更快,但串行模式通常更可靠。为了训练这些模型,选择了监督学习,并创建了两个专有的数据集。第一个数据集关注可能在异常中起潜在作用的目标,而第二个数据集由包含异常或非异常的视频组成。这种方法允许处理连续视频流和有限视频,从而在检测中提供更大的灵活性。  
2024-11-29 LDA-AQU: Adaptive Query-guided Upsampling via Local Deformable Attention link 特征上采样是构建深度卷积神经网络的重要操作。然而,现有的上采样器要么缺乏特定特征的指导,要么需要利用高分辨率特征图,导致性能和灵活性下降。本文发现局部自注意力机制天然具备特征引导能力,其计算范式与特征上采样的本质(即相邻点的特征重组)高度契合。因此,我们将局部自注意力机制引入上采样任务,并证明大多数现有的上采样器都可以视为基于局部自注意力的上采样器的特例。考虑到上采样点与其相邻点之间可能存在的语义差距,我们进一步在基于局部自注意力的上采样器中引入了变形机制,从而提出了LDA-AQU。作为一个新颖的基于动态核的上采样器,LDA-AQU利用查询特征来引导模型自适应地调整相邻点的位置和聚合权重,从而满足各种复杂场景下的上采样需求。此外,LDA-AQU轻量且易于集成到各种模型架构中。我们在四个密集预测任务(目标检测、实例分割、全景分割和语义分割)上评估了LDA-AQU的有效性。LDA-AQU始终优于先前最先进的上采样器,与基线模型相比,在上述四个任务中分别实现了1.7 AP、1.5 AP、2.0 PQ和2.5 mIoU的性能提升。代码可在\url{https://github.com/duzw9311/LDA-AQU}获取。  
2024-11-29 Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding null 将语义信息注入三维高斯 splatting (3DGS) 近期受到了广泛关注。尽管目前的方法通常从二维基础模型(例如 CLIP 和 SAM)中提取三维语义特征,以便进行新视角分割和语义理解,但它们对二维监督的严重依赖会破坏跨视角语义一致性,并需要复杂的数据准备过程,从而阻碍视角一致的场景理解。在本工作中,我们提出了 FreeGS,一个无监督的语义嵌入式 3DGS 框架,无需二维标签即可实现视角一致的三维场景理解。我们没有直接学习语义特征,而是在 3DGS 中引入了身份耦合语义场 (IDSF),它可以捕获每个高斯的语义表示和视角一致的实例索引。我们采用两步交替策略优化 IDSF:语义有助于在三维空间中提取连贯的实例,而生成的实例则规范了从二维空间注入的稳定语义。此外,我们采用了二维-三维联合对比损失,以增强自举过程中视角一致的三维几何形状和丰富语义之间的互补性,使 FreeGS 能够统一执行新视角语义分割、对象选择和三维目标检测等任务。在 LERF-Mask、3D-OVS 和 ScanNet 数据集上的大量实验表明,FreeGS 的性能与最先进的方法相当,同时避免了复杂的数据预处理工作。  
2024-11-29 Contextual Checkerboard Denoise – A Novel Neural Network-Based Approach for Classification-Aware OCT Image Denoising link 与非医学图像去噪主要目标是增强图像清晰度不同,医学图像去噪要求在不引入新伪影的同时保留关键特征。然而,许多提高图像清晰度的去噪方法会无意中改变去噪图像的关键信息,从而可能损害分类性能和诊断质量。此外,由于噪声医学图像的“真值”去噪版本通常极难获得,因此监督去噪方法在医学图像领域并不十分实用。在本文中,我们通过引入一种新的基于神经网络的方法——“上下文棋盘去噪”来解决这两个问题,该方法可以仅从噪声图像数据集中学习去噪,同时保留图像分类/分析所需的关键解剖细节。我们在真实的光学相干断层扫描 (OCT) 图像上进行了实验,并通过经验证明,我们提出的方法显着提高了图像质量,提供了更清晰、更详细的 OCT 图像,同时提高了诊断准确性。  
2024-11-28 CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections null 在基础模型时代,CLIP已成为将文本和视觉模态对齐到共同嵌入空间的强大工具。然而,用于训练CLIP的对齐目标通常会导致细粒度任务的视觉特征欠佳。相比之下,像DINO这样的SSL预训练模型由于其专门的训练范式而擅长提取丰富的视觉特征。然而,这些SSL模型需要额外的监督线性探测步骤,这依赖于完全标记的数据,而这些数据通常很昂贵且难以大规模获取。在本文中,我们提出了一种无标签提示调整方法,它利用自监督学习模型(DINO)的丰富视觉特征和大型语言模型(LLM)的广泛文本知识,在使用未标记图像的情况下大幅增强基于CLIP的图像分类性能。我们的方法分三个关键步骤展开:(1)我们利用来自LLM的特定类别描述生成更准确地表示对象类别的鲁棒文本特征嵌入,与CLIP的默认名称特定提示相比,实现更有效的零样本分类。(2)然后,这些文本嵌入用于生成伪标签,以训练一个对齐模块,该模块整合了基于LLM描述的文本嵌入和DINO视觉特征的互补优势。(3)最后,我们使用训练好的对齐模块,通过DINO辅助监督来提示调整CLIP的视觉编码器。这个三步过程使我们能够利用视觉和文本基础模型的最佳特性,从而形成一种强大而高效的方法,超越了最先进的无标签分类方法。值得注意的是,我们的框架NoLA(No Labels Attached)在11个不同的图像分类数据集上比最先进的LaFter平均绝对增益3.6%。  
2024-11-28 Quantum Neural Networks in Practice: A Comparative Study with Classical Models from Standard Data Sets to Industrial Images null 图像分类任务是经典机器学习模型能够可靠解决的最突出示例之一。在本研究中,我们比较了随机经典和量子神经网络以及经典和量子-经典混合卷积神经网络在二元图像分类任务中的性能。为此,我们采用了各种复杂度递增的数据集 - (i) 人工超立方体数据集,(ii) MNIST 手写数字,以及 (iii) 来自激光切割机的真实工业图像。我们分析了所采用的量子模型的性能,并关注分类精度与各种超参数之间的相关性。对于随机量子神经网络,我们还将其性能与一些已知的文献模型进行了比较,并研究了在一个数据集上表现最佳的模型在其他数据集上的表现。总的来说,我们观察到经典模型、量子模型和混合模型的性能相当相似。我们的研究为量子机器学习在实际图像分类任务中的前景提供了行业视角。  
2024-11-28 On Moving Object Segmentation from Monocular Video with Transformers null 从单个移动摄像机中检测和分割运动物体是一项具有挑战性的任务,需要理解识别、运动和 3D 几何。将识别和重建结合起来归结为一个融合问题,其中需要结合外观和运动特征进行分类和分割。在本文中,我们提出了一种用于单目运动分割的新型融合架构——M3Former,它利用了Transformer在分割和多模态融合方面的强大性能。由于从单目视频重建运动是一个不适定问题,我们系统地分析了针对此问题的不同 2D 和 3D 运动表示及其对分割性能的重要性。最后,我们分析了训练数据的影响,并表明需要多样化的数据集才能在 Kitti 和 Davis 上达到最先进的性能。  
2024-11-28 Comprehensive Performance Evaluation of YOLOv11, YOLOv10, YOLOv9, YOLOv8 and YOLOv5 on Object Detection of Power Equipment null 随着全球工业生产的快速发展,对电力设备可靠性的需求不断提高。确保电力系统运行的稳定性需要精确的方法来检测电力设备的潜在故障,从而保障电能的正常供应。本文综合评估了YOLOv5、YOLOv8、YOLOv9、YOLOv10和最先进的YOLOv11方法在电力设备目标检测中的性能。实验结果表明,在电力设备公共数据集上,它们的平均精度均值(mAP)分别为54.4%、55.5%、43.8%、48.0%和57.2%,其中YOLOv11的检测性能最高。此外,YOLOv11在召回率方面也优于其他方法,并在减少误检方面表现出优异的性能。综上所述,研究结果表明YOLOv11模型为电力设备目标检测提供了一种可靠有效的解决方案,是提高电力系统运行可靠性的一种很有前景的方法。  
2024-11-28 Improving Batch Normalization with TTA for Robust Object Detection in Self-Driving null 在当前开放的真实世界自动驾驶场景中,传感器故障和极端天气条件等挑战阻碍了大多数自动驾驶感知模型泛化到这些未见领域,这是由于测试数据和训练数据之间的域偏移造成的。随着自动驾驶感知模型参数规模的增长,传统的测试时适应(TTA)方法变得不稳定,并且在大多数场景下通常会降低模型性能。为了应对这些挑战,本文提出了两种新的鲁棒性方法来改进自动驾驶目标检测中结合TTA的批量归一化:(1)我们引入了一种基于广义搜索熵最小化(GSEM)方法的可学习BN层。具体来说,我们通过引入辅助可学习参数来修改传统的BN层,这使得BN层能够根据不同的输入数据动态更新统计数据。(2)我们提出了一种新的基于语义一致性的双阶段适应策略,鼓励模型迭代搜索最优解,并在适应过程中消除不稳定的样本。在NuScenes-C数据集上的大量实验表明,我们的方法在使用BEVFormer作为基线模型的情况下,在六种损坏类型和三种严重程度下实现了高达约8%的最大改进。我们将很快公开我们的源代码。  
2024-11-28 COMPrompter: reconceptualized segment anything model with multiprompt network for camouflaged object detection link 我们重新思考了Segment Anything Model (SAM) 并提出了一种名为COMPrompter的多提示符网络,用于伪装目标检测 (COD)。SAM具备超越其他模型的零样本泛化能力,可以为COD提供理想的框架。我们的网络旨在将SAM中的单提示符策略增强为多提示符策略。为此,我们提出了一个边缘梯度提取模块,生成包含伪装目标边界梯度信息的掩码。该梯度掩码随后被用作一种新的边界提示符,增强分割过程。此后,我们设计了一个框-边界相互引导模块,通过边界提示符和框提示符之间的相互引导,促进更精确和全面的特征提取。这种协作增强了模型准确检测伪装目标的能力。此外,我们采用离散小波变换从图像嵌入中提取高频特征。这些高频特征作为多提示符系统的补充组件。最后,我们的COMPrompter引导网络实现增强的分割结果,从而推进了SAM在COD方面的应用发展。跨COD基准的实验结果表明,COMPrompter实现了最先进的性能,在COD10K中平均正指标超过当前领先模型2.2%。在COD的具体应用中,息肉分割的实验结果表明,我们的模型也优于顶级方法。代码将在https://github.com/guobaoxiao/COMPrompter上发布。  
2024-11-27 Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data null 在21世纪信息时代,随着大数据技术的发展,如何从海量数据中有效地提取有价值的信息成为了一个关键问题。传统的 数据挖掘方法在面对大规模、高维度和复杂数据时显得力不从心,尤其是在标记数据稀缺的情况下,其性能受到极大限制。本研究通过引入半监督学习方法来优化数据挖掘算法,旨在提高算法利用未标记数据的能力,从而在有限的标记数据条件下实现更准确的数据分析和模式识别。具体而言,我们采用了一种自训练方法,并将其与卷积神经网络 (CNN) 相结合,用于图像特征提取和分类,通过迭代过程不断提高模型的预测性能。实验结果表明,在CIFAR-10图像分类数据集上,该方法的性能显著优于支持向量机 (SVM)、XGBoost和多层感知器 (MLP) 等传统机器学习技术。在准确率、召回率和F1值等关键性能指标上均有显著提升。此外,通过在不同噪声水平下的实验,验证了半监督CNN模型的鲁棒性和抗噪能力,证实了其在实际场景中的实用性。  
2024-11-27 Pruning Deep Convolutional Neural Network Using Conditional Mutual Information null 卷积神经网络 (CNN) 在图像分类任务中取得了很高的性能,但由于模型规模庞大,难以部署在资源受限的硬件上。为了解决这个问题,我们利用互信息(Mutual Information),这是一种通过测量输入特征或输出标签与网络层之间的共享信息来深入了解深度学习模型如何保留和处理信息的指标。在本研究中,我们提出了一种用于 CNN 的结构化滤波器剪枝方法,该方法可以识别并选择性地保留每一层中最具信息量的特征。我们的方法通过基于条件互信息 (CMI) 值对特征图的重要性进行排序来依次评估每一层,CMI 值使用基于矩阵的 Renyi α 阶熵数值方法计算。我们提出了几种 CMI 公式来捕捉不同层之间特征的相关性。然后,我们开发了各种策略来确定 CMI 值的截止点,以剪枝不重要的特征。这种方法允许在正向和反向两个方向上并行剪枝,并在显著减小模型尺寸的同时保持准确性。在使用 CIFAR-10 数据集的 VGG16 架构上进行测试,所提出的方法将滤波器数量减少了三分之一以上,测试精度仅下降了 0.32%。  
2024-11-27 A comparison of extended object tracking with multi-modal sensors in indoor environment null 本文初步研究了一种高效的目标跟踪方法,比较了两种不同的3D点云传感器源——激光雷达和立体摄像机的性能,这两种传感器价格差异显著。在这项初步工作中,我们专注于单目标跟踪。我们首先开发了一种快速启发式目标检测器,它利用了关于环境和目标的先验信息。随后将得到的目标点输入到一个扩展目标跟踪框架中,该框架使用星凸超曲面模型来参数化目标形状。实验结果表明,我们使用立体摄像机的目标跟踪方法实现了与激光雷达传感器相似的性能,而成本差异超过十倍。  
2024-11-27 Efficient Dynamic LiDAR Odometry for Mobile Robots with Structured Point Clouds null 我们提出了一种用于城市搜救 (USAR) 场景中移动机器人的实时动态激光雷达里程计管道。现有的动态物体检测方法通常依赖于预训练的学习网络或计算成本高昂的体积地图。为了提高计算能力有限的机器人的效率,我们在里程计和检测模块之间重用数据。利用距离图像分割技术和一种新颖的基于残差的启发式方法,我们的方法在将动态物体和静态物体集成到点云地图之前对其进行区分。该方法在具有大量动态物体的环境中展示了稳健的物体跟踪和改进的地图精度。即使是高度非刚性物体(例如奔跑的人)也能在点级别准确检测,而无需事先对点云进行下采样,因此不会丢失信息。对模拟数据和真实数据的评估验证了其计算效率。与最先进的体积方法相比,我们的方法在处理时间的一小部分内显示出相当的检测性能,仅为里程计模块增加了 14 毫秒用于动态物体检测和跟踪。该实现和一个新的真实世界数据集作为开源提供,以供进一步研究。  
2024-11-27 Uncertainty-driven Sampling for Efficient Pairwise Comparison Subjective Assessment null 图像质量评估在图像处理任务中至关重要,例如压缩、超分辨率和去噪。虽然涉及人类评估者的主观评估提供了最准确的质量分数,但由于其高成本和时间要求,它们对于大规模或持续评估来说是不切实际的。 成对比较主观评估测试,对图像对进行排序而不是分配分数,提供了更高的可靠性和准确性,但需要大量的比较,导致高成本。尽管客观质量指标更有效率,但它们缺乏主观测试的精度,而主观测试对于基准测试和训练基于学习的质量指标至关重要。本文提出了一种基于不确定性的采样方法来优化成对比较主观评估过程。通过利用深度学习模型来估计人类偏好并识别需要人工标注的图像对,该方法在保持高精度的同时减少了所需的比较次数。 主要贡献包括对不确定性进行建模以实现准确的偏好预测和成对采样。实验结果表明,与传统的主动采样方法相比,该方法具有优越的性能。软件可在 shimamohammadi/LBPS-EIC 公开获取。  
2024-11-27 Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks link 多光谱目标检测,利用RGB和TIR(热红外)两种模态,被广泛认为是一项具有挑战性的任务。它不仅需要从两种模态中有效地提取特征和鲁棒的融合策略,还需要解决诸如RGB和TIR图像之间的光谱差异、空间错位以及环境依赖性等问题。这些挑战显著地阻碍了多光谱检测系统在不同场景下的泛化能力。尽管许多研究试图克服这些限制,但仍然难以清晰地区分多光谱检测系统的性能提升与这些“优化技术”的影响。更糟糕的是,尽管高性能单模态检测模型迅速涌现,但仍然缺乏能够有效地将这些模型应用于多光谱检测任务的专门训练技术。缺乏具有公平和一致实验设置的标准化基准也对评估新方法的有效性构成了重大障碍。为此,我们提出了第一个专门用于评估训练“技术”的公平且可复现的基准,该基准系统地分类了现有的多光谱目标检测方法,研究了它们对超参数的敏感性,并标准化了核心配置。我们利用各种骨干网络和检测框架,在多个具有代表性的多光谱目标检测数据集上进行了全面评估。此外,我们引入了一个高效且易于部署的多光谱目标检测框架,可以将高性能的单模态模型无缝地优化为双模态模型,并集成了我们先进的训练技术。  
2024-11-27 TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution null 预训练的文本到图像扩散模型越来越多地应用于现实世界图像超分辨率 (Real-ISR) 任务。鉴于扩散模型的迭代细化性质,大多数现有方法的计算成本都很高。虽然 SinSR 和 OSEDiff 等方法已经出现,通过蒸馏来减少推理步骤,但它们在图像恢复或细节恢复方面的性能并不令人满意。为了解决这个问题,我们提出了 TSD-SR,这是一个专门为现实世界图像超分辨率设计的蒸馏框架,旨在构建一个高效且有效的一步模型。我们首先引入了目标分数蒸馏,它利用扩散模型和真实图像参考的先验知识来实现更真实的图像恢复。其次,我们提出了一个分布感知采样模块,使面向细节的梯度更容易获得,从而解决了恢复精细细节的挑战。大量实验表明,与过去基于预训练扩散先验的 Real-ISR 方法相比,我们的 TSD-SR 具有更好的恢复结果(大多数指标表现最佳)和最快的推理速度(例如比 SeeSR 快 40 倍)。  
2024-11-27 KANs for Computer Vision: An Experimental Study null 本文对Kolmogorov-Arnold网络(KANs)在计算机视觉任务,特别是图像分类中的应用进行了实验研究。相比于传统的多层感知机(MLPs)和卷积神经网络(CNNs)等使用预定义激活函数的神经网络,KANs在网络连接边上引入了可学习的激活函数,从而提供更灵活的非线性变换能力。虽然KANs在简化或小规模数据集上已展现出一定的潜力,但其在更复杂的现实世界任务(例如计算机视觉任务)中的有效性仍有待探索。为了填补这一空白,本实验研究旨在提供对KANs优势和局限性的更广泛观察和见解。我们发现,尽管KANs在某些视觉任务中可以表现良好,但它们也面临着一些重大挑战,包括超参数敏感性增加和计算成本较高。这些局限性表明,为了将KANs应用于大规模视觉问题,需要对其架构进行调整,例如与其他架构进行集成。本研究侧重于实证结果,而非提出新方法,旨在为未来关于KANs优化的研究,特别是计算机视觉应用或类似应用的研究提供参考。  
2024-11-27 From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects link 传统的目标检测方法在闭集假设下运行,其中模型只能检测训练集中预定义的固定数量的对象。最近关于开放词汇目标检测 (OVD) 的工作使得能够检测由无限词汇定义的对象,从而降低了为特定任务训练模型的成本。然而,OVD 严重依赖于“预言机”提供的准确提示,这限制了它们在驾驶场景感知等关键应用中的使用。OVD 模型倾向于错误分类与已知类别语义相似的近分布外 (NOOD) 对象,而忽略远分布外 (FOOD) 对象。为了解决这些限制,我们提出了一个框架,使 OVD 模型能够在开放世界环境中运行,通过识别和增量学习新对象。为了检测 FOOD 对象,我们提出了开放世界嵌入学习 (OWEL),并引入了伪未知嵌入的概念,该概念基于已知类别信息在连续语义空间中推断未知类别的位置。我们还提出了多尺度对比锚学习 (MSCAL),通过提高不同尺度下对象嵌入的类内一致性,从而能够识别错误分类的未知对象。所提出的方法在常见的开放世界目标检测和自动驾驶基准测试中实现了最先进的性能。  
2024-11-27 HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution null 在图像超分辨率研究领域,基于Swin Transformer的模型因其全局空间建模和滑动窗口注意力机制而备受青睐。然而,现有方法通常将自注意力限制在非重叠窗口内以降低计算成本,却忽略了跨通道存在的有效信息。为了解决这个问题,本文提出了一种新颖的模型,称为混合注意力聚合Transformer(HAAT),旨在更好地利用特征信息。HAAT通过集成Swin密集残差连接块(SDRCB)和混合网格注意力块(HGAB)而构建。SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB结合了通道注意力、稀疏注意力和窗口注意力,以改进非局部特征融合并获得更具视觉吸引力的结果。实验评估表明,HAAT在基准数据集上的性能超越了现有最先进的方法。关键词:图像超分辨率,计算机视觉,注意力机制,Transformer  
2024-11-26 A Distractor-Aware Memory for Visual Object Tracking with SAM2 link 基于内存的跟踪器是视频对象分割方法,它通过将最近跟踪的帧连接到内存缓冲区来形成目标模型,并通过将当前图像与缓冲帧进行关联来定位目标。虽然已经在许多基准测试中取得了最佳性能,但最近发布的SAM2才使基于内存的跟踪器成为视觉对象跟踪领域的焦点。然而,现代跟踪器在存在干扰物的情况下仍然难以应对。我们认为需要一个更复杂的内存模型,并提出了一种新的干扰感知内存模型,用于SAM2和一个基于内省的更新策略,共同解决了分割精度和跟踪鲁棒性问题。由此产生的跟踪器被命名为SAM2.1++。我们还提出了一个新的干扰物蒸馏DiDi数据集,以更好地研究干扰物问题。SAM2.1++在七个基准测试中优于SAM2.1和相关的SAM内存扩展,并在其中六个基准测试中树立了新的最先进水平。  
2024-11-26 TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba link Mamba因其在对输入长度建模全局上下文时呈线性复杂度,在计算机视觉领域展现出巨大潜力。然而,现有的基于Mamba的轻量级骨干网络的性能却无法与基于卷积或Transformer的方法相媲美。我们观察到,简单地修改图像域中的扫描路径不利于充分发挥视觉Mamba的潜力。在本文中,我们首先进行了全面的频谱和定量分析,并验证了在卷积-Mamba混合架构下,Mamba模块主要建模低频信息。基于这些分析,我们引入了一种新颖的拉普拉斯混合器,用于在频域上解耦特征,并将仅低频分量输入到Mamba模块中。此外,考虑到特征的冗余性以及不同阶段对高频细节和低频全局信息的不同需求,我们引入了频率渐变初始模块,即逐渐减小高频分支的输入维度,以便在不同层有效地权衡高频和低频分量。通过集成移动友好的卷积和高效的拉普拉斯混合器,我们构建了一系列名为TinyViM的微型混合视觉Mamba模型。所提出的TinyViM在图像分类、语义分割、目标检测和实例分割等多个下游任务中均取得了令人印象深刻的性能。特别是,TinyViM的性能优于规模相似的卷积、Transformer和基于Mamba的模型,吞吐量约为其他基于Mamba模型的2-3倍。代码可在https://github.com/xwmaxwma/TinyViM获取。  
2024-11-26 SpikeAtConv: An Integrated Spiking-Convolutional Attention Architecture for Energy-Efficient Neuromorphic Vision Processing null 脉冲神经网络 (SNN) 提供了一种受生物学启发的传统人工神经网络的替代方案,由于其事件驱动计算,在能效方面具有潜在优势。尽管前景广阔,但 SNN 在图像分类等复杂的视觉任务上尚未达到具有竞争力的性能。本研究介绍了一种旨在提高计算效率和任务准确性的新型 SNN 架构。该架构具有优化的脉冲模块,有助于处理视觉数据中的时空模式,旨在调和高级视觉任务的计算需求与 SNN 的节能处理。我们在标准图像分类基准上的评估表明,所提出的架构缩小了与传统神经网络的性能差距,为设计更高效、更强大的神经形态计算系统提供了见解。  
2024-11-26 Communication-Efficient Cooperative SLAMMOT via Determining the Number of Collaboration Vehicles null SLAMMOT,即同步定位、建图和移动物体(检测与)跟踪,代表了面向动态环境中自动驾驶汽车的新兴技术。这种单车系统仍然存在固有的局限性,例如遮挡问题。受SLAMMOT和快速发展的协作技术的启发,探索协作式同步定位、建图和移动物体(检测与)跟踪(C-SLAMMOT)以增强对本车和移动物体的状态估计是很自然的。C-SLAMMOT可以通过利用和整合多车之间通过通信共享的信息来显著提升单车性能。这不可避免地导致性能和通信成本之间的基本权衡,尤其是在协作车辆数量增加时如何以可扩展的方式进行。为了应对这一挑战,我们提出了一种基于激光雷达的通信高效C-SLAMMOT(CE C-SLAMMOT)方法,通过确定协作车辆的数量来实现。在CE C-SLAMMOT中,我们采用基于描述符的方法来增强本车姿态估计,并采用基于空间置信度图的方法进行协作目标感知,从而允许对相应的关键协作车辆和交互内容进行连续和动态的选择。与在所有车辆之间交换原始观测信息的基线方法相比,这种方法通过避免共享来自某些可能贡献很少或没有性能增益的协作车辆的信息,避免了宝贵通信成本的浪费。在各个方面的对比实验已经证实,所提出的方法在性能和通信成本之间取得了良好的平衡,同时在协作感知性能方面也优于以往最先进的方法。  
2024-11-26 CoA: Chain-of-Action for Generative Semantic Labels link 近年来,视觉语言模型 (VLM) 在图像分类方面取得了显著进展。这些 VLM 利用预定义的类别集合来构建用于零样本推理的文本提示。然而,在像自动驾驶这样更开放的领域中,使用预定义的标签集变得不切实际,因为语义标签空间是未知的且不断变化的。此外,固定的嵌入文本提示通常倾向于预测单个标签(而实际上,每张图像通常存在多个标签)。在本文中,我们介绍了 CoA,这是一种创新的行动链 (CoA) 方法,可生成与图像所有上下文相关特征对齐的标签。CoA 的设计基于以下观察:丰富且有价值的上下文信息可以提高推理过程中的生成性能。传统的视觉语言模型倾向于输出单一且冗余的响应。因此,我们采用定制的 CoA 来缓解这个问题。我们首先将生成标签任务分解为详细的行动,并构建一个 CoA,最终实现生成目标。每个行动都从先前的行动中提取并合并关键信息,并将丰富的信息作为上下文传递给下一个行动,最终改进 VLM 生成全面且准确的语义标签的能力。我们通过对广泛使用的基准数据集进行全面评估来评估 CoA 的有效性,结果表明,关键性能指标均有显著提高。  
2024-11-26 BadScan: An Architectural Backdoor Attack on Visual State Space Models null 新引入的视觉状态空间模型 (VMamba) 使用状态空间机制 (SSM) 将图像解释为一系列图像块,与视觉Transformer (ViT) 相比,在各种计算机视觉任务中表现出卓越的性能。然而,最近的研究表明,深度模型容易受到对抗性攻击。一种常见的方法是在训练数据中嵌入触发器来重新训练模型,导致模型将数据样本错误分类到目标类别,这种现象称为后门攻击。在本文中,我们首先评估了 VMamba 模型对现有后门攻击的鲁棒性。基于此评估,我们引入了一种针对 VMamba 模型的新型架构后门攻击,称为 BadScan。这种攻击利用位平面切片来创建视觉上难以察觉的后门图像。在测试过程中,如果通过对修改后的触发图像块的第 k 个位平面执行异或运算检测到触发器,则 VMamba 的视觉状态空间 (VSS) 块中的传统 2D 选择性扫描 (SS2D) 机制将被我们新设计的 BadScan 块取代,该块包含四种新开发的扫描模式。我们证明了 BadScan 后门攻击对视觉状态空间模型构成了重大威胁,即使从头开始完全重新训练后仍然有效。在两个广泛使用的图像分类数据集 CIFAR-10 和 ImageNet-1K 上的实验结果表明,虽然视觉状态空间模型通常对当前的后门攻击表现出鲁棒性,但 BadScan 攻击特别有效,在误导 VMamba 模型及其变体方面实现了更高的触发准确率 (TAR)。  
2024-11-26 MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution null 近年来,图像超分辨率(SR)领域的显著进步得益于Transformer架构的引入。然而,传统的扩大自注意力窗口以捕捉更广阔上下文的技术存在固有缺陷,尤其是计算需求的显著增加。此外,现有模型在固定大小窗口内的特征感知限制了有效感受野和中间特征的多样性。本研究表明,跨不同空间范围灵活地整合注意力可以显著提升性能。基于这一见解,我们提出了专为SR任务设计的Multi-Range Attention Transformer (MAT)。MAT利用空洞卷积运算的固有计算优势,结合自注意力机制,促进了多范围注意力(MA)和稀疏多范围注意力(SMA),从而能够有效地捕捉局部和稀疏全局特征。结合局部特征提取,MAT巧妙地捕捉了不同空间范围的依赖关系,提高了特征表示的多样性和有效性。我们还引入了MSConvStar模块,增强了模型进行多范围表示学习的能力。综合实验表明,我们的MAT相比现有的最先进SR模型表现出更优异的性能,并具有显著的效率(比SRFormer-light快约3.3倍)。  
2024-11-26 PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution link 基于扩散的图像超分辨率 (SR) 模型已经展现出优越的性能,但代价是需要多个去噪步骤。然而,即使去噪步骤已被减少到一步,它们仍然需要高计算成本和存储需求,使其难以部署在硬件设备上。为了解决这些问题,我们提出了一种新颖的单步扩散 (OSD) 图像超分辨率的训练后量化方法,PassionSR,并引入自适应尺度。首先,我们通过移除 CLIPEncoder 将 OSD 模型简化为两个核心组件:UNet 和变分自编码器 (VAE)。其次,我们提出了可学习边界量化器 (LBQ) 和可学习等效变换 (LET) 来优化量化过程并操纵激活分布以实现更好的量化效果。最后,我们设计了一种分布式量化校准 (DQC) 策略,以稳定量化参数的训练并实现快速收敛。综合实验表明,PassionSR 使用 8 位和 6 位量化可以获得与全精度模型相当的视觉效果。此外,我们的 PassionSR 与最近领先的低比特量化图像超分辨率方法相比具有显著优势。我们的代码将在 https://github.com/libozhu03/PassionSR 发布。  
2024-11-26 ΩSFormer: Dual-Modal Ω-like Super-Resolution Transformer Network for Cross-scale and High-accuracy Terraced Field Vectorization Extraction null 梯田是水土保持(SWC)的重要工程实践。从遥感影像中提取梯田是监测和评估SWC的基础。本研究首次提出了一种用于梯田智能提取(TFVE)的新型双模态Ω形超分辨率Transformer网络,具有以下优点:(1)通过在编码器的每一步将原始高分辨率特征与下采样特征融合,并利用多头注意力机制,减少了传统多尺度下采样编码器产生的边缘分割误差;(2)通过提出一种Ω形网络结构,提高了TFVE的精度,该结构将光谱和地形数据丰富的的高级特征完全融合,形成跨尺度超分辨率特征;(3)验证了一种用于跨模态和跨尺度(即遥感影像和DEM之间空间分辨率不一致)超分辨率特征提取的最佳融合方案;(4)通过从粗到精和空间拓扑语义关系优化(STSRO)分割策略,减轻分割边缘像素之间的不确定性;(5)利用轮廓振动神经网络持续优化参数,并从语义分割结果迭代地矢量化梯田。此外,首次创建了用于基于深度学习的TFVE的深度学习遥感影像和DEM矢量数据集(DMRVD),涵盖了中国四个省份的九个研究区域,总覆盖面积为22441平方公里。为了评估ΩSFormer的性能,对经典网络和SOTA网络进行了比较。与精度最高的单模态遥感影像、单模态DEM和双模态结果相比,ΩSFormer的mIOU分别提高了0.165、0.297和0.128。  
2024-11-26 Event-based Spiking Neural Networks for Object Detection: A Review of Datasets, Architectures, Learning Rules, and Implementation link 脉冲神经网络 (SNN) 是一种受生物学启发的范例,为计算机视觉 (CV) 应用中的传统人工神经网络 (ANN) 提供了一种节能的替代方案。本文系统回顾了基于 SNN 的 CV 物体检测任务中使用的数据集、架构、学习方法、实现技术和评估方法。基于对 151 篇期刊和会议文章的分析,本综述整理归纳了:1) 全连接、卷积和循环架构的有效性;2) 直接无监督、直接监督和间接学习方法的性能;以及 3) 神经形态硬件实现中能耗、延迟和内存之间的权衡。本文还提供了一个开源代码库,其中包含用于构建 SNN 模型、基于事件的数据处理和 SNN 模拟的 Python 代码示例和详细资源。此外,还指出了 SNN 训练、硬件集成以及 CV 应用未来发展方向中的关键挑战。  
2024-11-22 A Real-Time DETR Approach to Bangladesh Road Object Detection for Autonomous Vehicles null 近年来,随着Transformer架构的出现,我们见证了计算机视觉领域的范式转变。检测Transformer已成为目标检测的先进解决方案,并且是自动驾驶汽车道路目标检测的潜在候选方案。尽管目标检测方案种类繁多,但实时DETR模型在推理时间上表现出明显更优的性能,且精度和性能损失最小。在我们的工作中,我们对基于孟加拉国的BadODD道路目标检测数据集使用了实时DETR(RTDETR)目标检测,并进行了必要的实验和测试。我们的结果在公开的60%测试集中获得了0.41518的mAP50得分,在私有的40%测试集中获得了0.28194的mAP50得分。  
2024-11-22 VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving null 本文介绍了VisionPAD,一种新型的自监督预训练范式,专为自动驾驶中以视觉为中心的算法而设计。与以往采用显式深度监督的神经渲染方法不同,VisionPAD利用更高效的三维高斯渲染技术,仅使用图像作为监督来重建多视图表示。具体而言,我们引入了一种用于体素速度估计的自监督方法。通过将体素变形到相邻帧并监督渲染输出,模型有效地学习了序列数据中的运动线索。此外,我们采用了多帧光度一致性方法来增强几何感知。它基于渲染深度和相对姿态将相邻帧投影到当前帧,通过纯图像监督增强了三维几何表示。在自动驾驶数据集上的大量实验表明,VisionPAD显著提高了三维目标检测、占据预测和地图分割的性能,并大幅超越了最先进的预训练策略。  
2024-11-21 Unveiling the Hidden: A Comprehensive Evaluation of Underwater Image Enhancement and Its Impact on Object Detection null 水下图像通常会遭受严重的退化,导致视觉质量和目标检测性能低下。本研究旨在评估最先进的图像增强模型,调查它们对水下目标检测的影响,并探索它们改善检测性能的潜力。为此,我们选择了涵盖主要增强类别的代表性水下图像增强模型,并分别将它们应用于两个最新的数据集:1)真实世界水下目标检测数据集 (RUOD),和 2)具有挑战性的水下植物检测数据集 (CUPDD)。在此之后,我们对增强后的图像进行了定性和定量分析,并开发了质量指数(Q-index)来比较原始图像和增强图像的质量分布。随后,我们比较了几个分别在原始图像集和增强图像集上训练和测试的 YOLO-NAS 检测模型的性能。然后,我们进行了相关性研究,以检验增强指标与检测性能之间的关系。我们还分析了训练后的检测器的推理结果,展示了增强提高检测性能的案例以及增强揭示了人工标注者遗漏目标的案例。这项研究表明,尽管增强通常会降低检测性能,但在某些情况下它仍然可以用于提高检测性能和更准确的人工标注。  
2024-11-21 DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding link 本文介绍了由IDEA研究院开发的统一的以对象为中心的视觉模型DINO-X,它拥有迄今为止最佳的开放世界目标检测性能。DINO-X采用与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构,以追求用于开放世界对象理解的对象级表示。为了简化长尾目标检测,DINO-X扩展了其输入选项,以支持文本提示、视觉提示和自定义提示。利用这些灵活的提示选项,我们开发了一个通用的对象提示来支持免提示的开放世界检测,从而可以在图像中检测任何物体,而无需用户提供任何提示。为了增强模型的核心基础能力,我们构建了一个包含超过1亿个高质量基础样本的大规模数据集,称为Grounding-100M,用于提升模型的开放词汇检测性能。在此类大规模基础数据集上进行预训练可以生成基础的对象级表示,使DINO-X能够集成多个感知头,以同时支持多个对象感知和理解任务,包括检测、分割、姿态估计、对象描述、基于对象的问答等。实验结果证明了DINO-X的优越性能。具体来说,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本目标检测基准测试中分别达到了56.0 AP、59.8 AP和52.4 AP。值得注意的是,它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了63.3 AP和56.5 AP,均比之前的SOTA性能提高了5.8 AP。这一结果突显了其在识别长尾对象方面的能力显著提升。  
2024-11-21 Transforming Static Images Using Generative Models for Video Salient Object Detection link 在许多视频处理任务中,利用大规模图像数据集是一种常见的策略,因为图像数据更丰富,便于进行全面的知识迁移。一种典型的模拟静态图像视频的方法是应用空间变换,例如仿射变换和样条变形,以创建模拟时间进展的序列。然而,在诸如视频显著目标检测等任务中,外观和运动线索都至关重要,这些基本的图像到视频技术无法生成捕捉每个对象独立运动特性的真实光流。在本研究中,我们展示了图像到视频的扩散模型可以生成静态图像的逼真变换,同时理解图像组件之间的上下文关系。这种能力使模型能够生成似是而非的光流,在保留语义完整性的同时反映场景元素的独立运动。通过以这种方式增强单个图像,我们创建了大规模的图像-光流对,从而显著增强了模型训练。我们的方法在所有公共基准数据集上都实现了最先进的性能,优于现有方法。  
2024-11-20 MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection null 利用时间信息提升自动驾驶领域三维检测性能近年来取得了显著进展。传统的基于Transformer的时间融合方法会随着帧序列长度的增加而面临二次计算成本和信息衰减的问题。在本文中,我们提出了一种名为MambaDETR的新方法,其主要思想是在高效的状态空间中实现时间融合。此外,我们设计了一个运动消除模块,用于移除相对静态的物体,以便进行时间融合。在标准nuScenes基准测试中,我们提出的MambaDETR在三维目标检测任务中取得了显著成果,在现有的时间融合方法中展现了最先进的性能。  
2024-11-20 HF-Diff: High-Frequency Perceptual Loss and Distribution Matching for One-Step Diffusion-Based Image Super-Resolution null 虽然最近基于扩散的单步超分辨率方法相比SinSR取得了更好的性能,但它们的计算复杂度很高。为了提高SinSR的性能,我们研究了如何在超分辨率(SR)过程中保留高频细节特征,因为降级的图像缺乏详细信息。为此,我们利用在ImageNet数据集上预训练的可逆神经网络(INN)引入了高频感知损失。预训练INN的不同特征图产生了图像的不同高频方面。在训练阶段,我们强制保留超分辨率图像和 ground truth (GT) 图像的高频特征,从而提高推理过程中SR图像的质量。此外,我们还利用预训练DINO-v2嵌入空间中GT图像和SR图像之间的Jensen-Shannon散度来匹配它们的分布。通过在单步基于扩散的SR(HF-Diff)中引入高频保留损失和分布匹配约束,我们在基准RealSR、RealSet65、DIV2K-Val和ImageNet数据集上实现了最先进的CLIPIQA分数。此外,在多个数据集上的实验结果表明,我们的高频感知损失比LPIPS和基于VGG的感知损失能产生更好的SR图像质量。我们的代码将在https://github.com/shoaib-sami/HF-Diff发布。  
2024-11-20 DIS-Mine: Instance Segmentation for Disaster-Awareness in Poor-Light Condition in Underground Mines null 多年来,检测地下矿井中的灾害,例如爆炸和结构损坏,一直是一项持续的挑战。对于急救人员来说,这个问题更加复杂,他们通常不清楚矿井内损坏的程度或性质。矿井内光线不足甚至完全黑暗,使得救援工作异常困难,导致悲惨的生命损失。在本文中,我们提出了一种名为 DIS-Mine 的新型实例分割方法,专门用于识别低光或能见度差条件下地下矿井中受灾区域,帮助急救人员进行救援。DIS-Mine 能够通过解决高噪声、颜色失真和对比度降低等挑战,即使在完全黑暗的环境下也能检测图像中的物体。DIS-Mine 的关键创新基于四个核心组件:i) 图像亮度提升,ii) 与 SAM 集成的实例分割,iii) 基于 Mask R-CNN 的分割,以及 iv) 基于特征匹配的掩码对齐。此外,我们从一个实验性地下矿井收集了真实世界的图像,引入了一个名为 ImageMine 的新数据集,该数据集专门在低能见度条件下收集。该数据集用于验证 DIS-Mine 在现实、具有挑战性的环境中的性能。我们对 ImageMine 数据集以及其他各种数据集进行的综合实验表明,DIS-Mine 实现了 86.0% 的优异 F1 分数和 72.0% 的 mIoU,优于最先进的实例分割方法,至少提高了 15 倍,目标检测精度提高了高达 80%。  
2024-11-20 Adversarial Diffusion Compression for Real-World Image Super-Resolution null 现实世界图像超分辨率 (Real-ISR) 旨在从由复杂未知过程降级的低分辨率输入重建高分辨率图像。虽然许多基于稳定扩散 (SD) 的 Real-ISR 方法取得了显著成功,但其缓慢的多步推理阻碍了实际部署。最近基于 SD 的单步网络如 OSEDiff 和 S3Diff 缓解了这个问题,但由于依赖大型预训练 SD 模型,仍然会导致高计算成本。本文提出了一种新的 Real-ISR 方法,AdcSR,通过在我们提出的对抗性扩散压缩 (ADC) 框架下将单步扩散网络 OSEDiff 蒸馏成一个精简的扩散-GAN 模型。我们仔细研究了 OSEDiff 的模块,将其分为两类:(1)可移除的(VAE 编码器、提示提取器、文本编码器等)和(2)可修剪的(去噪 UNet 和 VAE 解码器)。由于直接移除和修剪会降低模型的生成能力,我们预训练了修剪后的 VAE 解码器以恢复其解码图像的能力,并采用对抗性蒸馏来弥补性能损失。这种基于 ADC 的扩散-GAN 混合设计有效地降低了复杂性,推理时间减少了 73%,计算量减少了 78%,参数减少了 74%,同时保留了模型的生成能力。实验表明,我们提出的 AdcSR 在合成数据集和真实世界数据集上都实现了具有竞争力的恢复质量,比以前的单步基于扩散的方法实现了高达 9.3 倍的加速。代码和模型将公开发布。  
2024-11-20 RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content null 超分辨率 (SR) 是一种通过提高空间分辨率并重建精细细节来改善视频内容视觉质量的关键技术。SR 已被应用于许多领域,包括视频流媒体,其中压缩的低分辨率内容通常传输给最终用户,然后以更高的分辨率和增强的质量进行重建。为了支持实时播放,在保持重建质量的同时实现快速 SR 模型至关重要;然而,大多数现有解决方案,尤其是那些基于复杂深度神经网络的方案,未能做到这一点。为了解决这个问题,本文提出了一种低复杂度的 SR 方法 RTSR,旨在提高压缩视频内容的视觉质量,重点关注 a) 从 360p 到 1080p 和 b) 从 540p 到 4K 的分辨率提升。该方法利用基于 CNN 的网络架构,该架构针对不同量化级别的 AV1 (SVT) 编码内容进行了优化,并基于双教师知识蒸馏方法。该方法已提交至 AIM 2024 视频超分辨率挑战赛,专门针对高效/移动实时视频超分辨率竞赛。在所有六份提交方案中,它在复杂度和编码性能(以 PSNR、SSIM 和 VMAF 衡量)之间实现了最佳的平衡。代码即将发布。  
2024-11-20 Teaching VLMs to Localize Specific Objects from In-context Examples link 视觉语言模型 (VLM) 在各种视觉任务中展现出卓越的能力,包括图像识别、视频理解和视觉问答 (VQA),前提是针对这些任务进行明确的训练。尽管取得了这些进展,我们发现目前的 VLM 缺乏一项基本的认知能力:通过考虑上下文来学习定位场景中的物体。在这项工作中,我们专注于少样本个性化定位任务,其中模型被给予一小组带注释的图像(上下文示例)——每个图像都带有类别标签和边界框——并被要求在查询图像中定位相同类型的对象。为了激发模型的个性化定位能力,我们提出了一种以数据为中心的解决方案,使用从视频对象跟踪数据集中精心挑选的数据对模型进行微调。通过利用跨多个镜头跟踪同一对象的帧序列,我们模拟了促进上下文感知的指令调整对话。为了强化这一点,我们引入了一种新的正则化技术,用伪名称替换对象标签,确保模型依赖视觉上下文而不是先验知识。我们的方法显著提高了少样本定位性能,且不牺牲泛化能力,这在几个为个性化定位定制的基准测试中得到了证明。这项工作是第一个探索和基准测试 VLM 的个性化少样本定位的工作,为未来上下文驱动的视觉语言应用研究奠定了基础。我们的项目代码可在 https://github.com/SivanDoveh/IPLoc 获取。  
2024-11-20 A Resource Efficient Fusion Network for Object Detection in Bird’s-Eye View using Camera and Raw Radar Data link 摄像头可用于感知车辆周围环境,而价格合理的雷达传感器在自动驾驶系统中很受欢迎,因为它们不像摄像头那样会受到恶劣天气条件的影响。然而,雷达点云较为稀疏,方位角和仰角分辨率较低,缺乏场景的语义和结构信息,导致雷达检测性能普遍较低。在这项工作中,我们直接使用雷达数据的原始距离-多普勒 (RD) 谱,从而避免了雷达信号处理。我们使用提出的综合图像处理流程独立处理摄像头图像。具体来说,首先,我们将摄像头图像转换为鸟瞰图 (BEV) 极坐标域,并使用我们的摄像头编码器-解码器架构提取相应的特征。将生成的特征图与从雷达解码器的RD谱输入中恢复的距离-方位角 (RA) 特征融合,以执行目标检测。我们在RADIal数据集上评估了我们的融合策略与其他现有方法,不仅评估了准确性,还评估了计算复杂度指标。  
2024-11-20 Click; Single Object Tracking; Video Object Segmentation; Real-time Interaction null 单目标跟踪 (SOT) 依赖于精确的目标边界框初始化。本文重新审视了当前单目标跟踪器初始化方法的不足,并提出了一种新的单目标跟踪算法范式 ClickTrack,该范式在实时场景中使用点击交互。此外,点击作为一种输入类型本身缺乏层次信息。为了解决某些特殊场景中的歧义,我们设计了引导点击优化器 (GCR),它接受点和可选的文本信息作为输入,将点转换为操作员期望的边界框。该边界框将用作单目标跟踪器的输入。在 LaSOT 和 GOT-10k 基准测试中的实验表明,结合 GCR 的跟踪器在实时交互场景中实现了稳定的性能。此外,我们还探索了将 GCR 集成到 Segment Anything 模型 (SAM) 中,显著减少了 SAM 接收点输入时的歧义问题。  
2024-11-19 GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving link 自监督学习在图像处理领域取得了重大进展,但用于自动驾驶的视觉预训练仍处于起步阶段。现有方法通常侧重于学习几何场景信息而忽略纹理,或将两者割裂开来处理,阻碍了对场景的全面理解。在此背景下,我们欣然推出GaussianPretrain,这是一种新颖的预训练范式,通过统一整合几何和纹理表示来实现对场景的整体理解。该方法将3D高斯锚点概念化为体积激光雷达点,学习对场景更深入的理解,利用详细的空间结构和纹理来增强预训练性能,实现比基于NeRF的方法UniPAD快40.6%,且仅占用70%的GPU内存。我们在多个3D感知任务上展示了GaussianPretrain的有效性,并显示出显著的性能提升,例如3D目标检测的NDS提升了7.05%,高清地图构建的mAP提升了1.9%,以及占据栅格预测提升了0.8%。这些显著的成果突出了GaussianPretrain的理论创新和强大的实践潜力,推动了自动驾驶视觉预训练的发展。源代码将在https://github.com/Public-BOTs/GaussianPretrain发布。  
2024-11-19 Physics-Guided Detector for SAR Airplanes link 合成孔径雷达(SAR)飞机目标的分散结构分布(离散性)和多变的散射特性(可变性)给目标检测和识别带来了特殊的挑战。当前基于深度学习的检测器在区分复杂背景下的细粒度SAR飞机方面面临挑战。为了解决这个问题,我们提出了一种新的面向SAR飞机的物理引导检测器(PGD)学习范式,该范式综合考虑了SAR飞机的离散性和可变性以提高检测性能。它是一个通用的学习范式,可以扩展到各种现有的具有“骨干-颈部-头部”架构的基于深度学习的检测器。PGD的主要贡献包括物理引导的自监督学习、特征增强和实例感知,分别表示为PGSSL、PGFE和PGIP。PGSSL旨在构建一个基于各种SAR飞机目标的自监督学习任务,将各种离散结构分布的先验知识编码到嵌入空间中。然后,PGFE在PGSSL学习到的物理感知信息的引导下,增强检测器的多尺度特征表示。PGIP构建于检测头,学习每个SAR飞机实例的精细和主要的散射点,从而减轻复杂背景的干扰。我们提出了两种实现方式,分别表示为PGD和PGD-Lite,并将它们应用于各种具有不同骨干网络和检测头的现有检测器。实验结果证明了所提出的PGD的灵活性和有效性,它可以改进现有的SAR飞机细粒度分类检测器(最多提高3.1%的mAP),并在SAR-AIRcraft-1.0数据集上实现了最先进的性能(90.7%的mAP)。该项目是开源的,网址为\url{https://github.com/XAI4SAR/PGD}。  
2024-11-19 Invariant Shape Representation Learning For Image Classification link 几何形状特征已被广泛用作图像分类的强预测因子。然而,大多数现有分类器,例如深度神经网络 (DNN),直接利用这些形状特征和目标变量之间的统计相关性。然而,这些相关性通常是虚假的,并且在不同的环境中不稳定(例如,在不同的年龄组中,某些类型的脑部变化与神经退行性疾病的关系不稳定);因此导致预测有偏差或不准确。在本文中,我们引入了一个新颖的框架,首次开发了不变形状表征学习 (ISRL) 以进一步增强图像分类器的鲁棒性。与主要在图像空间中导出特征的现有方法相比,我们的模型 ISRL 旨在联合捕获由可变形变换参数化的潜在形状空间中的不变特征。为了实现这一目标,我们开发了一种基于不变风险最小化 (IRM) 的新学习范式,以学习跨多个训练分布/环境的图像和形状特征的不变表示。通过嵌入在不同环境中关于目标变量不变的特征,我们的模型始终提供更准确的预测。我们通过对模拟二维图像、真实三维大脑和电影心血管磁共振图像 (MRI) 执行分类任务来验证我们的方法。我们的代码可在 https://github.com/tonmoy-hossain/ISRL 公开获取。  
2024-11-19 Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification null 本研究旨在结合自监督学习和深度网络模型ResNet-101来优化少样本图像分类任务,并提升模型的特征提取和分类性能。在训练过程中,我们首先使用自监督方法对模型进行预训练,使其能够在大量无标签数据上学习通用的特征表达;然后在少样本数据集Mini-ImageNet上进行微调,以提高模型在有限数据下的准确率和泛化能力。实验结果表明,与传统的卷积神经网络、ResNet-50、DenseNet等模型相比,我们的方法在分类准确率(ACC)和F1分数上都取得了优异的性能,约为95.12%,验证了自监督学习在少样本分类中的有效性。该方法为少样本图像分类领域提供了一种高效可靠的解决方案。  
2024-11-18 Scaling Deep Learning Research with Kubernetes on the NRP Nautilus HyperCluster null 在整个科学计算领域,深度学习算法已在广泛的应用中展现出卓越的性能。随着这些深度神经网络 (DNN) 的不断成熟,训练它们所需的计算量也在持续增长。如今,现代 DNN 需要数百万 FLOP 的运算以及数天到数周的训练才能生成一个训练良好的模型。DNN 的训练时间通常是各种深度学习应用中 DNN 研究的瓶颈,因此,加速和扩展 DNN 训练能够实现更强大、更快速的科研。为此,在这项工作中,我们探索利用 NRP Nautilus 超级集群来自动化和扩展深度学习模型训练,涵盖三个不同的 DNN 应用,包括空中物体检测、燃烧区域分割和森林砍伐检测。我们总共在 Nautilus 上训练了 234 个深度神经网络模型,总训练时间为 4,040 小时。  
2024-11-18 Fair Distillation: Teaching Fairness from Biased Teachers in Medical Imaging null 深度学习在图像分类和分割任务中取得了显著的成功。然而,公平性问题依然存在,因为模型经常表现出对由种族、性别或年龄等敏感属性定义的人口群体的 disproportionate 偏见。现有的 bias mitigation 技术,包括子群重新平衡、对抗训练和域泛化,旨在平衡不同人口群体的准确性,但由于这些相互依赖的目标之间存在冲突,通常无法同时提高总体准确性、特定群体的准确性和公平性。我们提出了公平蒸馏(FairDi)方法,这是一种新的公平性方法,它利用针对特定人口群体优化的有偏见的“教师”模型来分解这些目标。然后,这些教师模型指导统一“学生”模型的训练,该模型提取它们的知识以最大化整体和特定群体的准确性,同时最小化群体间的差异。在医学影像数据集上的实验表明,与现有方法相比,FairDi 在总体准确性、特定群体准确性和公平性方面均取得了显著提升。FairDi 适用于各种医学任务,例如分类和分割,并为公平的模型性能提供了有效的解决方案。  
2024-11-18 LightFFDNets: Lightweight Convolutional Neural Networks for Rapid Facial Forgery Detection null Accurate and fast recognition of forgeries is an issue of great importance in the fields of artificial intelligence, image processing and object detection. Recognition of forgeries of facial imagery is the process of classifying and defining the faces in it by analyzing real-world facial images. This process is usually accomplished by extracting features from an image, using classifier algorithms, and correctly interpreting the results. Recognizing forgeries of facial imagery correctly can encounter many different challenges. For example, factors such as changing lighting conditions, viewing faces from different angles can affect recognition performance, and background complexity and perspective changes in facial images can make accurate recognition difficult. Despite these difficulties, significant progress has been made in the field of forgery detection. Deep learning algorithms, especially Convolutional Neural Networks (CNNs), have significantly improved forgery detection performance. This study focuses on image processing-based forgery detection using Fake-Vs-Real-Faces (Hard) [10] and 140k Real and Fake Faces [61] data sets. Both data sets consist of two classes containing real and fake facial images. In our study, two lightweight deep learning models are proposed to conduct forgery detection using these images. Additionally, 8 different pretrained CNN architectures were tested on both data sets and the results were compared with newly developed lightweight CNN models. It’s shown that the proposed lightweight deep learning models have minimum number of layers. It’s also shown that the proposed lightweight deep learning models detect forgeries of facial imagery accurately, and computationally efficiently. Although the data set consists only of face images, the developed models can also be used in other two-class object recognition problems.  
2024-11-18 WoodYOLO: A Novel Object Detector for Wood Species Detection in Microscopic Images null 木材种类识别在各个行业中都起着至关重要的作用,从确保木材产品的合法性到推进生态保护工作。本文介绍了 WoodYOLO,一种专门为微观木材纤维分析而设计的新型目标检测算法。我们的方法采用了 YOLO 架构,以应对大型高分辨率显微镜图像带来的挑战,以及对目标细胞类型(导管分子)定位的高召回率的需求。我们的结果表明,WoodYOLO 的性能明显优于最先进的模型,在 F2 分数上分别比 YOLOv10 和 YOLOv7 提高了 12.9% 和 6.5%。这种自动化木材细胞类型定位能力的改进有助于提高法规遵从性,支持可持续林业实践,并在全球范围内促进生物多样性保护工作。  
2024-11-18 Learning a Neural Association Network for Self-supervised Multi-Object Tracking null 本文介绍了一种新的框架,用于以自监督的方式学习多目标跟踪中的数据关联。众所周知,全监督学习方法可以实现出色的跟踪性能,但获取身份级别的标注既繁琐又耗时。受现实场景中物体运动通常可以用马尔可夫过程表示这一事实的启发,我们提出了一种新的期望最大化(EM)算法,该算法训练神经网络来关联检测以进行跟踪,而无需事先了解它们的时间对应关系。我们方法的核心是一个神经卡尔曼滤波器,其观测模型以由神经网络参数化的检测关联为条件。给定一批帧作为输入,相邻帧之间检测的数据关联由神经网络预测,然后进行Sinkhorn归一化,确定检测到状态的分配概率。然后使用卡尔曼平滑来获得给定推断状态的观测值的边际概率,从而产生一个训练目标,使用梯度下降来最大化该边际概率。所提出的框架是完全可微的,允许底层神经模型进行端到端的训练。我们在具有挑战性的MOT17和MOT20数据集上评估了我们的方法,并在使用公共检测的自监督跟踪器中取得了最先进的结果。我们进一步证明了学习模型跨数据集泛化的能力。  
2024-11-18 SL-YOLO: A Stronger and Lighter Drone Target Detection Model null 在复杂场景中(例如无人机拍摄的场景)检测小型目标是一项艰巨的挑战,因为难以捕捉小型目标的复杂特征。虽然YOLO系列在大目标检测方面取得了巨大成功,但在面对小型目标时,其性能并不令人满意。因此,本文提出了一种革命性的模型SL-YOLO(更强更轻的YOLO),旨在打破小型目标检测的瓶颈。我们提出了分层扩展路径聚合网络(HEPAN),这是一种开创性的跨尺度特征融合方法,即使在最具挑战性的环境中也能确保无与伦比的检测精度。同时,在不牺牲检测能力的情况下,我们设计了C2fDCB轻量级模块并添加了SCDown下采样模块,大大减少了模型的参数和计算复杂度。我们在VisDrone2019数据集上的实验结果表明性能显著提高,[email protected]从43.0%跃升至46.9%,[email protected]:0.95从26.0%增加到28.9%。同时,模型参数从11.1M减少到9.6M,FPS可达132,使其成为资源受限环境下实时小型目标检测的理想解决方案。  
2024-11-15 On the Cost of Model-Serving Frameworks: An Experimental Evaluation null 在机器学习 (ML) 中,推理阶段是将预训练模型应用于新的、未见过的数据以进行预测的过程。在推理阶段,最终用户与机器学习服务交互,以根据输入数据获得洞察、建议或操作。因此,服务策略对于在生产环境中有效地部署和管理模型至关重要。这些策略确保模型可用、可扩展、可靠且性能良好,适用于实际应用,例如时间序列预测、图像分类、自然语言处理等。在本文中,我们评估了五种广泛使用的模型服务框架(TensorFlow Serving、TorchServe、MLServer、MLflow 和 BentoML)在四种不同场景(恶意软件检测、加密货币价格预测、图像分类和情感分析)下的性能。我们证明,TensorFlow Serving 在服务深度学习 (DL) 模型方面优于所有其他框架。此外,我们还表明,特定于深度学习的框架(TensorFlow Serving 和 TorchServe)的延迟明显低于三个通用机器学习框架(BentoML、MLFlow 和 MLServer)。  
2024-11-15 Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning null 多模态大型语言模型 (MLLM) 擅长图像描述任务,但在精确的目标定位方面常常存在不足,而目标定位是可靠视觉理解的关键要素。相比之下,传统的目标检测模型虽然定位精度高,但由于对物体间关系建模有限,生成的检测结果往往缺乏上下文一致性。为了解决这一根本局限性,我们引入了视觉-语言代理 (VLA),这是一个将 MLLM 的关系推理优势与传统目标检测器的精确定位能力相结合的协作框架。在 VLA 范式中,MLLM 充当中央语言代理,与专门用于目标检测和分类的视觉代理进行协作。语言代理通过推理物体间的空间和上下文关系来评估和改进检测结果,而分类视觉代理则提供纠正反馈以提高分类精度。这种协作方法使 VLA 能够显著增强空间推理和目标定位能力,从而解决多模态理解中的关键挑战。在 COCO 数据集上的大量评估表明,VLA 能够显著提升多种检测模型的性能,凸显了其在准确且上下文一致的目标检测方面树立新标杆的潜力。  
2024-11-15 A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift null 基于Transformer的超分辨率(SR)模型最近提高了图像重建质量,但由于计算复杂性以及过度依赖大patch尺寸(这限制了细粒度细节增强),仍然存在挑战。在这项工作中,我们提出了TaylorIR来解决这些限制,它利用1x1的patch大小,从而在任何基于Transformer的SR模型中实现像素级处理。为了解决传统自注意力机制下巨大的计算需求,我们采用了TaylorShift注意力机制,这是一种基于泰勒级数展开的高效内存替代方案,以线性复杂度实现了完全的token到token交互。实验结果表明,与传统的基于自注意力的Transformer相比,我们的方法实现了新的最先进的SR性能,同时减少了高达60%的内存消耗。  
2024-11-15 Embedding Byzantine Fault Tolerance into Federated Learning via Virtual Data-Driven Consistency Scoring Plugin link 如果能从多个边缘设备收集到足够的数据,联邦学习(FL)就能在不传输私人数据到中央服务器的情况下训练共享模型。然而,联邦学习通常容易受到来自受损边缘设备的拜占庭攻击,这会显著降低模型性能。在本文中,我们提出了一个直观的插件,可以集成到现有的联邦学习技术中以实现拜占庭容错。其关键思想是生成虚拟数据样本,并评估各个本地更新之间的模型一致性分数,从而有效地过滤掉受损的边缘设备。通过在聚合阶段之前利用这种评分机制,所提出的插件使现有的联邦学习技术能够在保持其原有优势的同时,对拜占庭攻击具有鲁棒性。医学图像分类任务的数值结果验证了将所提出的方法插入到具有代表性的联邦学习算法中,可以有效地实现拜占庭容错。此外,当不存在拜占庭攻击时,所提出的插件还能保持基础联邦学习算法原有的收敛特性。  
2024-11-15 MOT_FCG++: Enhanced Representation of Motion and Appearance Features null 多目标跟踪 (MOT) 的目标是在场景中跨帧检测和跟踪所有对象,同时为每个对象维护唯一的身份。大多数现有方法依赖于连续帧中检测到的对象的空间运动特征和外观嵌入特征。有效且鲁棒地表示长轨迹的空间和外观特征已成为影响 MOT 性能的关键因素。我们提出了一种新的外观和空间特征表示方法,改进了聚类关联方法 MOT_FCG。对于空间运动特征,我们提出了对角线调制 GIoU,它可以更准确地表示对象的位置和形状之间的关系。对于外观特征,我们利用包含置信信息的动态外观表示,使轨迹外观特征更加鲁棒和全局化。基于基线模型 MOT_FCG,我们在 MOT17 验证集上实现了 76.1 HOTA、80.4 MOTA 和 81.3 IDF1,并且在 MOT20 和 DanceTrack 验证集上也取得了具有竞争力的性能。  
2024-11-14 Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration link 近年来,注意力机制通过关注关键特征信息显著提高了目标检测的性能。然而,主流方法仍然难以有效平衡局部和全局特征。这种不平衡阻碍了它们捕捉细粒度细节和更广泛上下文信息的能力,而这两者是实现准确目标检测的关键要素。为了应对这些挑战,我们提出了一种新的注意力机制,称为局部-全局注意力,旨在更好地整合局部和全局上下文特征。具体而言,我们的方法结合了多尺度卷积和位置编码,使模型能够关注局部细节,同时兼顾更广泛的全局上下文。此外,我们引入了可学习参数,允许模型根据任务的具体要求动态调整局部和全局注意力的相对重要性,从而优化跨多尺度的特征表示。我们在几个广泛使用的目标检测和分类数据集上全面评估了局部-全局注意力机制。我们的实验结果表明,这种方法显著增强了各种尺度目标的检测,在多类别和小目标检测任务中表现尤为出色。与现有的注意力机制相比,局部-全局注意力在多个关键指标上始终优于它们,同时保持了计算效率。  
2024-11-14 GAN-Based Architecture for Low-dose Computed Tomography Imaging Denoising null 生成对抗网络 (GAN) 已成为低剂量计算机断层扫描 (LDCT) 成像领域的一项革命性元素,为兼顾辐射暴露和图像质量这一长期问题提供了先进的解决方案。这篇综述综合了基于 GAN 的 LDCT 去噪技术的快速发展,考察了从基础架构到结合解剖先验、感知损失函数和创新正则化策略等高级特征的最先进模型的演变。我们批判性地分析了各种 GAN 架构,包括条件 GAN (cGAN)、循环 GAN (CycleGAN) 和超分辨率 GAN (SRGAN),阐明了它们在 LDCT 去噪背景下的独特优势和局限性。评估提供了与基准和临床数据集性能改进相关的定性和定量结果,并使用了峰值信噪比 (PSNR)、结构相似性指数 (SSIM) 和学习感知图像块相似度 (LPIPS) 等指标。在强调积极成果之后,我们讨论了阻碍其更广泛临床应用的一些挑战,包括 GAN 生成图像的可解释性、合成伪影以及对临床相关指标的需求。综述最后强调了基于 GAN 的方法在通过定制 LDCT 去噪模型推进精准医学方面的重要意义,并强调了人工智能在当代放射学实践中带来的变革可能性。  
2024-11-14 ISAC Super-Resolution Receiver via Lifted Atomic Norm Minimization null 本文介绍了一种用于集成传感和通信 (ISAC) 系统的离网估计器,利用了提升原子范数最小化 (LANM)。这种情况下的关键挑战是发射信号和雷达通信信道都是未知的。我们证明,当观测次数与 ISAC 系统的自由度成正比时,LANM 可以同时实现雷达目标定位和通信符号解码。尽管问题本质上是不适定的,我们采用提升技术对发射信号进行初始编码。然后,我们利用原子范数来提升 ISAC 信道的结构化低秩性。我们利用对偶技术将 LANM 转换为信号域上的无限维搜索。随后,我们使用半定松弛 (SDR) 来实现对偶问题。我们将方法扩展到接收信号被加性高斯白噪声 (AWGN) 和干扰信号污染的实际场景。此外,我们推导了所提出的估计器的计算复杂度,并证明它等效于传统的导频辅助 ANM 用于估计信道参数。我们的仿真实验表明,所提出的 LANM 方法能够估计通信数据和目标参数,其性能与传统的仅雷达超分辨率技术相当。  
2024-11-14 ResidualDroppath: Enhancing Feature Reuse over Residual Connections null 残差连接是神经网络架构中最重要的组件之一,用于缓解梯度消失问题并促进更深层网络的训练。关于残差连接如何帮助更深层网络训练的一种可能解释是通过促进特征重用。然而,我们识别并分析了使用普通残差连接进行特征重用的局限性。为了解决这些局限性,我们提出了训练方法的改进。具体来说,我们通过在训练期间的两种类型的迭代为模型提供了额外的学习利用残差连接进行特征重用的机会。第一种类型的迭代涉及使用droppath,它通过随机丢弃层的子集来强制执行特征重用。第二种类型的迭代侧重于训练模型中丢弃的部分,同时冻结未丢弃的部分。结果,丢弃的部分以鼓励特征重用的方式进行学习,因为模型依赖于考虑到特征重用的未丢弃部分。总的来说,我们在某些情况下证明了具有残差连接的模型在图像分类方面的性能有所提高。  
2024-11-14 SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers null 图像分类是一项计算机视觉任务,模型分析图像并将其归类到特定标签。视觉Transformer (ViT) 通过利用自注意力机制捕获复杂模式和图像块之间的长距离关系来改进这项任务。然而,ViT 的一个关键挑战是如何有效地结合多尺度特征表示,而这在 CNN 中是通过其层次结构固有的。在本文中,我们介绍了尺度感知图注意力视觉Transformer (SAG-ViT),这是一个通过集成多尺度特征来解决这一挑战的新颖框架。该模型使用EfficientNet作为骨干网络,提取多尺度特征图,并将这些特征图分割成图像块以保留语义信息。这些图像块根据空间和特征相似性组织成图,并使用图注意力网络 (GAT) 来细化节点嵌入。最后,Transformer 编码器捕获长距离依赖关系和复杂交互。SAG-ViT 在基准数据集上进行了评估,证明了其在提高图像分类性能方面的有效性。  
2024-11-14 Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks null 红外与可见光图像融合技术的核心价值在于将其融合结果应用于下游任务。然而,现有方法在同时处理多个下游任务时,面临着训练复杂性增加且单个任务性能显著下降等挑战。为了解决这个问题,我们提出了面向任务的自适应调节机制(T-OAR),该机制专为多任务环境设计。此外,我们引入了任务相关的动态提示注入模块(T-DPI),该模块根据用户输入的文本指令生成特定于任务的动态提示,并将其整合到目标表示中。这将引导特征提取模块生成更符合下游任务特定需求的表示。通过将T-DPI模块融入T-OAR框架,我们的方法可以生成针对特定任务需求的融合图像,而无需单独训练或特定于任务的权重。这不仅降低了计算成本,还增强了跨多个任务的适应性和性能。实验结果表明,我们的方法在目标检测、语义分割和显著目标检测方面表现出色,展现了其强大的适应性、灵活性和任务特异性。这为多任务环境下的图像融合提供了一种高效的解决方案,突出了该技术在各种应用中的潜力。  
2024-11-14 Cross-Modal Consistency in Multimodal Large Language Models null 多模态方法的最新发展标志着能够处理多种数据类型(包括文本、音频和视觉内容)的模型进入了一个激动人心的新时代。像GPT-4V这样将计算机视觉与高级语言处理相结合的模型,在处理需要同时理解文本和视觉信息的复杂任务方面展现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型(VLLM)在各种领域(包括目标检测、图像字幕和其他相关领域)的有效性。然而,现有的分析往往存在局限性,主要集中在孤立地评估每种模态的性能,而忽略了探索它们复杂的跨模态交互。具体来说,关于这些模型在面对不同模态的相同任务实例时是否能达到相同精度的问题仍未得到解答。在本研究中,我们率先通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣模态之间的交互和比较。此外,我们提出了一个基于此概念的定量评估框架。我们从自己开发的精选平行视觉语言数据集得出的实验结果揭示了GPT-4V内部视觉和语言模态之间明显的矛盾性,尽管它被描述成一个统一的多模态模型。我们的研究揭示了此类模型的合理使用方法,并暗示了改进其设计的潜在途径。  
2024-11-14 LEAP:D – A Novel Prompt-based Approach for Domain-Generalized Aerial Object Detection null 无人机拍摄的图像由于拍摄条件的变化会导致物体外观和形状的改变,给物体检测带来了巨大的挑战。诸如无人机高度、角度和天气等因素会导致这些变化,从而影响物体检测算法的性能。为了应对这些挑战,我们引入了一种使用可学习提示的创新视觉语言方法。这种从传统手动提示的转变旨在减少特定领域知识的干扰,最终提高物体检测能力。此外,我们采用单步训练方法简化了训练过程,将可学习提示与模型训练同步更新,在不提高性能的前提下提高了效率。我们的研究通过利用可学习提示和优化训练过程,促进了领域泛化的物体检测。这增强了模型在不同环境下的鲁棒性和适应性,从而实现了更有效的空中物体检测。  
2024-11-14 Performance Boundaries and Tradeoffs in Super-Resolution Imaging Technologies for Space Targets null 逆合成孔径雷达(ISAR)超分辨率成像技术广泛应用于空间目标成像。然而,超分辨率成像算法的性能极限仍然是一个很少被探索的问题。本文通过分析空间目标超分辨率算法的边界来研究这些极限,并检验关键影响因素之间的关系。特别地,利用已建立的用于线谱重建的计算分辨率极限(CRL)数学理论,我们基于ISAR成像模型变换,推导出了跨距离超分辨率成像上限和下限的数学表达式。利用这些显式表达式,我们首先探讨了这些边界的影响因素,例如传统的瑞利极限、散射点数量以及散射点的峰值信噪比(PSNR)。然后,我们阐明了CRL理论对ISAR成像施加的、为满足所需跨距离分辨率所需的最小资源要求,如果没有这些要求,在实践中研究超分辨率算法就没有必要。此外,还分析了累积旋转角、雷达发射能量和其他影响分辨率的因素之间的权衡。进行了仿真以演示各种ISAR成像场景中的这些权衡,揭示了它们对特定成像目标的高度依赖性。  
2024-11-14 Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery link 视觉Transformer(ViT)最近在计算机视觉领域掀起了一股新的研究浪潮。这些模型在图像分类和分割领域表现尤为出色。随着新架构的出现,语义分割和实例分割的研究进展迅速,iSAID数据集排名前20的基准测试中有超过80%是基于ViT架构或其背后的注意力机制。本文重点对在iSAID数据集上进行遥感航拍图像语义分割时使用(或不使用)ViT的三个关键因素进行启发式比较。研究过程中观察到的实验结果是在以下目标的审查下进行的:1. 使用加权融合损失函数以获得最大平均交并比(mIoU)分数、Dice分数,以及最小化或保持熵或类别表示;2. 比较基于ViT的语义分割模型Meta的MaskFormer与通用UNet卷积神经网络(CNN)的迁移学习效果,并根据mIoU、Dice分数、训练效率和推理时间进行评判;3. 我们为了获得什么而失去了什么?即,将这两种模型与当前最先进的分割模型进行比较。我们展示了新型组合加权损失函数的使用相较于ViT的迁移学习显著提升了CNN模型的性能。该实现的代码可以在\url{https://github.com/ashimdahal/ViT-vs-CNN-ImageSegmentation}找到。  
2024-11-12 Large-scale Remote Sensing Image Target Recognition and Automatic Annotation link 本文提出了一种名为LRSAA的大范围遥感图像目标识别与自动标注方法。该方法通过集成学习融合了YOLOv11和MobileNetV3-SSD目标检测算法以提升模型性能。此外,它采用泊松圆盘采样分割技术和EIOU指标来优化分割图像的训练和推理过程,并最终整合结果。这种方法不仅降低了对计算资源的需求,还在准确率和速度之间取得了良好的平衡。该项目的源代码已在https://github.com/anaerovane/LRSAA公开发布。  
2024-11-12 ALANINE: A Novel Decentralized Personalized Federated Learning For Heterogeneous LEO Satellite Constellation null 近年来,低地球轨道 (LEO) 卫星星座在规模和功能上都得到了显著增强,集成了通信、导航和遥感等多种能力。然而,不同卫星收集数据的异构性以及高效的星间协同计算问题,对实现这些星座的潜力构成了重大障碍。现有方法难以应对数据异构性、图像分辨率变化以及高效的在轨模型训练的需求。为了应对这些挑战,我们提出了一种新的去中心化个性化联邦学习框架,即一种面向异构低地球轨道卫星星座的新型去中心化个性化联邦学习 (ALANINE)。ALANINE 结合了用于卫星图像超分辨率 (SR) 的去中心化联邦学习 (DFL),从而提高输入数据质量。然后,它利用个性化联邦学习 (PFL) 来实现一种个性化方法,以考虑卫星数据的独特特征。此外,该框架采用先进的模型剪枝技术来优化模型复杂度和传输效率。该框架能够实现高效的数据采集和处理,同时提高 PFL 图像处理模型的精度。仿真结果表明,与传统的集中式方法相比,ALANINE 在 SR 和 PFL 图像处理模型的在轨训练中表现出更优的性能。这种新方法在数据采集效率、处理精度以及模型对本地卫星条件的适应性方面都有显著改进。  
2024-11-12 Efficient 3D Perception on Multi-Sweep Point Cloud with Gumbel Spatial Pruning null 本文研究了室外环境中的点云感知。由于室外点云的稀疏性,现有方法在识别远距离或被遮挡的物体方面存在局限性。在本研究中,我们观察到通过累积多个时间上连续的激光雷达扫描可以显著缓解这个问题,从而显着提高感知精度。然而,计算成本也随之增加,阻碍了先前的方法利用大量的激光雷达扫描。为了应对这一挑战,我们发现累积点云中的相当一部分点是冗余的,丢弃这些点对感知精度的影响很小。我们引入了一个简单而有效的Gumbel空间剪枝(GSP)层,它基于学习的端到端采样动态地剪枝点。GSP层与其他网络组件解耦,因此可以无缝集成到现有的点云网络架构中。在不增加额外计算开销的情况下,我们将激光雷达扫描次数从常用的10次增加到40次。因此,感知性能得到了显著提升。例如,在nuScenes 3D目标检测和BEV地图分割任务中,我们的剪枝策略改进了vanilla TransL基线和其他基线方法。  
2024-11-12 Numerical Homogenization by Continuous Super-Resolution null 有限元方法通常需要高分辨率才能令人满意地逼近底层物理模型的微观甚至宏观模式。这个问题可以通过适当的数值均匀化或多尺度策略来规避,这些策略能够在欠解析尺度上获得合理的近似值。在本文中,我们研究了隐式神经表示,并提出了一种连续超分辨率网络作为数值均匀化策略。它可以利用粗糙的有限元数据来学习分布内和分布外的高分辨率有限元预测。我们的亮点是设计了一个局部隐式变换器,它能够学习多尺度特征。我们还提出了基于 Gabor 小波的坐标编码,它可以克服神经网络学习低频特征的偏差。最后,科学家通常更偏好感知而不是失真,以便他们能够识别视觉模式以进行进一步研究。然而,隐式神经表示的缺点是缺乏局部模式监督。我们建议使用随机余弦相似度来比较预测值和真值之间的局部特征差异。它在结构对齐方面表现出更好的性能。我们的实验表明,我们提出的策略作为一种分布内和分布外超分辨率策略实现了卓越的性能。  
2024-11-12 Depthwise Separable Convolutions with Deep Residual Convolutions null 随着边缘计算的最新进展,研究人员得以优化各种深度学习架构,以便在边缘设备中部署。本研究旨在优化 Xception 架构,它是计算机视觉应用中最流行的深度学习算法之一。Xception 架构对于目标检测任务非常有效。然而,它也带来了巨大的计算成本。Xception 的计算复杂性有时会阻碍其在资源受限的边缘设备上的部署。为了解决这个问题,我们提出了一种针对边缘设备优化的 Xception 架构,旨在实现轻量级和高效的部署。我们将深度可分离卷积与 Xception 架构的深度残差卷积相结合,为边缘设备开发了一个小型高效的模型。由此产生的架构减少了参数数量、内存使用量和计算负载。我们在 CIFAR 10 目标检测数据集上评估了所提出的架构。我们的实验评估结果还表明,所提出的架构参数规模更小,所需的训练时间更短,同时性能优于 Xception 架构。  
2024-11-11 Ensemble Learning for Microbubble Localization in Super-Resolution Ultrasound null 超分辨率超声 (SR-US) 是一种强大的成像技术,能够以高空间分辨率捕获微血管结构和血流。然而,精确的微泡 (MB) 定位仍然是一个关键挑战,因为定位误差会传播到超分辨率过程的后续阶段,从而影响整体性能。在本文中,我们探索了集成学习技术在增强微泡定位方面的潜力,通过提高检测灵敏度和减少误报来实现。我们的研究评估了集成方法在可变形检测Transformer(Deformable DETR)网络的体内和模拟输出上的有效性。通过我们的研究,我们能够证明这些集成方法的优势,即提高了微泡检测的精确率和召回率,并为其在超分辨率超声中的应用提供了见解。  
2024-11-11 General Geospatial Inference with a Population Dynamics Foundation Model null 为了支持全球动态人口的健康和福祉,政府机构、组织和研究人员需要理解和推理人类行为与当地环境之间复杂的联系,以便识别高风险人群并战略性地分配有限的资源。解决这类问题的传统方法通常需要开发手动管理的、特定于任务的特征和模型来表示人类行为以及自然和建筑环境,这对于适应新的甚至相关的任务来说可能具有挑战性。为了解决这个问题,我们引入了人口动态基础模型(PDFM),旨在捕捉不同数据模态之间的关系,并适用于广泛的地理空间任务。我们首先构建了一个针对美国邮政编码和县的地理索引数据集,其中包含从地图、繁忙程度和聚合搜索趋势中获取的丰富的人类行为聚合信息,以及天气和空气质量等环境因素。然后,我们使用图神经网络对这些数据以及位置之间的复杂关系进行建模,生成可通过相对简单的模型适应各种下游任务的嵌入。我们通过在涵盖三个不同领域(健康指标、社会经济因素和环境测量)的27个下游任务上进行基准测试来评估我们方法的有效性。该方法在所有27个地理空间插值任务上实现了最先进的性能,并且在27个外推和超分辨率任务中的25个上也达到了最先进的性能。我们将PDFM与最先进的预测基础模型TimesFM相结合,来预测失业率和贫困率,实现了超越完全监督预测的性能。完整嵌入集和示例代码已公开提供给研究人员。  
2024-11-11 Transformers for Charged Particle Track Reconstruction in High Energy Physics null 重建带电粒子轨迹是现代对撞机实验的一项基本任务。高亮度大型强子对撞机 (HL-LHC) 预计将产生的前所未有的粒子数量对轨迹重建提出了重大挑战,传统的算法将难以应对如此巨大的计算量。为了应对这一挑战,我们提出了一种新颖的基于学习的轨迹重建方法,该方法借鉴了计算机视觉和目标检测领域的最新进展。我们的架构结合了Transformer 击中点过滤网络和 MaskFormer 重建模型,共同优化了击中点分配和带电粒子属性的估计。在 TrackML 数据集上进行评估,我们性能最佳的模型实现了最先进的跟踪性能,效率达到 97%,假阳性率为 0.6%,推理时间为 100 毫秒。我们可调的方法能够针对触发系统等特定应用进行专门化,而其基本原理可以扩展到高能物理中的其他重建挑战。这项工作展示了现代深度学习架构在应对粒子物理学中新兴的计算挑战,同时保持突破性物理分析所需的精度的潜力。  
2024-11-11 The Inherent Adversarial Robustness of Analog In-Memory Computing null 深度神经网络 (DNN) 算法的一个关键挑战是它们容易受到对抗性攻击。本质上非确定性的计算基底,例如基于模拟内存计算 (AIMC) 的基底,被推测在执行 DNN 推理时能够提供显著的对抗鲁棒性。在本文中,我们首次在基于相变存储器 (PCM) 器件的 AIMC 芯片上实验验证了这一猜想。我们展示了在实现图像分类网络时,针对不同类型的对抗性攻击具有更高的对抗鲁棒性。在执行硬件在环攻击时也观察到了额外的鲁棒性,在这种攻击中,假设攻击者可以完全访问硬件。对各种噪声源的仔细研究表明,随机噪声源(包括循环和非循环)的组合是造成对抗鲁棒性的原因,并且它们的类型和大小对这一特性产生了不成比例的影响。最后,通过仿真证明,当使用更大的变换器网络来执行自然语言处理 (NLP) 任务时,仍然可以观察到额外的鲁棒性。  
2024-11-11 BuckTales : A multi-UAV dataset for multi-object tracking and re-identification of wild antelopes null 理解动物行为对于预测、理解和减轻自然和人为变化对动物种群和生态系统的影响至关重要。然而,在野外环境中获取和处理长期、具有生态学相关性数据的挑战限制了行为研究的范围。无人机 (UAV) 的日益普及,加上机器学习的进步,为使用空中追踪进行野生动物监测开辟了新的机遇。然而,由于缺乏自然栖息地中野外动物的数据集,阻碍了用于长期动物追踪的自动化计算机视觉解决方案的进展。在此,我们介绍 BuckTales,这是第一个旨在解决野生动物(特别是黑羚羊的交配行为或求偶场)中的多目标跟踪 (MOT) 和重识别 (Re-ID) 问题的大规模无人机数据集。该数据集与生物学家合作收集,MOT 数据集包含超过 120 万个标注,包括 12 个高分辨率 (5.4K) 视频中的 680 个轨迹,每个视频平均 66 秒,包含 30 到 130 个个体。Re-ID 数据集包含用两架无人机同时拍摄的 730 个个体。该数据集旨在使用多个摄像头传感器推动可扩展的长期动物行为跟踪。通过提供两个检测器的基线性能,并对几种最先进的跟踪方法进行基准测试,我们的数据集反映了在社会和生态相关环境中跟踪野生动物的实际挑战。通过广泛提供这些数据,我们希望能够促进野生动物 MOT 和 Re-ID 的进展,从而通过自动化、长期监测促进对动物行为、保护工作和生态系统动态的深入了解。  
2024-11-08 Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification null 卷积神经网络 (CNN) 近年来性能显著提高。然而,由于其规模和复杂性,它们的功能如同黑盒,导致透明度问题。最先进的显著性方法生成局部解释,突出显示输入图像中识别类别的区域,但无法解释感兴趣的概念如何对预测做出贡献,这对于偏差缓解至关重要。另一方面,基于概念的方法,例如 TCAV(使用概念激活向量进行测试),可以深入了解网络对概念的敏感程度,但无法计算其在特定预测中的归因,也无法显示其在输入图像中的位置。本文介绍了一种新颖的事后可解释性框架 Visual-TCAV,旨在通过为基于 CNN 的图像分类提供局部和全局解释来弥合这些方法之间的差距。Visual-TCAV 使用概念激活向量 (CAV) 生成显著图,显示网络识别概念的位置。此外,它可以使用集成梯度的泛化来估计这些概念对任何类别输出的归因。该框架在流行的 CNN 架构上进行了评估,并通过已知解释的真实情况的实验以及与 TCAV 的比较进一步证实了其有效性。我们的代码即将发布。  
2024-11-08 Open-set object detection: towards unified problem formulation and benchmarking null 在诸如自动驾驶等置信度至关重要的实际应用中,准确检测和恰当处理与训练期间所用类别不同的类别至关重要。尽管已提出了各种未知物体检测方法,但我们观察到它们之间在使用的数据集、指标和场景方面存在普遍的不一致性,并且明显缺乏对未知物体的明确定义,这阻碍了有意义的评估。为了应对这些问题,我们引入了两个基准:统一的VOC-COCO评估和新的OpenImagesRoad基准,后者除了新的评估指标外,还提供了清晰的层次对象定义。作为基准的补充,我们利用了最新的自监督视觉Transformer的性能,通过OW-DETR++来改进基于伪标签的开放集目标检测(OSOD)。我们在提出的基准上对最先进的方法进行了广泛的评估。这项研究提供了清晰的问题定义,确保了一致的评估,并得出了关于OSOD策略有效性的新结论。  
2024-11-08 Training objective drives the consistency of representational similarity across datasets link 柏拉图式表征假设认为,近期的基础模型正趋向于一个共享的表征空间,这是由它们的下游任务性能决定的,而与用于训练这些模型的目标和数据模态无关。表征相似性通常针对单个数据集进行测量,并且在不同数据集之间不一定一致。因此,人们可能会疑问这种模型表征的收敛是否受到机器学习中常用数据集的混淆。在这里,我们提出了一种系统的方法来衡量模型之间的表征相似性如何随着用于构建表征的刺激集而变化。我们发现,目标函数是决定跨数据集表征相似性一致性的最关键因素。具体来说,与图像分类或图文模型相比,自监督视觉模型学习到的表征,其成对相似性在不同数据集之间具有更好的泛化能力。此外,表征相似性与模型任务行为之间的对应关系取决于数据集,在单域数据集中表现最为明显。我们的工作提供了一个框架,用于系统地测量跨数据集的模型表征相似性,并将这些相似性与任务行为的差异联系起来。  
2024-11-08 WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning null 地球天气系统包含复杂的天气数据模态和多样的天气理解任务,这些对人类生活至关重要。现有的数据驱动模型专注于单一的天气理解任务(例如,天气预报)。尽管这些模型取得了可喜的成果,但它们无法在单个统一模型中处理各种复杂的任务。此外,依赖于单个场景的有限真实观测的范式阻碍了模型性能上限的提升。为了应对这些限制,我们从最先进的视觉基础模型和大型语言模型中使用的上下文学习范式中汲取灵感。在本文中,我们介绍了第一个通用的天气基础模型 (WeatherGFM),旨在以统一的方式处理各种天气理解任务。更具体地说,我们首先统一了不同天气理解任务的表示和定义。随后,我们设计了天气提示格式来管理不同的天气数据模态,即单一、多重和时间模态。最后,我们采用视觉提示问答范式来训练统一的天气理解任务。大量实验表明,我们的 WeatherGFM 可以有效地处理多达十项天气理解任务,包括天气预报、超分辨率、天气图像转换和后处理。我们的方法还展示了对未见过任务的泛化能力。  
2024-11-08 SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection null 越来越多的研究工作融合激光雷达和相机信息来提升自动驾驶系统中的三维目标检测性能。最近,一个简单但有效的融合框架通过在统一的鸟瞰图(BEV)空间中融合激光雷达和相机特征,实现了优异的检测性能。在本文中,我们提出了一个名为SimpleBEV的激光雷达-相机融合框架,用于精确的三维目标检测,该框架遵循基于BEV的融合框架并分别改进了相机和激光雷达编码器。具体来说,我们使用级联网络进行基于相机的深度估计,并利用激光雷达点云导出的深度信息来校正深度估计结果。同时,引入了一个仅使用相机BEV特征进行三维目标检测的辅助分支,以在训练阶段充分利用相机信息。此外,我们通过融合多尺度的稀疏卷积特征来改进激光雷达特征提取器。实验结果证明了我们提出的方法的有效性。我们的方法在nuScenes数据集上达到了77.6%的NDS精度,在三维目标检测赛道中展现出优异的性能。  
2024-11-07 Zero-Shot Temporal Resolution Domain Adaptation for Spiking Neural Networks null 脉冲神经网络 (SNN) 是一种受生物启发的深度神经网络,可以有效地提取时间信息,并在神经形态设备上部署时在能效和延迟方面具有显著优势。然而,SNN 模型参数对时间分辨率敏感,当边缘目标数据的时间分辨率与用于训练的部署前源数据的时间分辨率不同时,会导致性能显著下降,尤其是在边缘无法进行微调的情况下。为了应对这一挑战,我们提出了三种新的域自适应方法,用于调整神经元参数以适应时间分辨率的变化,而无需在目标时间分辨率上重新训练。所提出的方法基于 SNN 中神经元动力学和状态空间模型 (SSM) 之间的映射;并且适用于一般的神经元模型。我们在时空数据任务下评估了所提出的方法,即音频关键词识别数据集 SHD 和 MSWC 以及图像分类数据集 NMINST。我们的方法提供了一种替代方案,并且在大多数情况下明显优于现有的简单缩放时间常数的参考方法。此外,我们的结果表明,通过在较低时间分辨率数据上进行高效的时间训练和模型自适应,可以获得较高时间分辨率数据的高精度。  
2024-11-07 ESC-MISR: Enhancing Spatial Correlations for Multi-Image Super-Resolution in Remote Sensing null 多图像超分辨率 (MISR) 是遥感领域一项至关重要但又极具挑战性的研究任务。本文致力于解决遥感多图像超分辨率 (MISR-RS) 这一难题,旨在从卫星获取的多张低分辨率 (LR) 图像生成高分辨率 (HR) 图像。最近,低分辨率图像之间弱时间相关性在 MISR-RS 任务中受到越来越多的关注。然而,现有的 MISR 方法将低分辨率图像视为具有强时间相关性的序列,忽略了空间相关性并强加了时间依赖性。为了解决这个问题,我们提出了一种名为“增强 MISR 中空间相关性”(ESC-MISR) 的新型端到端框架,它充分利用多图像的时空关系进行高分辨率图像重建。具体来说,我们首先引入了一种名为“多图像空间变换器”(MIST) 的新型融合模块,它强调具有更清晰全局空间特征的部分,并增强低分辨率图像之间的空间相关性。此外,我们对低分辨率图像的顺序输入执行随机洗牌策略,以减弱时间依赖性并在训练阶段捕获弱时间相关性。与最先进的方法相比,我们的 ESC-MISR 在 PROBA-V 数据集的两个波段上分别实现了 0.70dB 和 0.76dB 的 cPSNR 提升,证明了我们方法的优越性。  
2024-11-07 Is network fragmentation a useful complexity measure? null 已观察到深度神经网络分类器的输入空间可能表现出“碎片化”现象,即模型函数的类别随着输入空间的遍历而快速变化。这种碎片化的严重程度往往遵循双下降曲线,在插值区域达到最大值。我们在图像分类的背景下研究了这一现象,并探究碎片化是否可以预测泛化性能。我们使用基于碎片化的复杂性度量,通过在PGDL(深度学习泛化预测)基准测试中取得良好性能,证明了这种可能性。此外,我们还报告了与碎片化相关的新观察结果,即(i)碎片化不仅限于输入空间,也出现在隐藏表示中,(ii)碎片化在整个训练过程中遵循验证误差的趋势,以及(iii)碎片化并非权重范数增加的直接结果。总之,这些表明在研究深度神经网络的泛化能力时,碎片化是一个值得进一步研究的现象。  
2024-11-07 On the Inherent Robustness of One-Stage Object Detection against Out-of-Distribution Data null 鲁棒性是开发安全可靠模型的一个基本方面,尤其是在开放世界部署时。在这项工作中,我们分析了单阶段目标检测器在存在分布外 (OoD) 数据时进行鲁棒操作的固有能力。具体来说,我们提出了一种新的检测算法,用于检测图像数据中的未知目标,该算法利用模型从每个样本中提取的特征。与文献中其他最近的方法不同,我们的提议不需要重新训练目标检测器,从而允许使用预训练模型。我们提出的 OoD 检测器利用监督降维技术来减轻维度灾难对模型提取特征的影响。此外,它利用高分辨率特征图以无监督方式识别潜在的未知目标。我们的实验分析了不同算法配置和推理置信度阈值导致的检测已知和未知目标的性能之间的帕累托权衡。我们还将我们提出的算法的性能与基于 logits 的事后 OoD 方法以及可能的融合策略的性能进行了比较。最后,我们讨论了所有测试方法与针对最近发布的未知目标检测基准的目标检测模型的最新 OoD 方法的竞争力。获得的结果证实,当与我们提出的算法结合使用时,前沿的事后 OoD 检测器的性能可以得到进一步提高。  
2024-11-07 Neural Fingerprints for Adversarial Attack Detection link 近年来,用于图像分类的深度学习模型已成为标准工具。这些模型的一个众所周知的漏洞是它们容易受到对抗样本的攻击。这些对抗样本是通过轻微改变某个类别的图像而生成的,这种改变对人类来说难以察觉,但却会导致模型将其错误地分类为另一个类别。许多算法已经被提出来解决这个问题,它们通常分为两类:(i)构建鲁棒的分类器(ii)直接检测受攻击的图像。尽管这些检测器性能良好,但我们认为在白盒设置中,攻击者知道网络和检测器的配置和权重,他们可以通过在本地副本上运行许多示例,并仅将未检测到的示例发送到实际模型来克服检测器。这个问题在安全应用中很常见,即使是非常好的模型也不足以确保安全。在本文中,我们建议通过随机化来克服任何静态防御的这种固有限制。为此,必须生成一个非常大的性能一致的检测器家族,并为每个输入随机选择一个或多个检测器。对于单个检测器,我们建议使用神经指纹的方法。在训练阶段,对于每个类别,我们反复从网络的某些层中随机抽取一小部分神经元,如果它们的平均值在焦点类别的干净图像和受攻击图像之间有足够的差异,则它们被认为是指纹并添加到检测器库中。在测试期间,我们从与模型预测的标签相关的库中采样指纹,并使用似然比检验来检测攻击。我们在ImageNet上使用不同的攻击方法和模型架构评估了我们的检测器,并显示了近乎完美的检测和低误检率。  
2024-11-07 UEVAVD: A Dataset for Developing UAV’s Eye View Active Object Detection null 遮挡是基于无人机(UAV)的目标检测中长期存在的难题。许多研究工作通过调整检测模型来解决这个问题。然而,很少有研究利用无人机通过改变视角来从根本上提高检测性能。主动目标检测(AOD)为此提供了一种有效的方法。通过深度强化学习(DRL),AOD赋予无人机自主路径规划的能力,以搜索更有利于目标识别的观察视角。遗憾的是,目前还没有可用于开发无人机AOD方法的数据集。为了填补这一空白,我们发布了一个名为UEVAVD的无人机视角主动视觉数据集,希望它能够促进无人机AOD问题的研究。此外,我们在学习状态表示时结合了归纳偏差,改进了现有的基于DRL的AOD方法。首先,由于部分可观测性,我们使用门控循环单元从观测序列中提取状态表示,而不是单视角观测。其次,我们使用Segment Anything Model (SAM)预先分割场景,并使用导出的掩码过滤掉无关信息。通过这些实践,agent可以学习到具有更好泛化能力的主动观察策略。UEVAVD数据集上的实验验证了我们改进的有效性。我们的数据集将很快在https://github.com/Leo000ooo/UEVAVD_dataset上发布。  
2024-11-07 GazeGen: Gaze-Driven User Interaction for Visual Content Generation null 我们提出了GazeGen,一个用户交互系统,它可以根据用户注视的位置生成视觉内容(图像和视频)。GazeGen允许用户通过注视目标区域来直观地操作视觉内容。利用先进的目标检测和生成式人工智能技术,GazeGen可以执行注视控制的图像对象添加/删除、重新定位和表面材质更改,并将静态图像转换为视频。GazeGen的核心是DFT Gaze(蒸馏和微调的注视)代理,这是一个只有281K参数的超轻量级模型,可以在小型边缘设备上针对个人用户的眼睛进行准确的实时注视预测。GazeGen是第一个将视觉内容生成与实时注视估计相结合的系统,这完全得益于DFT Gaze。这种实时注视估计支持各种由用户注视控制的视觉内容生成任务。DFT Gaze的输入是用户的眼睛图像,而视觉内容生成的输入是用户的视野和DFT Gaze预测的注视点。为了实现高效的注视预测,我们通过新颖的知识蒸馏和个性化适应技术,从一个大型模型(比其大10倍)派生出这个小型模型。我们将知识蒸馏与掩码自编码器相结合,开发了一个紧凑而强大的注视估计模型。该模型使用适配器进一步微调,从而能够以最少的用户输入实现高度准确和个性化的注视预测。DFT Gaze确保了低延迟和精确的注视跟踪,支持广泛的注视驱动任务。我们在AEA和OpenEDS2020基准测试中验证了DFT Gaze的性能,证明了其在边缘设备(Raspberry Pi 4)上的低角度注视误差和低延迟。此外,我们还描述了GazeGen的应用,展示了它在各种使用场景中的多功能性和有效性。  
2024-11-06 Multimodal Structure-Aware Quantum Data Processing link 虽然大型语言模型 (LLM) 推进了自然语言处理 (NLP) 领域的发展,但其“黑盒”性质掩盖了其决策过程。为了解决这个问题,研究人员开发了使用高阶张量的结构化方法。这些方法能够对语言关系进行建模,但在经典计算机上进行训练时,由于其规模过大而停滞不前。张量是量子系统的天然组成部分,在量子计算机上进行训练通过将文本转换为变分量子电路提供了一种解决方案。在本文中,我们开发了 MultiQ-NLP:一个用于多模态文本+图像数据进行结构感知数据处理的框架。这里,“结构”指的是语言中的句法和语法关系,以及图像中视觉元素的层次组织。我们使用新的类型和类型同态丰富了转换过程,并开发了新的架构来表示结构。在主流图像分类任务 (SVO Probes) 上进行测试时,我们的最佳模型与最先进的经典模型表现相当;此外,最佳模型是完全结构化的。  
2024-11-06 RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models link 微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联,导致测试时的零样本性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作,而不是直接干预细粒度的图像特征,并且 (ii) 主要为单模态设置而设计。在这项工作中,我们提出了 RaVL,它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联,从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM,RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征,从而发现虚假关联。然后,RaVL 通过一种新的区域感知损失函数来减轻已识别的虚假关联,该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明,RaVL 可以准确地发现(比最接近的基线提高 191%)并减轻(最差组图像分类准确率提高 8.2%)虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。  
2024-11-06 Overcoming label shift in targeted federated learning null 联邦学习允许多个参与者在不共享私有数据的情况下协同训练模型。这释放了将机器学习扩展到各种应用的潜力。当客户端和目标域共享相同的特征和标签分布时,现有的算法是合理的,但在现实场景中,这种假设常常被违反。一种常见的违反是标签偏移,即客户端之间或客户端与目标域之间的标签分布不同,这会显著降低模型性能。为了解决这个问题,我们提出了 FedPALS,一种新的模型聚合方案,它通过利用中心服务器上目标标签分布的知识来适应标签偏移。我们的方法确保了随机梯度下降下的无偏更新,确保了在具有不同标签偏移数据的客户端之间的鲁棒泛化。在图像分类上的大量实验表明,FedPALS 通过将模型聚合与目标域对齐,始终优于标准基线。我们的研究结果表明,传统的联邦学习方法在客户端极其稀疏的情况下会受到严重影响,这突出了目标感知聚合的关键需求。FedPALS 提供了一种有原则且实用的解决方案来缓解标签分布不匹配,确保在联邦设置中训练的模型能够有效地泛化到标签偏移的目标域。  
2024-11-05 CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection null 精确且鲁棒的三维目标检测是自动驾驶汽车和机器人技术中的关键组成部分。尽管最近的雷达-相机融合方法通过在鸟瞰图(BEV)表示中融合信息取得了显著进展,但它们往往难以有效捕捉动态物体的运动,从而导致在实际场景中的性能受限。在本文中,我们介绍了 CRT-Fusion,一个将时间信息整合到雷达-相机融合中的新型框架,以应对这一挑战。我们的方法包含三个关键模块:多视图融合(MVF)、运动特征估计器(MFE)和运动引导时间融合(MGTF)。MVF 模块在相机视图和鸟瞰图中融合雷达和图像特征,从而生成更精确的统一 BEV 表示。MFE 模块同时执行两项任务:像素级速度信息估计和 BEV 分割。基于从 MFE 模块获得的速度和占用率分数图,MGTF 模块以循环方式跨多个时间戳对齐和融合特征图。通过考虑动态物体的运动,CRT-Fusion 可以生成鲁棒的 BEV 特征图,从而提高检测精度和鲁棒性。在具有挑战性的 nuScenes 数据集上的大量评估表明,CRT-Fusion 在基于雷达-相机的三维目标检测方面实现了最先进的性能。我们的方法在 NDS 方面比之前的最佳方法高出 1.7%,同时在 mAP 方面也超过了领先方法 1.4%。这两个指标的显著改进展示了我们提出的融合策略在增强三维目标检测的可靠性和准确性方面的有效性。  
2024-11-05 Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization null 开放集单源域泛化旨在使用单一源域学习一个鲁棒的模型,该模型可以泛化到具有域偏移和标签偏移的未知目标域。源域数据的稀缺性和目标域的未知数据分布对域不变特征学习和未知类别识别提出了巨大的挑战。在本文中,我们提出了一种基于域扩展和边界增长的新型学习方法,以扩展稀缺的源样本并扩大已知类别之间的边界,从而间接地拓宽已知类别和未知类别之间的边界。具体来说,我们通过对源数据进行背景抑制和风格增强来合成新样本,从而实现域扩展。然后,我们强制模型从合成样本中提取一致的知识,以便模型能够学习域不变信息。此外,我们在训练多二元分类器时,通过使用边缘图作为样本的附加模态来实现跨类别的边界增长。这种方式扩大了内点和外点之间的边界,从而提高了开放集泛化期间的未知类别识别能力。大量实验表明,我们的方法可以在多个跨域图像分类数据集上实现显著的改进并达到最先进的性能。  
2024-11-05 Applications of Automatic Differentiation in Image Registration link 我们论证了在机器学习框架中已普遍可用的自动微分技术,是探索改进多尺度仿射图像配准和仿射超分辨率问题算法的有效方法。在第一个关于多尺度配准的实验中,我们实现了一种常微分方程预测-校正方法,该方法涉及关于尺度参数的导数和图像配准目标函数的Hessian矩阵,这两者在没有自动微分的情况下都很难计算。我们的研究结果表明,精确的Hessian矩阵对于该方法比传统的多尺度方法有所改进是必要的;而高斯-牛顿Hessian近似未能提供这样的改进。在第二个实验中,我们实现了一种用于超分辨率的可变投影高斯-牛顿方法,并使用自动微分来对迭代计算的投影进行微分,这是一种文献中先前未涉及的方法。我们展示了不通过投影进行微分获得的雅可比矩阵是可变投影正向映射的真实雅可比矩阵的较差近似,并探讨了其他一些近似的性能。通过解决这些问题,这项工作促进了自动微分在图像配准中的应用,并为机器学习工具在该领域的进一步应用开创了先例。  
2024-11-05 ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive Processing null 我们提出了一种图像自适应的目标检测方法,用于应对雾霾和低光等恶劣天气条件。我们的框架采用可微分预处理滤波器来执行图像增强,以适应后续的目标检测阶段。我们的框架引入了两种可微分滤波器:基于贝塞尔曲线的逐像素(BPW)滤波器和基于核的局部(KBL)滤波器。这些滤波器统一了经典图像处理滤波器的功能,并提高了目标检测的性能。我们还提出了一种使用BPW滤波器的域无关数据增强策略。我们的方法不需要针对特定数据定制滤波器组合、参数范围和数据增强。我们通过将所提出的方法(称为ERUP-YOLO,即通过统一图像处理增强鲁棒性的YOLO)应用于YOLOv3检测器来评估其性能。在恶劣天气数据集上的实验表明,我们提出的滤波器在表达能力上与传统方法相当或更优,并且我们的ERUP-YOLO在各种恶劣天气条件下(包括雾霾和低光条件)都实现了卓越的性能。  
2024-11-05 Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection link 单目3D目标检测因其简洁性和低成本而备受关注。现有方法通常遵循传统的2D检测范式,先定位目标中心,然后通过邻近特征预测3D属性。然而,这些方法主要依赖于渐进的跨尺度特征聚合,并且只关注局部信息,这可能导致缺乏全局感知和遗漏小尺度目标。此外,由于不同场景和深度下目标尺度的巨大变化,不准确的感受野通常会导致背景噪声和特征表示退化。为了解决这些问题,我们引入了MonoASRH,一种新颖的单目3D检测框架,由高效混合特征聚合模块(EH-FAM)和自适应尺度感知3D回归头(ASRH)组成。具体来说,EH-FAM采用具有全局感受野的多头注意力机制来提取小尺度目标的语义特征,并利用轻量级卷积模块高效地聚合不同尺度的视觉特征。ASRH对2D边界框维度进行编码,然后通过尺度-语义特征融合模块将尺度特征与EH-FAM聚合的语义特征融合。尺度-语义特征融合模块引导ASRH学习动态感受野偏移,将尺度先验融入3D位置预测,以获得更好的尺度感知能力。在KITTI和Waymo数据集上的大量实验表明,MonoASRH实现了最先进的性能。  
2024-11-05 Integrated lithium niobate photonic computing circuit based on efficient and high-speed electro-optic conversion null 我们展示了一种利用系统级薄膜铌酸锂电路的光计算加速器,克服了这一限制。利用强大的电光(普克尔斯)效应和该平台的可扩展性,我们展示了高达 1.36 TOPS 的光子计算速度,同时功耗仅为 0.057 pJ/OP。我们的系统具有 100 多个协同工作的薄膜铌酸锂高性能组件,超越了该平台上的最先进系统。我们进一步演示了二元分类、手写数字分类和图像分类,并实现了显著的准确性,展示了我们系统执行实际算法的能力。最后,我们研究了将我们的系统与混合集成的分布式反馈激光源和异质集成的改进单向行波载流子光电二极管相结合的可能性。我们的结果表明了薄膜铌酸锂作为计算平台的前景,解决了当前电子和光子计算中的瓶颈。其高性能电光权重编码和转换、晶圆级可扩展性以及与集成激光器和探测器的兼容性等独特特性,使薄膜铌酸锂光子学成为硅光子学的有力补充,并可扩展到超快速和低功耗信号处理和测距等应用领域。  
2024-11-04 Intelligent Video Recording Optimization using Activity Detection for Surveillance Systems null 监控系统通常难以管理大量的视频素材,其中很多素材无关紧要,导致存储效率低下且事件检索困难。本文提出了一种专注于活动检测的优化视频录制解决方案来解决这些问题。该方案利用了一种混合方法,结合了基于帧差法的运动检测和使用 YOLOv9 的目标检测。该策略专门针对涉及人类或汽车活动的场景进行录制,从而减少不必要的素材并优化存储空间使用。开发的模型展现出卓越的性能,汽车检测的精确率达到 0.855,行人检测的精确率达到 0.884,并且与仅依赖运动检测的传统监控系统相比,存储需求减少了三分之二。存储量的显著减少凸显了该方案在提高监控系统效率方面的有效性。尽管如此,仍然存在一些局限性,特别是在恶劣天气条件下(例如强风)会出现误报和漏报。  
2024-11-04 MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D null 纹理化是3D资产生产流程中的关键步骤,它可以增强3D资产的视觉吸引力和多样性。尽管文本到纹理(T2T)生成技术近期取得了一些进展,但现有方法生成的结果往往不尽如人意,主要原因是局部不连续性、多视图之间不一致以及它们对UV展开结果的严重依赖。为了应对这些挑战,我们提出了一种名为MVPaint的创新生成-细化3D纹理化框架,它可以生成高分辨率、无缝的纹理,同时强调多视图一致性。MVPaint主要由三个关键模块组成。1) 同步多视图生成(SMG)。给定一个3D网格模型,MVPaint首先使用SMG模型同时生成多视图图像,这会导致粗糙的纹理化结果,并且由于缺少观察而存在未上色的部分。2) 空间感知3D修复(S3I)。为了确保完整的3D纹理化,我们引入了S3I方法,专门用于有效地对先前未观察到的区域进行纹理化。3) UV细化(UVR)。此外,MVPaint采用UVR模块来提高UV空间中的纹理质量,该模块首先执行UV空间超分辨率,然后使用空间感知的接缝平滑算法来修正由UV展开引起的空间纹理不连续性。此外,我们基于从Objaverse数据集和整个GSO数据集中选择的优质3D网格,分别建立了两个T2T评估基准:Objaverse T2T基准和GSO T2T基准。大量的实验结果表明,MVPaint超越了现有的最先进方法。值得注意的是,MVPaint可以生成高保真纹理,同时最大限度地减少Janus问题,并显著增强跨视图一致性。  
2024-11-04 Toward Integrating Semantic-aware Path Planning and Reliable Localization for UAV Operations null 定位是无人机系统 (UAV) 最关键的任务之一,直接影响整体性能,它可以通过各种传感器实现,并应用于与搜索和救援行动、目标跟踪、建筑等相关的众多任务。然而,由于挑战性环境的负面影响,无人机可能会丢失用于定位的信号。在本文中,我们提出了一种有效的路径规划系统,利用语义分割信息,使用单目相机绕过纹理缺失和有问题的区域,如湖泊、海洋和高层建筑。我们介绍了一种实时语义分割架构和一种新颖的关键帧决策流程,以基于像素分布优化图像输入,从而减少处理时间。一个基于动态窗口方法 (DWA) 算法的分层规划器,与成本地图集成,旨在促进高效的路径规划。该系统在使用 Unity 的逼真模拟环境中实现,并与分割模型参数对齐。全面的定性和定量评估验证了我们方法的有效性,表明在挑战性环境中无人机定位的可靠性和效率得到了显著提高。  
2024-11-04 ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model null 视觉目标跟踪的目标是基于初始边界框在视频序列中定位目标物体。最近,视觉语言(VL)跟踪器提议利用额外的自然语言描述来增强其在各种应用中的多功能性。然而,在跟踪性能方面,VL 跟踪器仍然不如最先进的(SoTA)视觉跟踪器。我们发现这种劣势主要源于它们严重依赖手动文本标注,其中包括频繁提供的模糊语言描述。在本文中,我们提出了 ChatTracker,它利用多模态大型语言模型 (MLLM) 中丰富的知识来生成高质量的语言描述并提高跟踪性能。为此,我们提出了一种新颖的基于反思的提示优化模块,用跟踪反馈迭代地改进目标模糊和不准确的描述。为了进一步利用 MLLM 生成的语义信息,我们提出了一个简单而有效的 VL 跟踪框架,它可以轻松地作为即插即用模块集成到 VL 和视觉跟踪器中,以提高其性能。实验结果表明,我们提出的 ChatTracker 实现了与现有方法相当的性能。  
2024-10-31 DiffPAD: Denoising Diffusion-based Adversarial Patch Decontamination link 在不断发展的对抗性机器学习领域中,开发有效的防御补丁攻击的方法已成为一项关键挑战,需要可靠的解决方案来保护现实世界中的人工智能系统。尽管扩散模型在图像合成方面表现出非凡的能力,并且最近已被用于对抗 $\ell_p$ 范数有界攻击,但其在缓解局部补丁攻击方面的潜力很大程度上仍未得到充分探索。在这项工作中,我们提出了 DiffPAD,这是一个利用扩散模型的力量进行对抗性补丁去污的新框架。DiffPAD 首先对下采样的输入图像执行超分辨率恢复,然后采用二值化、动态阈值方案和滑动窗口来有效地定位对抗性补丁。这种设计灵感来自于理论上推导出的补丁大小和扩散恢复误差之间的相关性,该相关性在各种补丁攻击场景中得到了推广。最后,DiffPAD 将修复技术应用于原始输入图像,并将估计的补丁区域屏蔽。通过将超分辨率恢复和图像修复的闭式解集成到预训练扩散模型的条件反向采样过程中,DiffPAD 避免了对文本指导或微调的需求。通过全面的实验,我们证明了 DiffPAD 不仅实现了最先进的对抗补丁攻击的鲁棒性,而且在恢复自然图像方面表现出色,没有补丁残留。  
2024-10-31 ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images link 开放词汇量3D目标检测 (OV-3Det) 旨在泛化到训练阶段标记的有限数量的基本类别之外。最大的瓶颈是3D标注数据的稀缺性,而2D图像数据集丰富且标注详尽。因此,利用丰富的2D图像标注来缓解OV-3Det中固有的数据稀缺性是很直观的。在本文中,我们通过探索仅使用2D图像学习OV-3Det的潜力,将任务设置推向极限。这种设置的主要挑战是训练图像和测试点云之间的模态差距,这阻碍了将2D知识有效地整合到OV-3Det中。为了应对这一挑战,我们提出了一个名为ImOV3D的新颖框架,利用包含图像和点云 (PC) 的伪多模态表示来弥合模态差距。ImOV3D的关键在于灵活的模态转换,其中2D图像可以使用单目深度估计提升到3D,也可以通过渲染从3D场景派生。这允许将训练图像和测试点云统一到一个通用的图像-PC表示中,既包含丰富的2D语义信息,又包含了3D空间数据的深度和结构特征。我们谨慎地进行这种转换,以最大限度地减少训练和测试用例之间的域差距。在SUNRGBD和ScanNet这两个基准数据集上的大量实验表明,即使在没有真实3D训练数据的情况下,ImOV3D的性能也明显优于现有方法。通过包含少量真实的3D数据进行微调,其性能也大大超过了之前的最先进水平。代码和预训练模型已发布在https://github.com/yangtiming/ImOV3D。  
2024-10-31 Uncertainty Estimation for 3D Object Detection via Evidential Learning null 三维物体检测是自动驾驶和机器人技术中计算机视觉应用的一项重要任务。然而,模型通常难以量化检测可靠性,导致在不熟悉的场景中表现不佳。我们引入了一个框架,通过利用三维检测器中鸟瞰图表示上的证据学习损失来量化三维物体检测中的不确定性。这些不确定性估计所需的计算开销极小,并且可以推广到不同的架构。我们证明了这些不确定性估计在识别分布外场景、定位不良的物体和漏检(假阴性)方面的有效性和重要性;我们的框架在基准上平均提高了10-20%。最后,我们将这套任务集成到一个系统中,其中三维物体检测器自动标记驾驶场景,并且我们的不确定性估计在标签用于训练第二个模型之前验证标签的正确性。在此,我们基于不确定性的验证导致mAP提高了1%,NDS提高了1-2%。  
2024-10-31 From Web Data to Real Fields: Low-Cost Unsupervised Domain Adaptation for Agricultural Robots null 在精准农业中,视觉模型通常难以处理新的、未曾见过的田地,因为作物和杂草会受到外部因素的影响,导致它们的组成和外观与学习到的分布不同。本文旨在利用无监督域自适应(UDA)以低成本适应特定田地。我们探索了一种新的域迁移,从多样的大型互联网数据池迁移到机器人特定位置收集的小数据集,从而最大限度地减少对大量田间数据收集的需求。此外,我们引入了一个新的模块——多级基于注意力的对抗判别器(MAAD)——它可以集成到任何检测模型的特征提取器级别。在本研究中,我们将MAAD与CenterNet结合起来,同时检测叶片、茎和叶脉实例。我们的结果表明,与基线模型相比,未标记目标域的性能显著提高,目标检测精度提高了7.5%,关键点检测精度提高了5.1%。  
2024-10-31 Open-Set 3D object detection in LiDAR data as an Out-of-Distribution problem null 基于激光雷达数据的三维目标检测通过先进的深度学习方法在受控环境中已达到工业级性能。然而,这些神经网络模型受到有限的内围目标类别的限制。我们的工作将激光雷达数据中的开放集三维目标检测问题重新定义为分布外(OOD)检测问题,以检测异常目标。与传统的目标检测相比,这种方法带来了额外的信息。我们建立了一个比较基准,并表明两阶段OOD方法,特别是自动标记,在三维OOD目标检测中显示出 promising 的结果。我们的贡献包括通过检查超参数的评估和评估生成额外数据以训练OOD感知三维目标检测器的策略来建立严格的评估协议。这种全面的分析对于开发能够在多样化和不可预测的现实场景中可靠执行的鲁棒的三维目标检测系统至关重要。  
2024-10-31 Context-Aware Token Selection and Packing for Enhanced Vision Transformer null 近年来,视觉Transformer的长距离注意力机制在各种计算机视觉任务中推动了显著的性能突破。然而,传统的自注意力机制需要处理信息丰富的和无信息的标记,效率低下且精度不高。虽然已引入稀疏注意力机制通过减少参与注意力的标记来缓解这些问题,但它们通常缺乏上下文感知能力和智能性。这些机制经常在不同的输入上应用统一的标记选择策略进行批量训练,或者仅针对推理阶段优化效率。为了克服这些挑战,我们提出了一种新颖的算法:选择并打包注意力(SPA)。SPA 使用一个由选择标签监督的低成本门控层动态选择信息丰富的标记,并将这些标记打包成新的批次,从而在并行化的 GPU 批量训练和推理中使用可变数量的标记。跨不同数据集和计算机视觉任务的大量实验表明,SPA 提供了卓越的性能和效率,包括目标检测的 mAP 提高了 0.6,计算成本降低了 16.4%。  
2024-10-31 QUEST-A: Untrained Filtering with Trained Focusing led to Enhanced Quantum Architectures link 量子架构搜索(QAS)是量子机器学习中的一个基本挑战,目前最先进的方法主要分为免训练和梯度引导两类。然而,将QAS仅仅视为离散剪枝过程或连续优化问题都无法平衡准确性和效率。本工作将QAS分解为两个交替解决的子问题:最优电路结构检索和参数优化。基于此洞察,我们提出了量子未训练-探索协同训练架构(QUEST-A),它通过电路固有属性实现快速架构剪枝,并利用参数重用策略进行 focused 优化。QUEST-A在一个进化框架内统一了离散结构搜索和连续参数优化,该框架集成了快速剪枝和细粒度优化。实验表明,QUEST-A 优于现有方法:增强了信号表示中的模型表达能力,在图像分类的不同复杂度下保持了高性能,并在变分量子本征求解器任务中实现了数量级的精度提升。这些结果验证了QUEST-A的有效性,并为QAS提供了可迁移的方法。  
2024-10-30 Multilingual Vision-Language Pre-training for the Remote Sensing Domain link 基于对比语言-图像预训练 (CLIP) 的方法目前广泛用于支持涉及遥感数据的视觉和语言任务,例如跨模态检索。CLIP 在这一特定领域的适应依赖于使用标准对比目标的模型微调,使用现有的人工标注的图像-标题数据集,或使用从遥感图像上的其他注释(例如,对象类别)派生的图像-标题对对应的合成数据。使用不同的预训练机制受到的关注较少,只有少数例外情况考虑了多语言输入。这项工作提出了一种用于遥感领域的新型视觉和语言模型,探索了多语言 CLIP 模型的微调,并测试了使用基于对齐来自单个输入图像的局部和全局表示的自监督方法,以及标准的 CLIP 目标。模型训练依赖于汇集预先存在的遥感图像和英文标题配对的数据集,然后使用自动机器翻译成另外九种语言。我们表明,翻译后的数据确实是有帮助的,例如,也提高了英语的性能。我们由此产生的模型,我们将其命名为遥感多语言 CLIP (RS-M-CLIP),在各种视觉和语言任务中获得了最先进的结果,包括跨模态和多语言图像-文本检索,或零样本图像分类。  
2024-10-30 CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP null 机器遗忘 (MU) 作为一种无需完全重新训练即可从训练模型中移除特定数据的方法,受到了广泛关注。尽管在文本和图像分类等单模态领域取得了进展,但多模态模型中的遗忘仍然相对缺乏研究。本文探讨了在 CLIP(一种对齐视觉和文本表示的杰出多模态模型)中遗忘所面临的独特挑战。我们引入了 CLIPErase,一种新颖的方法,可以解开并选择性地遗忘视觉和文本关联,确保遗忘不会损害模型性能。CLIPErase 由三个关键模块组成:遗忘模块,用于破坏遗忘集中样本的关联;保留模块,用于保持模型在保留集上的性能;以及一致性模块,用于维持与原始模型的一致性。在 CIFAR-100 和 Flickr30K 数据集上对四个 CLIP 下游任务进行的大量实验表明,CLIPErase 可以有效地遗忘零样本任务中多模态样本的指定关联,同时在遗忘后保持模型在保留集上的性能。  
2024-10-30 EMMA: End-to-End Multimodal Model for Autonomous Driving null 我们推出了EMMA,一个用于自动驾驶的端到端多模态模型。基于多模态大型语言模型基础,EMMA将原始摄像头传感器数据直接映射到各种驾驶专用输出,包括规划轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入(例如导航指令和车辆自身状态)和输出(例如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练大型语言模型的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用特定任务的提示生成每个任务的输出。根据经验,我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo Open Motion Dataset (WOMD) 上取得有竞争力的结果来证明EMMA的有效性。EMMA还在Waymo Open Dataset (WOD) 上的摄像头主要3D目标检测中取得了有竞争力的结果。我们表明,使用规划轨迹、目标检测和道路图任务对EMMA进行联合训练可以在所有三个领域带来改进,突出了EMMA作为自动驾驶应用的通用模型的潜力。然而,EMMA也存在某些局限性:它只能处理少量图像帧,不包含像LiDAR或雷达这样的精确3D传感模态,并且计算成本高昂。我们希望我们的结果能够激发进一步的研究来缓解这些问题,并进一步发展自动驾驶模型架构的最新技术。  
2024-10-29 Active Learning for Vision-Language Models null 像CLIP这样的预训练视觉语言模型(VLM)在一系列下游计算机视觉任务中展现出令人印象深刻的零样本性能。然而,这些模型与在下游数据集上训练的有监督深度模型之间仍然存在相当大的性能差距。为了弥合这一差距,我们提出了一种新颖的主动学习(AL)框架,通过仅从未标记数据中选择少量信息丰富的样本进行标注来增强VLM的零样本分类性能。为此,我们的方法首先校准VLM的预测熵,然后结合自不确定性和邻居感知不确定性来计算可靠的不确定性度量,用于主动样本选择。我们的大量实验表明,所提出的方法在多个图像分类数据集上优于现有的AL方法,并显著提高了VLM的零样本性能。  
2024-10-29 Lighten CARAFE: Dynamic Lightweight Upsampling with Guided Reassemble Kernels link 特征上采样作为现代机器视觉模型中的基本操作,已在文献中得到广泛应用和研究。理想的上采样操作应轻量且计算复杂度低。也就是说,它不仅可以提高整体性能,而且不会影响模型的复杂性。内容感知特征重组 (CARAFE) 是一种精心设计的可学习操作,可实现特征上采样。尽管取得了令人鼓舞的性能,但该方法需要生成大规模内核,这带来了大量额外的冗余参数,并且固有地限制了可扩展性。为此,我们在本文中提出了一种轻量级上采样操作,称为动态轻量级上采样 (DLU)。具体来说,它首先构建一个小规模的源核空间,然后通过引入可学习的引导偏移量从核空间中采样大规模核,从而避免在上采样中引入大量可训练参数。在几个主流视觉任务上的实验表明,我们的 DLU 实现了与原始 CARAFE 相当甚至更好的性能,但复杂度要低得多,例如,在 16 倍上采样的情况下,DLU 比 CARAFE 的参数减少了 91%,FLOPs(浮点运算)至少减少了 63%,但在目标检测中,其 mAP 比 CARAFE 提高了 0.3%。代码可在 https://github.com/Fu0511/Dynamic-Lightweight-Upsampling 获取。  
2024-10-29 Data Generation for Hardware-Friendly Post-Training Quantization link 使用合成数据的零样本量化 (ZSQ) 是在隐私和安全约束下进行训练后量化 (PTQ) 的关键方法。然而,现有的数据生成方法通常难以有效地生成适用于硬件友好量化(所有模型层都量化)的数据。我们分析了现有的基于批量归一化 (BN) 匹配的数据生成方法,并确定了合成数据和真实数据之间的几个差距:1) 当前的生成算法无法同时优化整个合成数据集;2) 训练期间应用的数据增强通常被忽略;3) 由于这些层中缺少 BN,最终模型层中会出现分布偏移。这些差距会对 ZSQ 性能产生负面影响,尤其是在硬件友好量化场景中。在这项工作中,我们提出了面向硬件友好量化的数据生成 (DGH),这是一种解决这些差距的新方法。DGH 联合优化所有生成的图像,无论图像集大小或 GPU 内存限制如何。为了解决数据增强不匹配问题,DGH 包括一个预处理阶段,该阶段模仿增强过程,并通过结合自然图像先验来提高图像质量。最后,我们提出了一种新的分布拉伸损失,它可以对齐真实数据和合成数据之间特征图分布的支持度。此损失应用于模型的输出,并且可以适应各种任务。DGH 在多个任务的量化性能方面均有显著改进,在分类和目标检测中,硬件友好 ZSQ 的准确率提升高达 30%,其性能通常与真实数据相当。  
2024-10-29 FakeFormer: Efficient Vulnerability-Driven Transformers for Generalisable Deepfake Detection null 近来,视觉Transformer(ViT)在通用图像分类领域取得了前所未有的成效。然而,由于在深度伪造检测领域的性能相比卷积神经网络(CNN)较低,这些模型在该领域的探索仍然不足。本文首先研究了为什么普通的ViT架构在处理面部伪造检测时表现欠佳。我们的分析表明,与CNN相比,ViT难以对通常是深度伪造特征的局部伪造痕迹进行建模。基于这一观察,我们提出了一个名为FakeFormer的深度伪造检测框架,该框架扩展了ViT以增强对细微的不一致性信息的提取。为此,我们引入了一种由伪造痕迹易感区域引导并专为ViT设计的显式注意力学习机制。我们在多个著名的基准数据集上进行了大量实验,包括FF++、Celeb-DF、WildDeepfake、DFD、DFDCP和DFDC。结果表明,FakeFormer在泛化性和计算成本方面均优于现有最佳方法,且无需大规模训练数据集。代码可在\url{https://github.com/10Ring/FakeFormer}获取。  
2024-10-29 Cognitive Semantic Augmentation LEO Satellite Networks for Earth Observation null 对地观测 (EO) 系统对于地图绘制、灾难监测和资源管理至关重要,但它们难以高效地处理和传输大量的 EO 数据,特别是对于农业和实时灾难响应等专门应用而言。本文提出了一种用于 EO 卫星网络中语义通信的新型框架,旨在通过认知处理技术提高数据传输效率和系统性能。该系统利用离散任务导向联合信源信道编码 (DT-JSCC) 和语义数据增强 (SA) 将认知语义处理与星间链路相结合,从而实现多光谱图像的有效分析和传输,以改进目标检测、模式识别和实时决策。引入了认知语义增强 (CSA) 来增强系统处理和传输语义信息的能力,从而改进特征优先级排序、一致性以及对不断变化的通信和应用需求的适应性。端到端架构专为下一代卫星网络(例如支持 6G 的网络)而设计,与联邦学习相比,展示了在更少的通信轮次和更高的精度方面的显著改进。  
2024-10-29 Bayesian Optimization for Hyperparameters Tuning in Neural Networks null 本研究探讨了贝叶斯优化(BO)在神经网络超参数调整中的应用,特别针对增强卷积神经网络(CNN)在图像分类任务中的性能。贝叶斯优化是一种无导数的全局优化方法,适用于具有连续输入和有限评估预算的昂贵的黑盒函数。BO算法利用高斯过程回归和采集函数(如置信上限(UCB)和期望改进(EI))来有效地识别最佳配置。本研究使用Ax和BOTorch框架,展示了BO在减少超参数调整试验次数的同时实现具有竞争力的模型性能的效率。实验结果表明,BO有效地平衡了探索和利用,快速收敛到CNN架构的最佳设置。这种方法强调了BO在自动化神经网络调整方面的潜力,有助于提高机器学习流程的准确性和计算效率。  
2024-10-29 PK-YOLO: Pretrained Knowledge Guided YOLO for Brain Tumor Detection in Multiplanar MRI Slices link 多平面磁共振成像 (MRI) 切片中的脑肿瘤检测是一项具有挑战性的任务,因为多平面图像的结构中存在各种外观和关系。在本文中,我们提出了一种新的基于 YOLO(You Only Look Once)的检测模型,该模型结合了预训练知识 (PK),称为 PK-YOLO,以提高多平面 MRI 切片中脑肿瘤检测的性能。据我们所知,PK-YOLO 是第一个基于预训练知识引导的 YOLO 目标检测器。新方法的主要组成部分包括一个通过稀疏掩码建模预训练的纯轻量级卷积神经网络主干、一个带有预训练主干的 YOLO 架构和一个用于改进小目标检测的回归损失函数。预训练的主干允许将单个平面 MRI 切片上的目标查询的特征迁移到模型编码器中,并且学习到的领域知识库可以改进域内检测。改进的损失函数可以进一步提高多平面二维 MRI 切片中小尺寸脑肿瘤的检测性能。实验结果表明,与最先进的类 YOLO 和类 DETR 目标检测器相比,所提出的 PK-YOLO 在多平面 MRI 脑肿瘤检测数据集上实现了具有竞争力的性能。代码可在 https://github.com/mkang315/PK-YOLO 获取。  
2024-10-28 MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps link 多视角室内三维物体检测的关键挑战在于从图像中推断准确的几何信息,以实现精确的三维检测。先前的方法依赖于神经辐射场(NeRF)进行几何推理。然而,从NeRF提取的几何信息通常不准确,导致检测性能欠佳。本文提出了MVSDet,它利用平面扫描进行几何感知的三维物体检测。为了规避对大量深度平面进行精确深度预测的要求,我们设计了一种概率采样和软加权机制来决定像素特征在三维体素上的放置。我们为每个像素选择概率体素中得分最高的多个位置,并使用它们的概率得分来表示置信度。我们进一步应用最新的像素对齐高斯 splatting 来正则化深度预测,并在计算开销很小的情况下提高检测性能。我们在 ScanNet 和 ARKitScenes 数据集上进行了大量实验,以证明我们模型的优越性。我们的代码可在 https://github.com/Pixie8888/MVSDet 获取。  
2024-10-28 TACO: Adversarial Camouflage Optimization on Trucks to Fool Object Detectors null 对抗性攻击威胁着机器学习模型在自动驾驶和防御系统等关键应用中的可靠性。随着像YOLOv8这样的模型使目标检测器变得更加鲁棒,开发有效的对抗性方法也越来越具有挑战性。我们提出了卡车对抗性伪装优化(TACO),这是一个在3D车辆模型上生成对抗性伪装图案以欺骗最先进的目标检测器的新框架。TACO采用虚幻引擎5,将可微渲染与逼真的渲染网络相结合,以优化针对YOLOv8的对抗性纹理。为了确保生成的纹理既能有效地欺骗检测器,又在视觉上合理,我们引入了卷积平滑损失函数,一个通用的平滑损失函数。实验评估表明,TACO显著降低了YOLOv8的检测性能,在未见测试数据上实现了0.0099的[email protected]。此外,这些对抗性图案对其他目标检测模型(如Faster R-CNN和早期YOLO版本)表现出很强的迁移性。  
2024-10-28 Synthetica: Large Scale Synthetic Data for Robot Perception null 基于视觉的目标检测器是机器人应用的关键基础,因为它们提供有关环境中目标定位的宝贵信息。这些检测器需要确保在不同的照明条件、遮挡和视觉伪影下都具有高可靠性,同时还要实时运行。为这些网络收集和标注真实世界的数据非常耗时且成本高昂,尤其是对于工业物体等自定义资产,这使得将其推广到实际场景变得难以为继。为此,我们提出了Synthetica,一种用于训练鲁棒状态估计器的大规模合成数据生成方法。本文重点关注目标检测任务,这是一个重要问题,可以作为大多数状态估计问题(例如姿态估计)的前端。利用来自逼真的光线追踪渲染器的数据,我们扩大了数据生成规模,生成了270万张图像,以训练高精度实时检测Transformer。我们提出了一系列渲染随机化和训练时数据增强技术,有助于视觉任务的稳健的仿真到现实性能。我们展示了在目标检测任务中最先进的性能,同时检测器以50-100Hz的频率运行,比之前的SOTA快9倍。我们通过展示一个用于现实世界中自定义对象的管道,进一步证明了我们的训练方法对机器人应用的有用性,而这些对象之前并不存在数据集。我们的工作强调了扩展合成数据生成对于实现稳健的仿真到现实迁移以及实现最快的实时推理速度的重要性。视频和补充信息可以在以下URL找到:https://sites.google.com/view/synthetica-vision。  
2024-10-25 Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models null 最近的视觉基础模型可以提取通用表示并在各种任务中展现出令人印象深刻的能力。然而,它们在目标检测方面的应用在很大程度上被忽视了,尤其是在没有经过微调的情况下。在这项工作中,我们展示了冻结的基础模型可以成为通用的特征增强器,即使它们没有针对目标检测进行预训练。具体来说,我们探索了以下两种方式将基础模型的高级图像理解能力直接迁移到检测器中。首先,基础模型中的类别标记提供了对复杂场景的深入理解,这可以通过提供紧凑的上下文来促进解码检测器解码器中的目标查询。此外,基础模型中的补丁标记可以通过提供语义细节来丰富检测器编码器中的特征。利用冻结的基础模型作为即插即用的模块,而不是常用的骨干网络,可以显著提高检测器的性能,同时避免了由检测器骨干网络和基础模型之间的架构差异引起的问题。通过这种新颖的范式,我们通过集成一个或两个基础模型,在 COCO 验证集上,使用 R50 作为检测器骨干网络训练 12 个 epoch 后,将最先进的基于查询的检测器 DINO 的 AP 从 49.0% 提升到 51.9% (+2.9% AP),并进一步提升到 53.8% (+4.8% AP)。  
2024-10-25 MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors link 透视投影已被广泛应用于单目 3D 物体检测方法中。它引入了来自 2D 边界框和 3D 物体尺寸的几何先验,以减少深度估计的不确定性。然而,由于源于物体视觉表面的深度误差,边界框的高度通常无法代表实际的投影中心高度,这削弱了几何深度的有效性。直接预测投影高度不可避免地会导致 2D 先验信息的丢失,而使用复杂分支的多深度预测并不能充分利用几何深度。本文提出了一种基于 Transformer 的单目 3D 物体检测方法,称为 MonoDGP,该方法采用透视不变几何误差来修改投影公式。我们还尝试系统地讨论和解释几何误差背后的机制和功效,将其作为多深度预测的一种简单但有效的替代方案。此外,MonoDGP 将深度引导解码器解耦,并构建了一个仅依赖于视觉特征的 2D 解码器,提供了 2D 先验信息并在没有 3D 检测干扰的情况下初始化物体查询。为了进一步优化和微调 Transformer 解码器的输入标记,我们还引入了区域分割头 (RSH),以生成增强的特征和分割嵌入。我们的单目方法在 KITTI 基准测试中展现了最先进的性能,无需额外数据。代码可在 https://github.com/PuFanqi23/MonoDGP 获取。  
2024-10-25 DECADE: Towards Designing Efficient-yet-Accurate Distance Estimation Modules for Collision Avoidance in Mobile Advanced Driver Assistance Systems null 智能手机和其他移动设备的普及为通过低成本机器/深度学习 (ML/DL) 模型赋能的应用程序形式,以增强道路安全,为每个人提供先进驾驶辅助系统 (ADAS) 的独特机会。对于移动 ADAS 中碰撞避免的关键特性,存在用于物体检测的轻量级深度神经网络 (DNN),但传统的像素级深度/距离估计 DNN 的计算成本要高得多,因此不适用于资源受限设备上的实时应用。在本文中,我们提出了一种距离估计模型 DECADE,它处理每个检测器输出,而不是构建像素级深度/视差图。在该模型中,我们提出了一个姿态估计 DNN 来估计检测的非自我中心方向,以补充距离估计 DNN 使用边界框特征进行距离预测。我们证明了这些模块可以附加到任何检测器上,以通过快速距离估计来扩展物体检测。在 KITTI 3D 物体检测数据集上,通过附加到 YOLO 物体检测器输出并对其进行微调,对所提出的模块进行评估,实现了最先进的性能,在 0-150 米的距离范围内,平均绝对误差为 1.38 米,平均相对误差为 7.3%。我们广泛的评估方案不仅评估了类别性能,还评估了范围精度,特别是在 0-70 米的关键范围内。  
2024-10-24 HUE Dataset: High-Resolution Event and Frame Sequences for Low-Light Vision null 弱光环境对图像增强方法提出了重大挑战。为了应对这些挑战,在这项工作中,我们引入了HUE数据集,这是一个在多样化和具有挑战性的弱光条件下捕获的高分辨率事件和帧序列的综合集合。我们的数据集包括106个序列,涵盖室内、城市景观、暮光、夜间、驾驶和受控场景,每个序列都经过精心录制,以应对各种照度和动态范围。利用混合RGB和事件相机设置,我们收集了一个将高分辨率事件数据与互补帧数据相结合的数据集。我们采用无参考指标的定性和定量评估来评估最先进的弱光增强和基于事件的图像重建方法。此外,我们还在下游目标检测任务上评估了这些方法。我们的研究结果表明,虽然基于事件的方法在特定指标上表现良好,但在实际应用中可能会产生误报。该数据集和我们的综合分析为弱光视觉和混合相机系统的未来研究提供了宝贵的见解。  
2024-10-24 Optimizing Edge Offloading Decisions for Object Detection link 近年来机器学习和硬件的进步已经催生了能够执行实时目标检测且精度极高的嵌入式设备。我们考虑这样一种场景:嵌入式设备依赖于板载目标检测器,但可以选择在本地精度被认为过低时将检测任务卸载到更强大的边缘服务器。然而,资源限制了可以卸载到边缘的图像数量。我们的目标是在这些限制条件下确定要卸载哪些图像以最大限度地提高整体检测精度。为此,本文引入了一种奖励指标,旨在量化卸载单个图像带来的潜在精度提升,并提出了一种仅基于本地检测结果来估计此奖励,从而高效地做出卸载决策的方法。该方法的计算量很小,足以在嵌入式设备上运行,并且实证结果表明,即使在卸载图像的比例很小的情况下,它在提高检测精度方面也优于现有的替代方法。  
2024-10-24 Hybrid Quantum-Classical Feature Extraction approach for Image Classification using Autoencoders and Quantum SVMs null 为了利用量子计算机执行图像分类等机器学习任务,需要仔细考虑以下因素:NISQ(噪声中等规模量子)时代的量子计算机存在一些局限性,包括噪声、可扩展性、读入和读出时间以及门操作时间。因此,应该设计策略来减轻复杂数据集对量子机器学习管道整体效率的潜在影响,否则可能会导致资源需求过高或噪声增加。我们应用了一种使用 ResNet10 启发的卷积自编码器的经典特征提取方法,在将数据馈送到量子机器学习模块之前,既降低了数据集的维数,又提取了抽象且有意义的特征。我们选择的量子模块是量子增强支持向量机 (QSVM),因为支持向量机通常不需要大样本量来识别数据中的模式,并且具有短深度量子电路,这限制了噪声的影响。自编码器经过训练,可以通过图像重建来提取有意义的特征,旨在最小化训练集的均方误差。我们使用三个图像数据集来说明该管道:HTRU-1、MNIST 和 CIFAR-10。我们还为高度不平衡的 HTRU-1 数据集包含了一个量子增强的一类支持向量机 (QOCSVM),以及作为基准的经典机器学习结果。最后,还包括 HTRU-2 数据集,作为具有良好相关特征的数据集的基准。自编码器实现了近乎完美的重建,并且对 MNIST 实现了高分类精度,而 CIFAR-10 由于图像复杂性而表现出较差的性能,而 HTRU-1 由于数据集不平衡而表现不佳。这突出表明了通过经典特征提取进行降维与使用量子方法进行预测性能之间需要平衡。  
2024-10-25 Transferring Knowledge from High-Quality to Low-Quality MRI for Adult Glioma Diagnosis null 胶质瘤是一种常见且致命的脑肿瘤,需要早期诊断才能改善预后。然而,撒哈拉以南非洲 (SSA) 地区磁共振成像 (MRI) 技术落后,阻碍了准确诊断。本文介绍了我们参与 BraTS 挑战赛 SSA 成人胶质瘤项目的工作。我们采用了 BraTS-GLI 2021 获奖方案的模型,并利用三种训练策略对其进行训练:(1) 首先在 BraTS-GLI 2021 数据集上进行训练,然后在 BraTS-Africa 数据集上进行微调,(2) 仅在 BraTS-Africa 数据集上进行训练,(3) 仅在经过 2 倍超分辨率增强的 BraTS-Africa 数据集上进行训练。结果表明,首先在 BraTS-GLI 2021 数据集上进行训练,然后在 BraTS-Africa 数据集上进行微调,取得了最佳效果。这表明高质量数据集在训练过程中提供先验知识的重要性。我们性能最佳的模型在验证阶段分别实现了 0.882、0.840 和 0.926 的 Dice 分数,以及 15.324、37.518 和 13.971 的 Hausdorff 距离 (95%) 分数,用于增强肿瘤、肿瘤核心和全肿瘤。在比赛的最后阶段,我们的方法成功获得了总排名第二,体现了我们模型和训练策略的优势和有效性。我们的方法为改善 SSA 地区的胶质瘤诊断提供了见解,展示了深度学习在资源有限环境中的潜力以及从高质量数据集中进行迁移学习的重要性。  
2024-10-24 Spatial-Temporal Search for Spiking Neural Networks null 脉冲神经网络 (SNN) 具有稀疏计算和固有时间动态等吸引人的特性,被认为是下一代人工智能的潜在候选者。通过采用人工神经网络 (ANN) 的架构,SNN 在图像分类等基准测试任务中取得了具有竞争力的性能。然而,ANN 的成功架构对于 SNN 来说并非最佳。在这项工作中,我们应用神经架构搜索 (NAS) 来寻找适合 SNN 的架构。以前用于 SNN 的 NAS 方法主要关注空间维度,而明显缺乏对 SNN 至关重要的时域动态的考虑。受生物神经网络异质性的启发,我们提出了一种可微的方法来优化 SNN 的空间和时间维度。在空间层面,我们开发了一个基于脉冲的可微分层搜索 (SpikeDHS) 框架,其中基于脉冲的操作在计算约束下在细胞和层级上都得到了优化。我们进一步提出了一种可微分的代理梯度搜索 (DGS) 方法,以便在训练期间独立地演化局部 SG 函数。在时间层面,我们通过演化不同类型脉冲神经元的时间常数来探索其多样化时间动态的最佳配置,并在此基础上进一步开发了结合 SNN 和 ANN 的混合网络,平衡了准确性和效率。我们的方法在 CIFAR10/100 和 ImageNet 上实现了相当的分类性能,准确率分别为 96.43%、78.96% 和 70.21%。在基于事件的深度立体视觉方面,我们的方法找到了最佳的层变化,并以降低 26 倍的计算成本 (6.7 毫焦) 超越了专门设计的 ANN 的准确性,证明了 SNN 在处理高度稀疏和动态信号方面的潜力。  
2024-10-25 Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks null 为了解决涉及多种医学影像模式下文本指令与视觉图像的任务,研究人员开发了几种医学多模态大语言模型 (MLLM),并取得了令人瞩目的成果。目前大多数医学通才模型都是区域无关的,即将整个图像视为一个整体表征。然而,它们难以确定在生成句子时所关注的具体区域。为了模拟医生通常先浏览整个图像,然后集中于特定区域进行全面评估的行为,我们旨在增强医学 MLLM 对完整医学扫描图像中解剖区域的理解能力。为此,我们首先制定了以区域为中心的任务,并构建了一个大规模数据集 MedRegInstruct,将区域信息纳入训练。结合我们收集的数据集和其他医学多模态语料库进行训练,我们提出了一种区域感知的医学 MLLM,名为 MedRegA,它是第一个能够同时处理多种模态图像级和区域级医学视觉语言任务的双语通才医学人工智能系统。我们的 MedRegA 不仅支持三种以区域为中心的任务,而且在 8 种模态的视觉问答、报告生成和医学图像分类方面均取得了最佳性能,展现出显著的多功能性。实验表明,我们的模型不仅可以在双语环境下完成各种医学视觉语言任务,而且可以识别和检测多模态医学扫描图像中的结构,提高医学 MLLM 的可解释性和用户交互性。我们的项目页面是 https://medrega.github.io。  
2024-10-24 Thermal Chameleon: Task-Adaptive Tone-mapping for Radiometric Thermal-Infrared images link 热红外 (TIR) 成像为在具有挑战性的户外环境中导航提供了强大的感知能力,但由于其采用 14/16 位格式,因此存在纹理不佳和图像对比度低的问题。传统方法利用各种色调映射方法来增强 TIR 图像的对比度和光度一致性,然而,色调映射的选择很大程度上取决于对任务的了解以及良好的温度依赖先验。在本文中,我们提出了热变色龙网络 (TCNet),这是一种针对 RAW 14 位 TIR 图像的任务自适应色调映射方法。给定相同的图像,TCNet 可以针对每个特定任务调整 TIR 图像的不同表示的色调映射,从而无需启发式图像重新缩放预处理,也不依赖于场景温度或特定任务特征的广泛先验知识。TCNet 在目标检测和单目深度估计方面表现出改进的泛化性能,同时计算开销最小,并且可以模块化地集成到各种任务的现有架构中。项目页面:https://github.com/donkeymouse/ThermalChameleon  
2024-10-23 Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing null 大型预训练模型在一系列下游任务中取得了显著成功。然而,最近的研究表明,一种对抗性攻击(即后门攻击)可以通过污染训练数据集来操纵机器学习模型的行为,这对大型预训练模型(尤其是那些定制模型)的实际应用构成了重大威胁。因此,应对探索预训练模型漏洞的独特挑战至关重要。通过对大型预训练模型(例如ViT)执行后门攻击能力的实证研究,我们发现了攻击大型预训练模型的以下独特挑战:1)无法操纵甚至访问大型训练数据集,以及2)训练或微调这些模型所需的巨大计算资源。为了应对这些挑战,我们针对大型预训练模型的背景,建立了有效且可行的后门攻击的新标准。根据这些标准,我们引入了EDT模型,一种高效、无需数据、无需训练的后门攻击方法。受模型编辑技术的启发,EDT将一个基于编辑的轻量级码本注入到大型预训练模型的后门中,它将中毒图像的嵌入替换为目标图像的嵌入,而无需污染训练数据集或训练受害者模型。我们在各种预训练模型(如ViT、CLIP、BLIP和稳定扩散)以及图像分类、图像描述和图像生成等下游任务上进行的实验,证明了我们方法的有效性。我们的代码可在补充材料中找到。  
2024-10-23 FIPER: Generalizable Factorized Fields for Joint Image Compression and Super-Resolution null 在这项工作中,我们提出了一种用于超分辨率 (SR) 和图像压缩的统一表示方法,称为“因子化场”,其动机源于这两个任务之间的共同原理。SISR 和图像压缩都需要恢复和保留精细的图像细节——无论是通过增强分辨率还是重建压缩数据。与以往主要关注网络架构的方法不同,我们提出的方法利用基系数分解来显式地捕捉图像中的多尺度视觉特征和结构成分,从而解决了这两个任务的核心挑战。我们首先推导了我们的 SR 模型,其中包括一个系数主干网络和一个用于泛化因子化场的基 Swin Transformer。然后,为了进一步统一这两个任务,我们将训练好的 SR 模块强大的信息恢复能力作为先验知识用于压缩流程,从而提高压缩效率和细节重建效果。此外,我们引入了一个合并基的压缩分支,以整合共享结构,进一步优化压缩过程。大量实验表明,我们的统一表示方法实现了最先进的性能,在超分辨率 (SR) 中,PSNR 相比基线平均提高了 204.4%,在图像压缩中,相比之前的 SOTA 方法,BD 率降低了 9.35%。  
2024-10-23 DREB-Net: Dual-stream Restoration Embedding Blur-feature Fusion Network for High-mobility UAV Object Detection link 目标检测算法是无人机 (UAV) 成像系统的关键组成部分,广泛应用于复杂领域。然而,高机动性无人机拍摄的图像通常会受到运动模糊的影响,这严重阻碍了先进目标检测算法的性能。为了应对这些挑战,我们提出了一种专门为模糊图像设计的创新目标检测算法,称为 DREB-Net(双流恢复嵌入模糊特征融合网络)。首先,DREB-Net 通过在训练阶段加入模糊图像恢复辅助分支 (BRAB) 来解决模糊图像目标检测问题的特殊性。其次,它通过多级注意力引导特征融合 (MAGFF) 模块融合提取的浅层特征,以提取更丰富的特征。这里,MAGFF 模块包含局部注意力模块和全局注意力模块,它们为不同的分支分配不同的权重。然后,在推理阶段,可以移除 BRAB 的深度特征提取以降低计算复杂度并提高检测速度。在损失函数中,将 MSE 和 SSIM 的组合损失添加到 BRAB 以恢复模糊图像。最后,DREB-Net 在特征提取的早期阶段通过可学习频域幅度调制模块 (LFAMM) 引入快速傅里叶变换,以调整特征幅度并增强特征处理能力。实验结果表明,DREB-Net 在拍摄图像存在运动模糊的情况下仍然可以有效地执行目标检测任务,展现出优异的性能和广阔的应用前景。我们的源代码将在 https://github.com/EEIC-Lab/DREB-Net.git 上提供。  
2024-10-23 Deep Learning for Active Region Classification: A Systematic Study from Convolutional Neural Networks to Vision Transformers null 太阳活动区会严重扰乱日地空间环境,经常导致严重的太空天气事件,例如太阳耀斑和日冕物质抛射。因此,对活动区群进行自动分类是准确、及时预测太阳活动的关键起点。本研究展示了我们将深度学习技术应用于基于威尔逊山分类方案的活动区图像分类的结果。具体来说,我们探索了图像分类架构的最新进展,从卷积神经网络到视觉变换器,并报告了它们在活动区分类任务中的性能,表明其有效性的关键在于基于该领域最新进展的稳健训练过程。  
2024-10-22 Altogether: Image Captioning via Re-aligning Alt-text link 本文着重于创建合成数据以提高图像描述的质量。现有工作通常存在两个缺点。首先,它们从头开始描述图像,忽略了现有的替代文本元数据;其次,如果描述器的训练数据(例如 GPT)未知,则缺乏透明度。在本文中,我们研究了一种基于关键思想的原则性方法Altogether,即编辑和重新调整与图像相关的现有替代文本。为了生成训练数据,我们执行人工注释,注释者从现有的替代文本开始,并在多轮中将其重新调整到图像内容,从而构建具有丰富视觉概念的描述。这与先前的工作不同,先前的工作将人工注释作为一项一次性的描述任务,完全基于图像和注释者的知识。我们根据这些数据训练了一个描述器,该描述器可以大规模地概括重新调整替代文本的过程。我们的结果表明,我们的 Altogether 方法可以生成更丰富的图像描述,还可以改进文本到图像生成和零样本图像分类任务。  
2024-10-22 KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements link 我们介绍了一种名为KANICE(Kolmogorov-Arnold Networks with Interactive Convolutional Elements)的新型神经网络架构,它将卷积神经网络(CNN)与Kolmogorov-Arnold网络(KAN)原理相结合。KANICE将交互式卷积块(ICB)和KAN线性层集成到CNN框架中。这利用了KAN的通用逼近能力和ICB的自适应特征学习能力。基于Kolmogorov-Arnold表示定理,KANICE可以捕获复杂的非线性数据关系,同时实现动态的、上下文相关的特征提取。我们在四个数据集上评估了KANICE:MNIST、Fashion-MNIST、EMNIST和SVHN,并将其与标准CNN、CNN-KAN混合模型和ICB变体进行了比较。KANICE始终优于基线模型,在MNIST上实现了99.35%的准确率,在SVHN数据集上实现了90.05%的准确率。此外,我们还介绍了KANICE-mini,这是一种专为提高效率而设计的紧凑型变体。全面的消融研究表明,KANICE-mini可以用少得多的参数实现与KANICE相当的性能。KANICE-mini在SVHN上达到了90.00%的准确率,参数量为2,337,828,而KANICE的参数量为25,432,000。这项研究突出了基于KAN的架构在图像分类任务中平衡性能和计算效率的潜力。我们的工作为自适应神经网络的研究做出了贡献,将数学定理融入到深度学习架构中,并探索了模型复杂性和性能之间的权衡,推进了计算机视觉和模式识别领域的发展。本文的源代码可通过我们的GitHub存储库(https://github.com/m-ferdaus/kanice)公开获取。  
2024-10-22 YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion null 在自动驾驶和高级驾驶辅助系统 (ADAS) 中确保安全,很大程度上取决于交通标志识别技术的有效部署。虽然现有方法已具有一定成效,但它们往往需要在速度和准确性之间做出妥协。为了解决这个问题,我们提出了一种新颖的实时高效道路标志检测网络 YOLO-TS。该网络通过优化多尺度特征图的感受野,使其与各种数据集中交通标志的尺寸分布更加一致,从而显著提高了性能。此外,我们利用无锚框方法的灵活性,创新性地提出了特征融合策略,允许在包含丰富上下文信息的高分辨率特征图上进行多尺度目标检测,实现了准确性和速度的显著提升。为了减轻由空洞卷积引起的网格效应对小目标检测的不利影响,我们设计了一个独特的模块,该模块不仅可以减轻这种网格效应,还可以扩大感受野以涵盖更广泛的空间上下文信息,从而提高信息使用效率。在具有挑战性的公共数据集 TT100K 和 CCTSDB2021 上的评估表明,YOLO-TS 在准确性和速度方面均优于现有的最先进方法。我们将在未来公开此方法的代码。  
2024-10-22 AttriPrompter: Auto-Prompting with Attribute Semantics for Zero-shot Nuclei Detection via Visual-Language Pre-trained Models link 大规模视觉语言预训练模型(VLPM)在自然场景中文本提示的目标检测下游任务中表现出色。然而,由于医学图像的特征与用于预训练的网络来源图文对之间存在显著差距,VLPM在组织病理学图像的零样本核检测中的应用仍处于相对未开发的状态。本文旨在探索目标级VLPM,即基于基础语言图像预训练(GLIP)模型,在零样本核检测中的潜力。具体来说,我们提出了一种名为AttriPrompter的创新性自动提示管道,它包括属性生成、属性增强和相关性排序,以避免主观的人工提示设计。AttriPrompter利用VLPM的文本-图像对齐能力创建语义丰富的文本提示,然后将其输入GLIP进行初始的零样本核检测。此外,我们提出了一个自训练的知识蒸馏框架,其中GLIP作为教师模型,其初始预测被用作伪标签,以解决高核密度带来的挑战,包括漏检、误检和实例重叠。我们的方法在无标签核检测方面表现出色,优于所有现有的无监督方法,并展现出优异的泛化能力。值得注意的是,这项工作凸显了基于自然图像-文本对预训练的VLPM在医学领域下游任务中的惊人潜力。代码将在https://github.com/wuyongjianCODE/AttriPrompter发布。  
2024-10-22 DSORT-MCU: Detecting Small Objects in Real-Time on Microcontroller Units null 轻量级神经网络的进步彻底改变了广泛物联网应用中的计算机视觉,包括远程监控和过程自动化。然而,对于许多此类应用至关重要的小目标检测仍然是当前计算机视觉研究中一个尚未充分探索的领域,特别是对于托管资源受限处理器的低功耗嵌入式设备而言。为了解决上述差距,本文提出了一种适用于轻量级和节能目标检测网络的自适应切片方法,包括基于 YOLO 的模型和流行的 FOMO 网络。与大规模检测模型相比,所提出的切片方法能够在不影响精度的情况下在低功耗 MCU 上进行目标检测。通过将所提出的方法应用于具有内置机器学习加速器的新型基于 RISC-V 的 MCU 上的 FOMO 和 TinyissimoYOLO 网络,证明了该方法的优势。大量的实验结果表明,所提出的切片方法在 FOMO 和 TinyissimoYOLO 网络上将 F1 分数提高了高达 225%,同时使用 FOMO 将平均目标计数误差降低了高达 76%,使用 TinyissimoYOLO 降低了高达 89%。此外,这项工作的研究结果表明,对流行的二元交叉熵损失使用软 F1 损失可以作为 FOMO 网络的隐式非极大值抑制。为了评估真实世界的性能,这些网络部署在 GreenWaves Technologies 的基于 RISC-V 的 GAP9 微控制器上,展示了所提出的方法在检测性能(58% - 95% F1 分数)、低延迟(0.6 毫秒/推理 - 16.2 毫秒/推理)和能效(31 微焦耳/推理 - 1.27 毫焦耳/推理)之间取得平衡的能力,同时在 MCU 上使用高分辨率图像执行多个预测。  
2024-10-22 DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model null 本文的研究动机源于一个有趣的现象:当我们探究MaskDINO(即目前最先进的联合检测和分割模型)中transformer解码器初始层的中间结果时,会发现目标检测的性能滞后于实例分割的性能(即性能不平衡)。这一现象促使我们思考一个问题:transformer解码器初始层的性能不平衡是否会限制最终性能的上限?带着这个问题,我们进一步进行了定性和定量的预实验,验证了检测-分割不平衡问题对模型性能的负面影响。为了解决这个问题,本文提出了DI-MaskDINO模型,其核心思想是通过缓解检测-分割不平衡来提高最终性能。DI-MaskDINO是通过将我们提出的去不平衡(DI)模块和平衡感知token优化(BATO)模块配置到MaskDINO中来实现的。DI模块负责生成平衡感知查询,BATO模块使用平衡感知查询来指导初始特征token的优化。平衡感知查询和优化后的特征token分别作为transformer解码器的查询和键值对,以执行联合目标检测和实例分割任务。DI-MaskDINO在COCO和BDD100K基准测试中优于现有的联合目标检测和实例分割模型,与目前最先进的联合检测和分割模型MaskDINO相比, $AP^{box}$提高了+1.2,$AP^{mask}$提高了+0.9。此外,与目前最先进的目标检测模型DINO相比,DI-MaskDINO的$AP^{box}$提高了+1.0,与目前最先进的分割模型Mask2Former相比,$AP^{mask}$ 提高了+3.0。  
2024-10-22 Fire and Smoke Detection with Burning Intensity Representation link 由于火灾的破坏性潜力,有效地进行火灾和烟雾检测 (FSD) 和分析系统至关重要。 然而,许多现有的 FSD 方法直接采用通用的目标检测技术,而没有考虑火灾和烟雾的透明性,这导致定位不准确并降低了检测性能。 为了解决这个问题,本文提出了一种新的注意力火灾和烟雾检测模型 (a-FSDM)。 该模型不仅保留了传统检测算法强大的特征提取和融合能力,还重新设计了专门针对 FSD 中透明目标的检测头,称为注意力透明度检测头 (ATDH)。 此外,燃烧强度 (BI) 被引入作为传统 FSD 方法中与火灾相关的下游风险评估的关键特征。 在多个 FSD 数据集上的大量实验展示了所提出的 FSD 模型的有效性和通用性。 该项目可在 \href{https://xiaoyihan6.github.io/FSD/}{https://xiaoyihan6.github.io/FSD/} 获取。  
2024-10-21 Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models link 大型多模态模型 (LMM) 基于自回归建模在各种视觉语言和以视觉为中心的的任务中取得了重大突破。然而,这些模型通常专注于以视觉为中心的的任务,例如视觉定位和区域描述,或者视觉语言任务,例如图像字幕和多场景视觉问答 (VQA)。现有的 LMM 都没有像自然语言处理领域的大型语言模型那样,在一个模型中全面统一这两类任务。此外,即使有丰富的多任务指令遵循数据,直接堆叠这些数据来扩展通用能力仍然具有挑战性。为了解决这些问题,我们引入了一个名为 CCMD-8M 的新型多维度策划和整合的多模态数据集,它通过多级数据策划和多任务整合克服了统一以视觉为中心的任务和视觉语言任务的数据障碍。更重要的是,我们提出了 Griffon-G,这是一种通用的 LMM,可以在单个端到端范例中同时解决以视觉为中心的任务和视觉语言任务。 Griffon-G 解决了在联合优化这些任务期间遇到的训练崩溃问题,实现了更好的训练效率。跨多模态基准、通用视觉问答 (VQA) 任务、以场景文本为中心的 VQA 任务、与文档相关的 VQA 任务、指代表达理解和目标检测的评估表明,Griffon-G 超越了先进的 LMM,并在复杂的以视觉为中心的的任务中实现了专家级的性能。  
2024-10-21 Few-shot target-driven instance detection based on open-vocabulary object detection models null 当前的大型开放视觉模型可以用于单样本和少样本目标识别。然而,基于梯度的重新训练方案成本高昂。另一方面,开放词汇目标检测模型在相同的潜在空间中拉近了视觉和文本概念,从而允许以较小的计算成本通过提示进行零样本检测。我们提出了一种轻量级的方法,可以在不需要文本描述的情况下将后者转换为单样本或少样本目标识别模型。我们在 TEgO 数据集上使用 YOLO-World 模型作为基础进行的实验表明,性能随着模型大小、示例数量和图像增强的使用而提高。  
2024-10-21 Visual Representation Learning Guided By Multi-modal Prior Knowledge null 尽管深度神经网络(DNN)在计算机视觉方面取得了显著成功,但当训练数据和测试数据之间存在分布偏移时,它们的表现就会下降。在本文中,我们提出了一种基于分布的学习方法——知识引导的视觉表征学习(KGV),它利用多模态先验知识来提高分布偏移下的泛化能力。我们使用了来自两种不同模态的先验知识:1)具有层次和关联关系的知识图谱(KG);2)根据知识图谱中语义表示的视觉元素生成的合成图像。在共同的潜在空间中,从给定的模态生成相应的嵌入,即来自原始图像和合成图像的视觉嵌入以及知识图谱嵌入(KGE)。这些嵌入通过一种新颖的基于翻译的KGE方法进行对齐,其中知识图谱的节点和关系嵌入分别被建模为高斯分布和平移。我们认为,结合多模型先验知识可以实现更规范化的图像表征学习。因此,模型能够更好地泛化到不同的数据分布。我们在具有较大或较小分布偏移的不同图像分类任务上评估了KGV,即来自德国、中国和俄罗斯的数据集上的道路标志分类、使用mini-ImageNet数据集及其变体的图像分类,以及DVM-CAR数据集。结果表明,在所有实验中,KGV始终比基线表现出更高的准确性和数据效率。  
2024-10-18 MultiOrg: A Multi-rater Organoid-detection Dataset null 近年来,生物医学领域的高通量图像分析备受关注,推动了药物发现、疾病预测和个性化医疗的进步。类器官作为人类器官及其功能的优秀模型,是一个活跃的研究领域。显微图像中类器官自动量化的实现将为克服大量手动量化瓶颈提供有效的解决方案,特别是在高通量图像分析中。然而,与自动驾驶等其他领域相比,开放生物医学数据集明显缺乏,而且值得注意的是,其中只有少数尝试量化标注的不确定性。在这项工作中,我们提出了MultiOrg,一个全面的类器官数据集,专为具有不确定性量化的目标检测任务而设计。该数据集包含超过400张高分辨率二维显微图像和超过60,000个类器官的精选注释。最重要的是,它包括三个用于测试数据的标签集,由两位专家在不同时间点独立标注。我们还提供了一个类器官检测的基准,并通过一个易于安装的交互式插件,将最佳模型应用于流行的图像可视化工具Napari,以执行类器官量化。  
2024-10-18 A Hybrid Feature Fusion Deep Learning Framework for Leukemia Cancer Detection in Microscopic Blood Sample Using Gated Recurrent Unit and Uncertainty Quantification null 急性淋巴细胞白血病 (ALL) 是最恶性的白血病,也是成人和儿童中最常见的癌症。传统上,白血病的诊断是通过在显微镜下分析血液和骨髓涂片,并通过额外的细胞化学测试来确认。然而,这些方法昂贵、耗时且高度依赖专家知识。近年来,深度学习,特别是卷积神经网络 (CNN),为显微镜涂片图像分类提供了先进的方法,有助于检测白血病细胞。这些方法快速、经济高效,并且不受人为偏差的影响。然而,大多数方法缺乏量化不确定性的能力,这可能导致严重的误诊。在这项研究中,混合深度学习模型(InceptionV3-GRU、EfficientNetB3-GRU、MobileNetV2-GRU)被用于对ALL进行分类。贝叶斯优化用于微调模型的超参数并提高其性能。此外,深度集成不确定性量化被应用于解决白血病图像分类过程中的不确定性。所提出的模型在公开可用的数据集 ALL-IDB1 和 ALL-IDB2 上进行了训练。然后使用求和规则在分数级别聚合它们的结果。这些模型中使用的并行架构在区分 ALL 和非 ALL 病例方面提供了高水平的置信度。所提出的方法在 ALL-IDB1 数据集上实现了 100% 的检测准确率,在 ALL-IDB2 数据集上实现了 98.07% 的检测准确率,在组合数据集上实现了 98.64% 的检测准确率,证明了其在准确可靠的白血病诊断方面的潜力。  
2024-10-18 Ultrasound matrix imaging for transcranial in-vivo localization microscopy null 经颅超声成像通常受到颅骨引起的衰减和高阶像差的限制。通过使用微泡等造影剂并结合超快成像,不仅可以提高信噪比,还可以获得分辨率低至脑血管微米级的超分辨率图像。然而,超声定位显微镜 (ULM) 仍然受到波前畸变的影响,这限制了微泡的检测率并阻碍了它们的定位。在这项工作中,我们展示了依赖于预先记录反射矩阵的矩阵成像如何为这些基本问题提供解决方案。作为实验性概念验证,对三只麻醉羊进行了深部脑微血管的体内重建。结果表明,波畸变的补偿可以显著增强 ULM 的对比度和分辨率。这项实验研究为经颅和非电离观测人类脑微血管病理学(如中风)开辟了广阔的前景。  
2024-10-18 ClearSR: Latent Low-Resolution Image Embeddings Help Diffusion-Based Real-World Super Resolution Models See Clearer null 我们提出了ClearSR,这是一种可以更好地利用潜在低分辨率图像(LR)嵌入进行基于扩散的真实世界图像超分辨率(Real-ISR)的新方法。以前的Real-ISR模型主要关注如何激活更多文本到图像扩散模型的生成先验,以使输出的高分辨率(HR)图像看起来更好。然而,由于这些方法过于依赖生成先验,输出图像的内容往往与输入的LR图像不一致。为了缓解上述问题,在这项工作中,我们探索使用潜在的LR嵌入来约束ControlNet的控制信号,并在细节和结构层面提取LR信息。我们表明,正确使用潜在的LR嵌入可以产生更高质量的控制信号,这使得超分辨率结果与LR图像更加一致,并产生更清晰的视觉结果。此外,我们还表明,潜在的LR嵌入可以用来控制推理阶段,从而同时提高保真度和生成能力。实验表明,我们的模型在多个测试集的多个指标上都能取得更好的性能,并且与现有方法相比,能够生成与LR图像更加一致的SR结果。我们的代码将公开发布。  
2024-10-18 Comparative Evaluation of Clustered Federated Learning Method link 近年来,联邦学习 (FL) 已被证明是最有前途的分布式学习方法之一,可以保护数据隐私。随着该方法的发展并在各种现实场景中的应用,出现了新的挑战。其中一个挑战是 FL 协议参与者之间存在高度异构(通常称为非独立同分布)的数据分布。解决这个障碍的一个流行方案是集群联邦学习 (CFL),其目的是将客户端划分为分布均匀的组。在文献中,最先进的 CFL 算法通常使用一些数据异构性案例进行测试,而没有系统地证明选择的合理性。此外,用于区分不同异构场景的分类法并不总是直截了当。在本文中,我们针对联邦学习 (FL) 中提出的数据异构性分类法,探讨了两种最先进的 CFL 算法的性能。我们使用三个图像分类数据集,并使用外部聚类指标针对异构性类别分析生成的聚类。我们的目标是更清楚地了解 CFL 性能与数据异构场景之间的关系。  
2024-10-17 MMAD-Purify: A Precision-Optimized Framework for Efficient and Scalable Multi-Modal Attacks null 神经网络在各种任务中都取得了显著的性能,但它们仍然容易受到对抗性扰动的影响,这对安全关键型应用构成了重大风险。随着多模态的兴起,扩散模型已成为强大的工具,不仅可用于生成任务,还可用于图像编辑、修复和超分辨率等各种应用。然而,由于对其攻击以增强其弹性的研究有限,这些模型仍然缺乏鲁棒性。传统的攻击技术,如基于梯度的对抗性攻击和基于扩散模型的方法,由于其迭代性质而受到计算效率低下和可扩展性问题的阻碍。为了应对这些挑战,我们引入了一个创新框架,该框架利用扩散模型的蒸馏骨干,并结合了精度优化的噪声预测器,以增强我们攻击框架的有效性。这种方法不仅增强了攻击的效力,而且还显著降低了计算成本。我们的框架为多模态对抗性攻击提供了一种前沿解决方案,确保了更低的延迟和生成具有更高成功率的高保真对抗性示例。此外,我们证明了我们的框架实现了出色的可迁移性和针对净化防御的鲁棒性,在有效性和效率方面都优于现有的基于梯度的攻击模型。  
2024-10-17 Reproducibility study of “LICO: Explainable Models with Language-Image Consistency” link 机器学习领域日益严重的复现性危机要求我们仔细审查研究结果。本文调查了 Lei 等人 (2023) 提出的 LICO 方法,该方法旨在增强事后可解释性技术并提高图像分类性能。LICO 利用来自视觉语言模型的自然语言监督来丰富特征表示并指导学习过程。我们进行了全面的复现性研究,采用了(Wide)ResNets 和已建立的可解释性方法,如 Grad-CAM 和 RISE。我们基本上无法复现作者的结果。特别是,我们没有发现 LICO 始终如一地带来分类性能的提高或可解释性的定量和定性指标的改进。因此,我们的研究结果强调了在可解释性研究中进行严格评估和透明报告的重要性。  
2024-10-17 ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution null 现实世界图像超分辨率 (Real-ISR) 旨在从被未知且复杂的退化破坏的低质量 (LQ) 输入中恢复高质量 (HQ) 图像。特别是,预训练的文本到图像 (T2I) 扩散模型提供了强大的生成先验,可以重建可信且复杂的细节。然而,T2I 生成侧重于语义一致性,而 Real-ISR 强调像素级重建,这阻碍了现有方法充分利用扩散先验。为了应对这一挑战,我们引入了 ConsisSR 来处理语义和像素级的一致性。具体来说,与粗粒度的文本提示相比,我们利用更强大的 CLIP 图像嵌入,并通过我们的混合提示适配器 (HPA) 有效地利用这两种模态进行语义指导。其次,我们引入了时间感知潜在增强 (TALA) 来减轻 T2I 生成和 Real-ISR 一致性要求之间的固有差距。通过随机混合 LQ 和 HQ 潜在输入,我们的模型不仅可以处理时间步长特定的扩散噪声,还可以细化累积的潜在表示。最后但同样重要的是,我们的 GAN 嵌入策略采用预训练的 Real-ESRGAN 模型来细化扩散起点。这在不训练的情况下将推理过程加速到 10 步,同时保持采样质量。我们的方法在全尺度和加速模型中都表现出最先进的性能。代码将公开。  
2024-10-17 LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning link 模型规模的快速增长对微调所需的计算资源提出了更高的要求。现有的方法,如低秩自适应(LoRA),试图解决全参数微调中处理大量更新参数的问题。然而,LoRA 利用随机初始化和低秩矩阵优化来近似更新权重,这可能导致与全参数微调相比,收敛速度较慢且精度存在差距。为了解决这些问题,我们提出了 LoLDU,这是一种参数高效微调(PEFT)方法,与常规 PEFT 方法相比,可将可训练参数减少 2600 倍,同时保持相当的性能。 LoLDU 利用下三角-对角-上三角分解(LDU)来初始化低秩矩阵,以实现更快的收敛速度和正交性。我们专注于优化对角矩阵以进行缩放变换。据我们所知,LoLDU 在所有 PEFT 方法中参数最少。我们对 4 个指令遵循数据集、6 个自然语言理解 (NLU) 数据集、8 个图像分类数据集以及具有多种模型类型(LLaMA2、RoBERTa、ViT 和 Stable Diffusion)的图像生成数据集进行了广泛的实验,提供了全面而详细的分析。我们的开源代码可在 \href{https://github.com/SKDDJ/LoLDU}{https://github.com/SKDDJ/LoLDU} 获取。  
2024-10-17 Spatiotemporal Object Detection for Improved Aerial Vehicle Detection in Traffic Monitoring null 这项工作通过开发时空目标检测模型,在使用无人机摄像头进行多类别车辆检测方面取得了进展。该研究介绍了一个时空车辆检测数据集 (STVD),其中包含 6,600 张由无人机捕获的带注释的连续帧图像,能够对用于整体时空感知的算法进行全面训练和评估。基于 YOLO 的目标检测算法得到了增强,以结合时间动态,从而提高了单帧模型的性能。将注意力机制集成到时空模型中可以进一步提高性能。实验验证表明取得了重大进展,最佳时空模型比单帧模型提高了 16.22%,同时证明注意力机制具有进一步提高性能的潜力。  
2024-10-17 Augmentation Policy Generation for Image Classification Using Large Language Models null 自动数据增强方法显著提高了深度学习模型在图像分类中的性能和泛化能力。然而,大多数最先进的方法都是在常见的基准数据集上进行优化的,这限制了它们对更多样化或特定领域数据(如医学数据集)的适用性。在本文中,我们提出了一种使用大型语言模型自动生成高效增强策略的策略,该策略可针对任何数据集和模型架构的特定特征进行定制。所提出的方法迭代地与LLM交互,以获得并根据模型性能反馈改进增强策略,从而创建一个与数据集无关的数据增强管道。在医学影像数据集上对所提出的方法进行了评估,结果表明,该方法比现有方法有明显的改进。所提出的方法提供了一种自适应和可扩展的解决方案。虽然它增加了计算成本,但它显著提高了模型的鲁棒性,使流程自动化,并最大限度地减少了模型开发过程中的人工参与。  
2024-10-17 Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation null 指代性多目标跟踪(RMOT)是一项新兴的跨模态任务,旨在定位视频中由语言表达式指代的任意数量的目标对象并维持其身份。这项复杂的任务涉及语言和视觉模态的推理,以及目标对象的时间关联。然而,现有研究仅采用松散的特征融合,忽略了对跟踪目标的长期信息的利用。在本研究中,我们介绍了一种紧凑的基于 Transformer 的方法,称为 TenRMOT。我们在编码和解码阶段都进行特征融合,以充分利用 Transformer 架构的优势。具体来说,我们在编码阶段逐层递增地执行跨模态融合。在解码阶段,我们利用语言引导的查询来探测记忆特征,以准确预测所需的对象。此外,我们引入了一个查询更新模块,该模块明确利用跟踪对象的先前时间信息来增强其轨迹的一致性。此外,我们引入了一个名为“指代性多目标跟踪和分割(RMOTS)”的新任务,并构建了一个名为 Ref-KITTI Segmentation 的新数据集。我们的数据集包含 18 个视频,共 818 个表达式,每个表达式平均包含 10.7 个掩码,与大多数现有指代性视频分割数据集中典型的单个掩码相比,这带来了更大的挑战。TenRMOT 在指代性多目标跟踪和分割任务上均表现出优越的性能。  
2024-10-17 Unsupervised Skull Segmentation via Contrastive MR-to-CT Modality Translation null 从CT扫描中分割颅骨可以看作是一个已经解决的问题。然而,在MRI中,由于存在软组织而不是骨骼,这项任务的复杂性要大得多。从头部MRI图像中捕获骨骼结构非常困难,因为头部MRI的主要可视化目标是大脑。尝试使用颅骨剥离的方法似乎不太适合这项任务,并且在许多情况下都失败了。另一方面,监督学习方法需要昂贵且耗时的颅骨标注。为了克服这些困难,我们提出了一种完全无监督的方法,我们不直接对MRI图像进行分割,而是通过MRI到CT的转换生成合成CT数据,并在其中进行分割。我们解决了与无监督颅骨分割相关的许多问题,包括MRI和CT数据集的不配对性质(对比学习)、低分辨率和低质量(超分辨率)以及泛化能力。这项研究对于需要从MRI体积数据中进行颅骨分割的下游任务(如颅骨切除术或手术计划)具有重要价值,并且可以被视为朝着在医学影像中利用合成数据迈出的重要一步。  
2024-10-16 Interpreting and Analyzing CLIP’s Zero-Shot Image Classification via Mutual Knowledge link 对比语言-图像预训练 (CLIP) 通过将图像和文本类别表示映射到共享嵌入空间中来执行零样本图像分类,然后检索最接近图像的类别。这项工作提供了一种新方法,可以从两种模态之间的互知识的角度来解释用于图像分类的 CLIP 模型。具体来说,我们提出以下问题:视觉和语言 CLIP 编码器都学习了哪些共同的概念,这些概念会影响联合嵌入空间,导致点更近或更远?我们通过基于文本概念的解释方法来回答这个问题,展示其有效性,并对包含 13 个 CLIP 模型的池进行分析,这些模型在架构、规模和预训练数据集方面各不相同。我们探讨了与互知识相关的这些不同方面,并分析了零样本预测。我们的方法展示了一种有效且人性化的方式来理解 CLIP 的零样本分类决策。  
2024-10-16 PND-Net: Plant Nutrition Deficiency and Disease Classification using Graph Convolutional Network null 如果能够在早期识别和检测各种植物营养缺乏症和病害,就可以提高作物产量,促进农业增长。深度学习方法在利用叶片视觉症状自动检测植物病害和营养缺乏方面表现出优异的性能。本文提出了一种新的深度学习方法,即在基础卷积神经网络 (CNN) 的基础上,使用图卷积网络 (GNN) 对植物营养缺乏和病害进行分类。有时,全局特征描述符可能无法捕获病叶的关键区域,从而导致疾病分类不准确。为了解决这个问题,区域特征学习对于整体特征聚合至关重要。在这项工作中,我们探索了使用空间金字塔池化进行多尺度区域特征汇总,以实现具有判别性的特征表示。我们开发了一个 GCN,使其能够学习更精细的细节,从而对植物病害和营养缺乏进行分类。所提出的方法称为植物营养缺乏与病害网络 (PND-Net),并在两个营养缺乏公共数据集和两个病害分类公共数据集上使用四种 CNN 进行了评估。最佳分类性能为:(a) 香蕉营养缺乏数据集 90.00% 和咖啡营养缺乏数据集 90.54%;(b) 使用 Xception 骨干网络在马铃薯病害数据集上达到 96.18%,在 PlantDoc 数据集上达到 84.30%。此外,还进行了一些泛化实验,所提出的方法在两个公共数据集上取得了最先进的性能,即乳腺癌组织病理学图像分类(BreakHis 40X:95.50% 准确率,BreakHis 100X:96.79% 准确率)和宫颈癌分类巴氏涂片图像中的单细胞(SIPaKMeD:99.18% 准确率)。此外,PND-Net 使用五折交叉验证也取得了更好的性能。  
2024-10-16 Transformer based super-resolution downscaling for regional reanalysis: Full domain vs tiling approaches null 超分辨率 (SR) 是一种很有前景的降尺度方法,可以经济高效地从较粗糙的气候数据中生成高分辨率气候信息。其一个特定应用是从驱动全局对应物(预测因子)中降尺度区域再分析输出(预测值)。本研究以 CERRA 再分析(5.5 公里分辨率,由 ERA5 驱动的区域大气模型生成)为例,对各种 SR 降尺度方法进行了比较,重点关注温度。这项工作中提出的方法是 Swin Transformer,并使用了两种替代方法作为基准(全卷积 U-Net 和卷积和密集 DeepESD)以及简单的双三次插值。我们比较了两种方法,一种是使用整个域作为输入的标准方法,另一种是更具可扩展性的切片方法,将整个域划分为用作输入的切片。这些方法经过训练可以根据来自驱动 ERA5 的温度信息对 CERRA 地表温度进行降尺度;此外,切片方法还包括静态地形信息。我们表明,需要空间可迁移性的切片方法以降低性能为代价(尽管它优于某些全域基准),但提供了一种有效的可扩展解决方案,允许在泛欧尺度上进行 SR 减少,并且对于实时应用很有价值。  
2024-10-16 MambaBEV: An efficient 3D detection model with Mamba2 null 基于BEV范式并结合时间信息的稳定3D目标检测模型对于自动驾驶系统至关重要。然而,当前使用卷积层或可变形自注意力的时序融合模型不利于BEV空间全局信息的交换,并且计算成本更高。最近,一种专门用于处理序列的新型基于Mamba的模型在多个下游任务中显示出巨大潜力。在这项工作中,我们提出了一种基于Mamba2的BEV 3D目标检测模型,名为MambaBEV。我们还采用了一种端到端的自动驾驶范式来测试模型的性能。我们的工作在nuScenes数据集上取得了相当不错的结果:我们的基本版本实现了51.7%的NDS。我们的代码将很快开源。  
2024-10-15 Fractal Calibration for long-tailed object detection null 现实世界的数据集遵循不平衡的分布,这对稀有类别目标检测提出了重大挑战。最近的研究通过开发重新加权和重新采样的方法来解决这个问题,这些方法利用了数据集的类别频率。然而,这些技术只关注频率统计,而忽略了图像空间中类别的分布,从而遗漏了重要信息。与它们不同的是,我们提出了分形校准(FRACAL):一种新的用于长尾目标检测的后校准方法。FRACAL设计了一种logit调整方法,利用分形维数来估计类别在图像空间中的均匀分布程度。在推理过程中,它使用分形维数对均匀分布的类别预测概率进行反向加权,从而在两个轴上实现平衡:频繁类别和稀有类别之间,以及均匀分布类别和稀疏分布类别之间。FRACAL是一种后处理方法,它不需要任何训练,并且可以与许多现成的模型相结合,例如一级sigmoid检测器和两级实例分割模型。FRACAL将稀有类别的性能提高了8.6%,并在LVIS数据集上超过了所有以前的方法,同时在其他数据集(如COCO、V3Det和OpenImages)上也表现出良好的泛化能力。代码将被发布。  
2024-10-15 YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection null 现有的无人机绝缘子缺陷检测方法在处理复杂背景和小型目标时存在困难,导致精度欠佳和误报率高。为了解决这个问题,本文基于局部注意力建模的概念,提出了一种新的基于注意力的基础架构YOLO-ELA。该架构在单阶段YOLOv8架构的颈部添加了高效局部注意力(ELA)模块,将模型的注意力从背景特征转移到缺陷绝缘子特征。采用SCYLLA Intersection-Over-Union(SIoU)准则函数来减少检测损失,加速模型收敛,并提高模型对小型绝缘子缺陷的敏感性,从而产生更高的真阳性结果。由于数据集有限,我们利用数据增强技术来增加数据集的多样性。此外,我们利用迁移学习策略来提高模型的性能。在高分辨率无人机图像上的实验结果表明,我们的方法达到了最先进的性能,mAP0.5为96.9%,实时检测速度为每秒74.63帧,优于基线模型。这进一步证明了基于注意力的卷积神经网络(CNN)在目标检测任务中的有效性。  
2024-10-15 Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution link 近年来,现有的RGB引导的深度超分辨率方法在固定和已知退化(例如,双三次下采样)的假设下取得了优异的性能。 然而,在现实场景中,由于传感器限制和成像环境的复杂性(例如,低反射表面、照明),捕获的深度往往会出现非常规和未知的退化。 当这些真实退化与其假设不同时,它们的性能会显著下降。 为了解决这些问题,我们提出了一种面向退化和正则化的网络DORNet,它更加关注学习低分辨率深度的退化表示,从而为深度恢复提供有针对性的指导。 具体来说,我们首先设计了一种自监督退化学习方法,使用基于路由选择的退化正则化来模拟低分辨率深度的判别性退化表示。 然后,我们提出了一种退化感知方法,递归地进行多个面向退化的特征变换,每个变换都根据学习到的退化表示选择性地将RGB信息嵌入到深度中。 在真实数据集和合成数据集上的大量实验结果表明,我们的方法达到了最先进的性能。  
2024-10-15 LoKO: Low-Rank Kalman Optimizer for Online Fine-Tuning of Large Models null 从头开始训练具有数百万甚至数十亿参数的大型模型会产生巨大的计算成本。参数高效微调 (PEFT) 方法,特别是低秩自适应 (LoRA),通过仅使少量参数适应基于梯度优化器的特定任务来应对这一挑战。在本文中,我们将 PEFT 转换为最优滤波/状态估计问题,并提出低秩卡尔曼优化器 (LoKO) 以在线方式估计最优可训练参数。我们利用 LoRA 中的低秩分解来显着减少卡尔曼迭代中的矩阵大小,并进一步利用协方差矩阵的对角近似来有效地将计算复杂度从可训练参数数量的二次方降低到线性。此外,我们发现卡尔曼算法中协方差矩阵的初始化和观测噪声协方差的准确估计是该公式的关键,并且我们提出了在各种成熟的计算机视觉和语言模型中都能很好地工作的鲁棒方法。我们的结果表明,与图像分类和语言任务中 LoRA 常用的优化器相比,LoKO 以更少的迭代次数收敛并产生更好的性能模型。我们的研究开辟了利用卡尔曼滤波器作为在线微调大型模型的有效优化器的可能性。  
2024-10-15 Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution link 全向视频(ODV)可以提供沉浸式体验,并广泛应用于虚拟现实和增强现实领域。然而,受限的采集设备和传输带宽导致ODV分辨率较低。视频超分辨率(VSR)方法被提出用于提高视频的分辨率,但直接应用此类方法并不能很好地解决应用中ODV投影失真问题。为了获得更好的超分辨率重建质量,我们提出了一种面向ODV特性的新型时空失真感知网络(STDAN)。具体来说,引入了一个时空失真调制模块,以根据帧内和帧间对齐来改善空间ODV投影失真并利用时间相关性。接下来,我们设计了一种多帧重建和融合机制,以改进重建ODV帧的一致性。此外,我们在损失函数中加入了纬度显著性自适应映射,以专注于具有更高纹理复杂度和人类观看兴趣的重要视点区域。此外,我们收集了一个包含各种场景的新ODV-SR数据集。大量实验结果表明,所提出的STDAN在ODV上实现了卓越的超分辨率性能,并优于最先进的方法。  
2024-10-15 SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection null 多模态目标检测利用多种模态信息来提高检测器的准确性和鲁棒性。通过学习长期依赖关系,Transformer可以在特征提取阶段有效地融合多模态特征,从而大大提高多模态目标检测的性能。然而,当前的方法仅仅是堆叠Transformer引导的融合技术,而没有探索其在网络不同深度层提取特征的能力,从而限制了检测性能的提升。在本文中,我们介绍了一种名为SeaDATE的精确高效的目标检测方法。首先,我们提出了一种新颖的双重注意力特征融合(DTF)模块,在Transformer的引导下,通过双重注意力机制融合局部和全局信息,利用空间和通道token从正交角度加强模态特征的融合。同时,我们的理论分析和实证验证表明,将图像视为像素序列进行融合的Transformer引导融合方法,在浅层特征的细节信息方面比深度语义信息表现更好。针对这一问题,我们设计了一个对比学习(CL)模块,旨在学习多模态样本的特征,弥补Transformer引导融合在提取深度语义特征方面的不足,并有效地利用跨模态信息。在FLIR、LLVIP和M3FD数据集上的大量实验和消融研究证明了我们方法的有效性,达到了最先进的检测性能。  
2024-10-15 Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training null 边缘计算已经成为一种减少传输和处理延迟并保护视频流隐私的替代方案。然而,基于视频的应用程序(例如目标检测)中使用的深度神经网络 (DNN) 日益复杂,这给内存受限的边缘设备带来了压力。模型合并被提出通过在内存中仅保留合并层权重的一个副本,来减少 DNN 的内存占用。在现有的模型合并技术中,(i) 只有架构相同的层才能共享;(ii) 需要在云中进行计算成本高昂的重新训练;(iii) 假设可获得用于重新训练的真实数据。然而,重新评估合并模型的性能需要具有真实数据的验证数据集,通常在云中运行。指导选择共享层的常用指标包括共享层的大小或计算成本或表示大小。我们提出了一种新的模型合并方案,通过在边缘共享表示(即层的输出),并以表示相似度 S 为指导。我们发现,与其他指标相比,S 与合并模型的准确性具有极高的相关性,Pearson 相关系数 r
2024-10-15 TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement link 语义占用作为一种新颖的三维场景表示方法,在自动驾驶领域受到了广泛关注。然而,现有的占用预测方法主要集中于设计更好的占用表示方法,例如三视角或神经辐射场,而忽略了利用长期时间信息的优势。本文提出了一种雷达-相机多模态时间增强占用预测网络,称为TEOcc。我们的方法受到三维目标检测中利用时间信息取得成功的启发。具体来说,我们引入了一个时间增强分支来学习时间占用预测。在这个分支中,我们随机丢弃多视角相机的第t-k帧输入,并利用其他相邻帧和多模态输入的信息,分别通过长期和短期时间解码器预测其三维占用情况。此外,为了降低计算成本并融合多模态输入,我们针对长期和短期时间解码器专门设计了三维卷积层。此外,由于轻量级占用预测头是一个密集分类头,我们建议对时间增强分支和主分支使用共享的占用预测头。值得注意的是,时间增强分支仅在训练期间执行,在推理期间被丢弃。实验结果表明,TEOcc在nuScenes基准测试中实现了最先进的占用预测性能。此外,所提出的时间增强分支是一个即插即用的模块,可以很容易地集成到现有的占用预测方法中,以提高占用预测的性能。代码和模型将在https://github.com/VDIGPKU/TEOcc发布。  
2024-10-15 CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction link 激光雷达和摄像头视图数据的结合已成为3D目标检测的常用方法。然而,以往的方法在点级别上融合两种输入流,丢弃了从摄像头特征中提取的语义信息。在本文中,我们提出了跨视图中心点融合(Cross-View Center Point-Fusion),这是一种通过在BEV空间中融合摄像头和激光雷达衍生特征来执行3D目标检测的最先进模型,它在融合激光雷达的空间数据的同时保留了来自摄像头流的语义密度。我们的架构利用了先前已建立的算法(跨视图Transformer和CenterPoint)的各个方面,并并行运行它们的主干网络,从而实现实时处理和应用的高效计算。在本文中,我们发现,虽然隐式计算的深度估计在2D地图视图表示中可能足够准确,但在3D世界视图空间中进行精确的边界框预测需要显式计算的几何和空间信息。  
2024-10-15 Multiview Scene Graph link 一个合适的场景表示是实现空间智能的核心,在这种情况下,智能体可以稳健地重建并有效地理解 3D 场景。场景表示可以是度量的,例如 3D 重建中的地标地图、目标检测中的 3D 边界框或占用预测中的体素网格,也可以是拓扑的,例如 SLAM 中具有闭环的位姿图或 SfM 中的可见性图。在这项工作中,我们建议从无位姿图像构建多视图场景图 (MSG),使用相互连接的地点和对象节点以拓扑方式表示场景。对于现有的表示学习方法来说,构建 MSG 的任务具有挑战性,因为它需要从视野有限且可能存在较大视角变化的图像中共同解决视觉位置识别、目标检测和目标关联问题。为了评估任何解决此任务的方法,我们基于公共 3D 数据集开发了 MSG 数据集和注释。我们还提出了一种基于 MSG 边缘的交并比分数的评估指标。此外,我们开发了一种基于主流预训练视觉模型的新基线方法,将视觉位置识别和目标关联结合到一个 Transformer 解码器架构中。实验表明,与现有的相关基线相比,我们的方法具有优越的性能。  
2024-10-11 Efficient Hyperparameter Importance Assessment for CNNs null Hyperparameter selection is an essential aspect of the machine learning pipeline, profoundly impacting models’ robustness, stability, and generalization capabilities. Given the complex hyperparameter spaces associated with Neural Networks and the constraints of computational resources and time, optimizing all hyperparameters becomes impractical. In this context, leveraging hyperparameter importance assessment (HIA) can provide valuable guidance by narrowing down the search space. This enables machine learning practitioners to focus their optimization efforts on the hyperparameters with the most significant impact on model performance while conserving time and resources. This paper aims to quantify the importance weights of some hyperparameters in Convolutional Neural Networks (CNNs) with an algorithm called N-RReliefF, laying the groundwork for applying HIA methodologies in the Deep Learning field. We conduct an extensive study by training over ten thousand CNN models across ten popular image classification datasets, thereby acquiring a comprehensive dataset containing hyperparameter configuration instances and their corresponding performance metrics. It is demonstrated that among the investigated hyperparameters, the top five important hyperparameters of the CNN model are the number of convolutional layers, learning rate, dropout rate, optimizer and epoch.  
2024-10-11 Efficient Multi-Object Tracking on Edge Devices via Reconstruction-Based Channel Pruning null The advancement of multi-object tracking (MOT) technologies presents the dual challenge of maintaining high performance while addressing critical security and privacy concerns. In applications such as pedestrian tracking, where sensitive personal data is involved, the potential for privacy violations and data misuse becomes a significant issue if data is transmitted to external servers. To mitigate these risks, processing data directly on an edge device, such as a smart camera, has emerged as a viable solution. Edge computing ensures that sensitive information remains local, thereby aligning with stringent privacy principles and significantly reducing network latency. However, the implementation of MOT on edge devices is not without its challenges. Edge devices typically possess limited computational resources, necessitating the development of highly optimized algorithms capable of delivering real-time performance under these constraints. The disparity between the computational requirements of state-of-the-art MOT algorithms and the capabilities of edge devices emphasizes a significant obstacle. To address these challenges, we propose a neural network pruning method specifically tailored to compress complex networks, such as those used in modern MOT systems. This approach optimizes MOT performance by ensuring high accuracy and efficiency within the constraints of limited edge devices, such as NVIDIA’s Jetson Orin Nano. By applying our pruning method, we achieve model size reductions of up to 70% while maintaining a high level of accuracy and further improving performance on the Jetson Orin Nano, demonstrating the effectiveness of our approach for edge computing applications.  
2024-10-11 MMLF: Multi-modal Multi-class Late Fusion for Object Detection with Uncertainty Estimation null Autonomous driving necessitates advanced object detection techniques that integrate information from multiple modalities to overcome the limitations associated with single-modal approaches. The challenges of aligning diverse data in early fusion and the complexities, along with overfitting issues introduced by deep fusion, underscore the efficacy of late fusion at the decision level. Late fusion ensures seamless integration without altering the original detector’s network structure. This paper introduces a pioneering Multi-modal Multi-class Late Fusion method, designed for late fusion to enable multi-class detection. Fusion experiments conducted on the KITTI validation and official test datasets illustrate substantial performance improvements, presenting our model as a versatile solution for multi-modal object detection in autonomous driving. Moreover, our approach incorporates uncertainty analysis into the classification fusion process, rendering our model more transparent and trustworthy and providing more reliable insights into category predictions.  
2024-10-11 Boosting Open-Vocabulary Object Detection by Handling Background Samples null Open-vocabulary object detection is the task of accurately detecting objects from a candidate vocabulary list that includes both base and novel categories. Currently, numerous open-vocabulary detectors have achieved success by leveraging the impressive zero-shot capabilities of CLIP. However, we observe that CLIP models struggle to effectively handle background images (i.e. images without corresponding labels) due to their language-image learning methodology. This limitation results in suboptimal performance for open-vocabulary detectors that rely on CLIP when processing background samples. In this paper, we propose Background Information Representation for open-vocabulary Detector (BIRDet), a novel approach to address the limitations of CLIP in handling background samples. Specifically, we design Background Information Modeling (BIM) to replace the single, fixed background embedding in mainstream open-vocabulary detectors with dynamic scene information, and prompt it into image-related background representations. This method effectively enhances the ability to classify oversized regions as background. Besides, we introduce Partial Object Suppression (POS), an algorithm that utilizes the ratio of overlap area to address the issue of misclassifying partial regions as foreground. Experiments on OV-COCO and OV-LVIS benchmarks demonstrate that our proposed model is capable of achieving performance enhancements across various open-vocabulary detectors.  
2024-10-11 DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention link Vision Transformers with various attention modules have demonstrated superior performance on vision tasks. While using sparsity-adaptive attention, such as in DAT, has yielded strong results in image classification, the key-value pairs selected by deformable points lack semantic relevance when fine-tuning for semantic segmentation tasks. The query-aware sparsity attention in BiFormer seeks to focus each query on top-k routed regions. However, during attention calculation, the selected key-value pairs are influenced by too many irrelevant queries, reducing attention on the more important ones. To address these issues, we propose the Deformable Bi-level Routing Attention (DBRA) module, which optimizes the selection of key-value pairs using agent queries and enhances the interpretability of queries in attention maps. Based on this, we introduce the Deformable Bi-level Routing Attention Transformer (DeBiFormer), a novel general-purpose vision transformer built with the DBRA module. DeBiFormer has been validated on various computer vision tasks, including image classification, object detection, and semantic segmentation, providing strong evidence of its effectiveness.Code is available at {https://github.com/maclong01/DeBiFormer}  
2024-10-11 Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities null The advent of AI has influenced many aspects of human life, from self-driving cars and intelligent chatbots to text-based image and video generation models capable of creating realistic images and videos based on user prompts (text-to-image, image-to-image, and image-to-video). AI-based methods for image and video super resolution, video frame interpolation, denoising, and compression have already gathered significant attention and interest in the industry and some solutions are already being implemented in real-world products and services. However, to achieve widespread integration and acceptance, AI-generated and enhanced content must be visually accurate, adhere to intended use, and maintain high visual quality to avoid degrading the end user’s quality of experience (QoE). One way to monitor and control the visual “quality” of AI-generated and -enhanced content is by deploying Image Quality Assessment (IQA) and Video Quality Assessment (VQA) models. However, most existing IQA and VQA models measure visual fidelity in terms of “reconstruction” quality against a pristine reference content and were not designed to assess the quality of “generative” artifacts. To address this, newer metrics and models have recently been proposed, but their performance evaluation and overall efficacy have been limited by datasets that were too small or otherwise lack representative content and/or distortion capacity; and by performance measures that can accurately report the success of an IQA/VQA model for “GenAI”. This paper examines the current shortcomings and possibilities presented by AI-generated and enhanced image and video content, with a particular focus on end-user perceived quality. Finally, we discuss open questions and make recommendations for future work on the “GenAI” quality assessment problems, towards further progressing on this interesting and relevant field of research.  
2024-10-11 Accelerated Distributed Stochastic Non-Convex Optimization over Time-Varying Directed Networks null Distributed stochastic non-convex optimization problems have recently received attention due to the growing interest of signal processing, computer vision, and natural language processing communities in applications deployed over distributed learning systems (e.g., federated learning). We study the setting where the data is distributed across the nodes of a time-varying directed network, a topology suitable for modeling dynamic networks experiencing communication delays and straggler effects. The network nodes, which can access only their local objectives and query a stochastic first-order oracle to obtain gradient estimates, collaborate to minimize a global objective function by exchanging messages with their neighbors. We propose an algorithm, novel to this setting, that leverages stochastic gradient descent with momentum and gradient tracking to solve distributed non-convex optimization problems over time-varying networks. To analyze the algorithm, we tackle the challenges that arise when analyzing dynamic network systems which communicate gradient acceleration components. We prove that the algorithm’s oracle complexity is $\mathcal{O}(1/\epsilon^{1.5})$, and that under Polyak-$\L$ ojasiewicz condition the algorithm converges linearly to a steady error state. The proposed scheme is tested on several learning tasks: a non-convex logistic regression experiment on the MNIST dataset, an image classification task on the CIFAR-10 dataset, and an NLP classification test on the IMDB dataset. We further present numerical simulations with an objective that satisfies the PL condition. The results demonstrate superior performance of the proposed framework compared to the existing related methods.  
2024-10-10 Bilinear MLPs enable weight-based mechanistic interpretability link A mechanistic understanding of how MLPs do computation in deep neural networks remains elusive. Current interpretability work can extract features from hidden activations over an input dataset but generally cannot explain how MLP weights construct features. One challenge is that element-wise nonlinearities introduce higher-order interactions and make it difficult to trace computations through the MLP layer. In this paper, we analyze bilinear MLPs, a type of Gated Linear Unit (GLU) without any element-wise nonlinearity that nevertheless achieves competitive performance. Bilinear MLPs can be fully expressed in terms of linear operations using a third-order tensor, allowing flexible analysis of the weights. Analyzing the spectra of bilinear MLP weights using eigendecomposition reveals interpretable low-rank structure across toy tasks, image classification, and language modeling. We use this understanding to craft adversarial examples, uncover overfitting, and identify small language model circuits directly from the weights alone. Our results demonstrate that bilinear layers serve as an interpretable drop-in replacement for current activation functions and that weight-based interpretability is viable for understanding deep-learning models.  
2024-10-10 What is Left After Distillation? How Knowledge Transfer Impacts Fairness and Bias null Knowledge Distillation is a commonly used Deep Neural Network compression method, which often maintains overall generalization performance. However, we show that even for balanced image classification datasets, such as CIFAR-100, Tiny ImageNet and ImageNet, as many as 41% of the classes are statistically significantly affected by distillation when comparing class-wise accuracy (i.e. class bias) between a teacher/distilled student or distilled student/non-distilled student model. Changes in class bias are not necessarily an undesirable outcome when considered outside of the context of a model’s usage. Using two common fairness metrics, Demographic Parity Difference (DPD) and Equalized Odds Difference (EOD) on models trained with the CelebA, Trifeature, and HateXplain datasets, our results suggest that increasing the distillation temperature improves the distilled student model’s fairness – for DPD, the distilled student even surpasses the fairness of the teacher model at high temperatures. This study highlights the uneven effects of Knowledge Distillation on certain classes and its potentially significant role in fairness, emphasizing that caution is warranted when using distilled models for sensitive application domains.  
2024-10-10 Are We Ready for Real-Time LiDAR Semantic Segmentation in Autonomous Driving? null Within a perception framework for autonomous mobile and robotic systems, semantic analysis of 3D point clouds typically generated by LiDARs is key to numerous applications, such as object detection and recognition, and scene reconstruction. Scene semantic segmentation can be achieved by directly integrating 3D spatial data with specialized deep neural networks. Although this type of data provides rich geometric information regarding the surrounding environment, it also presents numerous challenges: its unstructured and sparse nature, its unpredictable size, and its demanding computational requirements. These characteristics hinder the real-time semantic analysis, particularly on resource-constrained hardware architectures that constitute the main computational components of numerous robotic applications. Therefore, in this paper, we investigate various 3D semantic segmentation methodologies and analyze their performance and capabilities for resource-constrained inference on embedded NVIDIA Jetson platforms. We evaluate them for a fair comparison through a standardized training protocol and data augmentations, providing benchmark results on the Jetson AGX Orin and AGX Xavier series for two large-scale outdoor datasets: SemanticKITTI and nuScenes.  
2024-10-10 Dynamic Object Catching with Quadruped Robot Front Legs null 本文提出了一种利用四足机器人的前腿在其后腿站立时进行动态物体捕捉的框架。该系统集成了计算机视觉、轨迹预测和腿部控制,使四足机器人能够使用机载摄像头视觉检测、跟踪并成功捕捉抛掷物体。利用微调后的 YOLOv8 模型进行物体检测和基于回归的轨迹预测模块,四足机器人迭代地调整其前腿位置,以预测和拦截物体。捕捉动作包括识别最佳捕捉位置、使用笛卡尔 PD 控制控制前腿以及在适当的时刻合拢双腿。我们提出并验证了三种选择最佳捕捉位置的不同方法:1)将预测轨迹与垂直平面相交;2)选择预测轨迹上与机器人腿部在其标称位置的中心距离最小的点;3)选择基于高斯混合模型 (GMM) 对机器人可达空间建模的预测轨迹上可能性最高的点。实验结果证明了该系统在各种场景下的鲁棒捕捉能力,其中 GMM 方法表现最佳,捕捉成功率达到 80%。系统运行的视频演示可在 https://youtu.be/sm7RdxRfIYg 找到。  
2024-10-10 When the Small-Loss Trick is Not Enough: Multi-Label Image Classification with Noisy Labels Applied to CCTV Sewer Inspections null 拥有数百万公里管道的污水管网维护在很大程度上依赖于高效的闭路电视(CCTV)检查。许多基于多标签图像分类的有前景的方法都利用了历史检查报告数据库来自动化这些检查。然而,这些数据库中标签噪声的显著存在,尽管已为人所知,但尚未得到解决。虽然大量研究探索了单标签分类(SLC)中的标签噪声问题,但很少有人关注多标签分类(MLC)中的标签噪声。为了解决这个问题,我们首先调整了三种样本选择SLC方法(Co-teaching、CoSELFIE和DISC),这些方法已被证明对标签噪声具有鲁棒性。我们的研究结果表明,仅基于小损失技巧的样本选择可以处理复杂的标签噪声,但它不是最优的。将混合样本选择方法应用于噪声MLC似乎是一种更有前景的方法。鉴于此,我们开发了一种基于CoSELFIE的新方法,称为MHSS(多标签混合样本选择)。通过深入的比较研究,我们证明了我们的方法在处理合成复杂噪声和真实噪声方面的优越性能,从而有助于持续努力实现CCTV污水管道检查的有效自动化。  
2024-10-10 TDDSR: Single-Step Diffusion with Two Discriminators for Super Resolution null 超分辨率方法正越来越多地针对现实世界和特定人脸任务进行专门设计。然而,许多现有方法依赖于过于简化的退化模型,这限制了它们有效处理复杂和未知退化模式的能力。虽然基于扩散的超分辨率技术最近显示出令人印象深刻的结果,但它们仍然受到需要大量推理步骤的限制。为了解决这个问题,我们提出了 TDDSR,一种高效的单步扩散超分辨率方法。我们的方法是从预训练的教师模型中提取,并基于扩散网络,只需一步即可执行超分辨率。它集成了一个可学习的下采样器来捕获不同的退化模式,并采用了两个鉴别器(一个用于高分辨率图像,一个用于低分辨率图像)来提高整体性能。实验结果证明了该方法在现实世界和特定人脸超分辨率任务中的有效性,其性能与另一种单步方法、先前最先进的模型和教师模型相当,甚至更好。  
2024-10-10 Explainability of Deep Neural Networks for Brain Tumor Detection link 医学图像分类对于支持医疗保健专业人员进行决策和培训至关重要。虽然卷积神经网络 (CNN) 传统上一直主导着该领域,但基于 Transformer 的模型正受到越来越多的关注。在这项研究中,我们应用可解释人工智能 (XAI) 技术来评估各种模型在现实世界医学数据上的性能,并确定需要改进的领域。我们将 VGG-16、ResNet-50 和 EfficientNetV2L 等 CNN 模型与 Transformer 模型 ViT-Base-16 进行了比较。我们的结果表明,数据增强几乎没有影响,但超参数调整和高级建模可以提高性能。CNN,特别是 VGG-16 和 ResNet-50,优于 ViT-Base-16 和 EfficientNetV2L,这可能是由于数据有限导致的欠拟合。LIME 和 SHAP 等 XAI 方法进一步表明,性能更好的模型可以更有效地显示肿瘤。这些发现表明,具有较浅架构的 CNN 对于小型数据集更有效,并且可以支持医疗决策。  
2024-10-10 O1O: Grouping of Known Classes to Identify Unknown Objects as Odd-One-Out null 在固定已知类别集合上训练的目标检测方法难以在开放世界环境中检测未知类别的物体。目前的修复方法包括添加近似监督,使用与候选物体位置相对应的伪标签,这些位置通常以类别无关的方式获得。虽然先前的方法主要依赖于物体的视觉特征,但我们发现几何线索可以提高未知物体的召回率。尽管来自伪标签的额外监督有助于检测未知物体,但它也会给已知类别带来混淆。我们观察到,在存在噪声伪标签的情况下,模型检测已知物体的性能显著下降。受人类认知研究的启发,我们建议将已知类别分组到超类中。通过识别超类中类别之间的相似性,我们可以通过“异类排除”评分机制识别未知类别。我们在开放世界检测基准上的实验表明,所有任务的未知物体召回率都有显著提高。至关重要的是,由于通过超类更好地划分了特征空间,我们在不影响已知物体性能的情况下实现了这一点。  
2024-10-09 Progressive Multi-Modal Fusion for Robust 3D Object Detection null 多传感器融合对于自动驾驶中精确的 3D 物体检测至关重要,其中摄像头和激光雷达是最常用的传感器。然而,现有方法通过将两种模态的特征投影到鸟瞰图 (BEV) 或透视图 (PV) 中,在单一视图中进行传感器融合,从而牺牲了诸如高度或几何比例等补充信息。为了解决这一局限性,我们提出了 ProFusion3D,一种渐进式融合框架,在中间和对象查询级别结合了 BEV 和 PV 中的特征。我们的架构分层融合了局部和全局特征,增强了 3D 物体检测的鲁棒性。此外,我们引入了一种自监督掩码建模预训练策略,通过三个新颖的目标来改进多模态表示学习和数据效率。在 nuScenes 和 Argoverse2 数据集上的大量实验最终证明了 ProFusion3D 的有效性。此外,ProFusion3D 对传感器故障具有鲁棒性,在仅有一种模态可用的情况下也表现出强大的性能。  
2024-10-09 Self-Supervised Learning for Real-World Object Detection: a Survey null 自监督学习 (SSL) 已成为计算机视觉领域的一种很有前景的方法,它使网络能够从大型未标记数据集中学习有意义的表示。SSL 方法主要分为两类:实例判别和掩码图像建模 (MIM)。虽然实例判别是 SSL 的基础,但它最初是为分类任务设计的,对于目标检测,尤其是小型目标检测,效果可能不佳。在本综述中,我们重点关注专为现实世界目标检测而设计的 SSL 方法,重点是在复杂环境中检测小型目标。与以往的综述不同,我们详细比较了 SSL 策略,包括目标级实例判别和 MIM 方法,并使用基于 CNN 和 ViT 的架构评估了它们对小型目标检测的有效性。具体而言,我们的基准测试是在广泛使用的 COCO 数据集以及专注于红外遥感图像中车辆检测的专业现实世界数据集上进行的。我们还评估了在自定义领域特定数据集上进行预训练的影响,重点介绍了某些 SSL 策略如何更适合处理未经整理的数据。我们的研究结果表明,实例判别方法在基于 CNN 的编码器中表现良好,而 MIM 方法更适合基于 ViT 的架构和自定义数据集预训练。本综述为选择最佳 SSL 策略提供了实用指南,并考虑了主干架构、目标大小和自定义预训练要求等因素。最后,我们证明,选择合适的 SSL 预训练策略以及合适的编码器可以显著提高现实世界目标检测的性能,特别是对于资源有限环境中的小型目标检测。  
2024-10-09 Robust infrared small target detection using self-supervised and a contrario paradigms null 在国防应用中,由于复杂背景的存在和目标的小尺寸,红外图像中的小目标检测提出了重大挑战。传统的目标检测方法往往难以在高检测率和低误报率之间取得平衡,尤其是在处理小目标时。在本文中,我们介绍了一种新方法,将“反事实范式”与自监督学习 (SSL) 相结合,以改进红外小目标检测 (IRSTD)。一方面,在 YOLO 检测头中集成“反事实准则”增强了对小型和意外目标的特征图响应,同时有效控制了误报。另一方面,我们探索了 SSL 技术来克服 IRSTD 任务中常见的注释数据有限的挑战。具体来说,我们对几种具有代表性的 SSL 策略进行了基准测试,以了解它们在提高小目标检测性能方面的有效性。我们的研究结果表明,实例判别方法在应用于基于 YOLO 的小目标检测时优于掩码图像建模策略。此外,“反事实范式”和 SSL 范式的结合带来了显着的性能提升,缩小了与最先进的分割方法的差距,甚至在资源有限的环境中也优于它们。这种双管齐下的方法为提高 IRSTD 性能提供了一种强大的解决方案,尤其是在具有挑战性的条件下。  
2024-10-09 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation link 基础模型 (FM) 在大规模数据集上进行预训练,然后针对特定应用在下游任务上进行微调。最成功和最常用的微调方法是通过低秩自适应 (LoRA) 更新预训练的权重。LoRA 引入了新的权重矩阵,这些矩阵通常使用跨模型权重的均匀秩分布随机初始化。最近的工作集中在权重驱动的初始化或在训练期间学习自适应秩。这两种方法都只是孤立地进行研究,导致收敛速度慢或秩分布均匀,进而导致性能欠佳。我们建议通过以数据驱动的方式初始化新权重来增强 LoRA,方法是在小批量激活向量上计算奇异值分解。然后,我们使用获得的右奇异向量初始化 LoRA 矩阵,并在所有权重矩阵之间重新分配秩,以解释最大量的方差,并继续标准的 LoRA 微调过程。这导致了我们的新方法,称为解释方差自适应 (EVA)。我们将 EVA 应用于各种微调任务,从语言生成和理解到图像分类和强化学习。与竞争对手相比,EVA 表现出更快的收敛速度,并在每个领域的众多任务中获得了最高的平均分数。  
2024-10-09 JPEG Inspired Deep Learning link 尽管传统上认为有损图像压缩(例如JPEG压缩)会对深度神经网络(DNN)的性能产生负面影响,但最近的研究表明,精心设计的JPEG压缩实际上可以提高深度学习(DL)的性能。受此启发,我们提出了JPEG-DL,这是一种新颖的深度学习框架,它在任何底层DNN架构之前添加了一个可训练的JPEG压缩层。为了使JPEG压缩中的量化操作可训练,我们在JPEG层采用了一种新的可微分软量化器,然后联合训练量化操作和底层DNN。大量实验表明,与标准深度学习相比,JPEG-DL在各种数据集和模型架构上均可显著提高准确性,同时增强了对对抗性攻击的鲁棒性。特别是,在一些细粒度图像分类数据集上,JPEG-DL可以将预测精度提高多达20.9%。我们的代码可在https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git获取。  
2024-10-07 LoTLIP: Improving Language-Image Pre-training for Long Text Understanding null 理解长文本在实践中有着巨大的需求,但这超出了大多数语言图像预训练 (LIP) 模型的能力范围。在本研究中,我们通过实证证实了造成这个问题的关键原因是训练图像通常与简短的标题配对,导致某些词语容易被突出的词语所掩盖。为了解决这个问题,我们最初尝试使用长标题重新标记数据,但是,直接使用长标题进行学习可能会导致理解短文本的性能下降(例如,在图像分类任务中)。然后,通过结合角点词语来聚合不同的文本信息,我们设法帮助模型在理解短文本方面赶上其原始水平,同时大大增强其理解长文本的能力。我们进一步研究了模型是否可以从更长的标题中持续受益,并注意到性能和效率之间存在明显的权衡。最后,我们使用一个自建的大规模数据集验证了我们方法的有效性,该数据集包含 1 亿个面向长标题的文本图像对。值得注意的是,在长文本图像检索任务中,我们比使用长标题的竞争对手提高了 11.1%(即从 72.62% 提高到 83.72%)。我们将发布代码、模型和新数据集,以促进可重复性和进一步的研究。项目页面可访问 https://wuw2019.github.io/lotlip。  
2024-10-07 Control-oriented Clustering of Visual Latent Representation null 我们对基于图像的控制管道中视觉表征空间(从视觉编码器到动作解码器的信道)的几何结构进行研究,该管道通过行为克隆学习得到。受图像分类中神经元崩溃(NC)现象的启发,我们研究了视觉表征空间中是否会出现类似的聚类规律。由于基于图像的控制是一项没有明确定义类别的回归任务,因此问题的关键在于确定视觉特征根据哪些隐含类别进行聚类(如果存在这种规律)。我们专注于基于图像的平面推动任务,假设视觉表征在控制任务中最重要作用是向动作解码器传递目标。然后,我们根据(a) 输入中物体和目标之间的相对姿态或(b) 输出中专家动作引起的物体的相对姿态,将专家演示的训练样本分为八个“面向控制”的类别,其中一个类别对应一个相对姿态卦限(REPO)。在架构的四种不同实例中,我们报告了根据八个REPO,视觉表征空间中普遍出现了面向控制的聚类。除了经验观察之外,我们还表明,当使用有限的专家演示训练策略时,这种聚类规律可以用作算法工具来提高测试时的性能。特别是,我们使用NC作为正则化方法对视觉编码器进行预训练,以鼓励视觉特征的面向控制的聚类。令人惊讶的是,这种经过NC预训练的视觉编码器在使用动作解码器进行端到端微调时,在低数据情况下将测试性能提高了10%到35%。现实世界中基于视觉的平面推动实验证实了面向控制的视觉表征预训练的惊人优势。  
2024-10-07 Improving Object Detection via Local-global Contrastive Learning null 视觉域差距通常会影响目标检测性能。图像到图像的转换可以减轻这种影响,其中对比方法能够在无监督情况下学习图像到图像的映射。然而,现有方法往往无法处理包含多个目标实例的内容丰富的场景,这表现为检测性能不理想。对这种实例级内容的敏感性通常只能通过目标标注来获得,而目标标注的获取成本可能很高。为了解决这个问题,我们提出了一种新的图像到图像转换方法,专门针对跨域目标检测。我们将我们的方法制定为一个对比学习框架,该框架具有归纳先验,通过空间注意掩码优化目标实例的外观,将场景隐式地划分为与目标目标实例相关的前景区域和背景非目标区域。我们的方法不是依靠目标标注在转换过程中明确地考虑目标实例,而是通过对比局部-全局信息来学习表示目标。这为探索一项未被充分挖掘的挑战提供了可能:在不依赖目标标注或检测器模型微调的情况下,在域转移下获得高性能检测。我们通过三个具有挑战性的基准测试,对多个跨域目标检测设置进行了实验,并报告了最先进的性能。项目页面:https://local-global-detection.github.io  
2024-10-07 Near-Field ISAC in 6G: Addressing Phase Nonlinearity via Lifted Super-Resolution null 集成传感与通信 (ISAC) 是 6G 网络的一个很有前景的组成部分,它融合了通信和雷达技术以促进新的服务。此外,在 ISAC 共用接收机上使用超大规模天线阵列 (ELLA) 不仅促进了太赫兹级通信链路,而且还显著提高了雷达应用中目标检测的精度。在实际场景中,通信散射体和雷达目标通常位于距离 ISAC 接收机很近的位置。这种情况,再加上 ELLA 的使用,从根本上改变了无线和雷达信道的电磁特性,从远场平面波传播转变为近场球面波传播。在远场平面波模型下,阵列响应向量的相位随天线索引线性变化。相反,在近场球面波模型中,这种相位关系变为非线性。这种转变提出了一个根本性的挑战:广泛使用的傅立叶分析不能再直接应用于 ISAC 共用接收机上的目标检测和通信信道估计。在这项工作中,我们提出了一个可行的解决方案来解决这个基本问题。具体来说,我们证明了存在一个高维空间,其中相位非线性可以表示为线性。利用这一见解,我们开发了一个提升的超分辨率框架,该框架可以同时执行通信信道估计并以高精度提取目标参数。  
2024-10-07 Improved detection of discarded fish species through BoxAL active learning link 近年来,强大的数据驱动深度学习技术已被开发并应用于自动化渔获登记。然而,这些方法依赖于标记数据,而标记数据的收集非常耗时、费力、昂贵,并且需要专业知识。在本研究中,我们提出了一种名为 BoxAL 的主动学习技术,该技术包括对 Faster R-CNN 目标检测模型的认知不确定性进行估计。该方法允许从未标记的图像池中选择最不确定的训练图像,然后使用这些图像来训练目标检测模型。为了评估该方法,我们使用了一个开源图像数据集,该数据集是通过专为捕捞底层鱼类的商业拖网渔船开发的专用图像采集系统获得的。我们证明,我们的方法可以使用比随机抽样少 400 张标记图像的情况下达到相同的目标检测性能。此外,在最后一次训练迭代中,使用 1100 张训练图像时,基于置信度的采样和随机采样的平均 AP 分数分别显着提高到 39.0±1.6 和 34.8±1.8。此外,我们还表明,认知不确定性是一种合适的采样方法,可以对当前迭代模型无法处理的图像进行采样。我们的研究还表明,采样得到的新数据比剩余的未标记数据对训练更有价值。我们的软件可在 https://github.com/pieterblok/boxal 获取。  
2024-10-06 Learning De-Biased Representations for Remote-Sensing Imagery link 遥感 (RS) 影像需要专门的卫星进行采集,而且标注难度大,因此存在数据稀缺和某些光谱类别不平衡的问题。由于数据稀缺,从头开始训练任何大规模 RS 模型都是不现实的,替代方案是通过微调或数据效率更高的 LoRA 方法来迁移预训练模型。由于类别不平衡,迁移后的模型表现出强烈的偏差,其中主要类别的特征支配着次要类别的特征。在本文中,我们提出了 debLoRA,这是一种通用的训练方法,可以与任何 LoRA 变体一起使用,以产生去偏差的特征。它是一种无监督学习方法,可以根据与主要类别共享的属性来实现次要类别特征的多样化,其中属性是通过简单的聚类步骤获得的。为了对其进行评估,我们在 RS 领域的两种迁移学习场景中进行了广泛的实验:从自然图像到光学 RS 图像,以及从光学 RS 图像到多光谱 RS 图像。我们在光学 RS 数据集 DOTA 和 SAR 数据集 FUSRS 上执行了目标分类和面向目标的检测任务。结果表明,我们的 debLoRA 在这些 RS 适应性设置中始终优于现有技术,在自然图像到光学 RS 和光学 RS 到多光谱 RS 的适应性方面,尾部类别的性能分别提高了 3.3 和 4.7 个百分点,同时保持了头部类别的性能,证明了其有效性和适应性。  
2024-10-05 Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution link 扩散模型在现实世界图像超分辨率(Real-ISR)方面取得了优异的性能,但计算成本很高。当前的方法试图通过知识蒸馏从多步模型中推导出一步扩散模型。然而,这些方法会导致大量的训练成本,并且可能会受到教师模型的限制,从而限制学生模型的性能。为了解决这些问题,我们提出了DFOSD,一种无需蒸馏的一步扩散模型。具体来说,我们提出了一个噪声感知鉴别器(NAD)来参与对抗训练,进一步增强生成内容的真实性。此外,我们利用边缘感知DISTS(EA-DISTS)改进了感知损失,以增强模型生成精细细节的能力。我们的实验表明,与之前需要数十步甚至数百步的基于扩散的方法相比,我们的DFOSD在定量指标和定性评估方面都取得了相当甚至更好的结果。与其他一步扩散方法相比,我们的DFOSD还获得了更高的性能和效率。我们将在\url{https://github.com/JianzeLi-114/DFOSD}发布代码和模型。  
2024-10-05 Exploring Strengths and Weaknesses of Super-Resolution Attack in Deepfake Detection null Image manipulation is rapidly evolving, allowing the creation of credible content that can be used to bend reality. Although the results of deepfake detectors are promising, deepfakes can be made even more complicated to detect through adversarial attacks. They aim to further manipulate the image to camouflage deepfakes’ artifacts or to insert signals making the image appear pristine. In this paper, we further explore the potential of super-resolution attacks based on different super-resolution techniques and with different scales that can impact the performance of deepfake detectors with more or less intensity. We also evaluated the impact of the attack on more diverse datasets discovering that the super-resolution process is effective in hiding the artifacts introduced by deepfake generation models but fails in hiding the traces contained in fully synthetic images. Finally, we propose some changes to the detectors’ training process to improve their robustness to this kind of attack.  
2024-10-05 Fast Object Detection with a Machine Learning Edge Device null 本机器学习研究调查了一种低成本边缘设备,该设备集成了一个具有计算机视觉功能的嵌入式系统,从而提高了目标检测和分类的推理时间和精度。本研究的主要目标是减少推理时间和降低功耗,并使竞赛级自主人形机器人的嵌入式设备能够支持实时目标识别、场景理解、视觉导航、运动规划和机器人的自主导航。本研究比较了中央处理器 (CPU)、图形处理器 (GPU) 和张量处理器 (TPU) 之间的推理时间性能。CPU、GPU 和 TPU 都是可用于机器学习任务的处理器。为了支持自主人形机器人,我们还努力观察使用具有单目视觉功能的相机与立体视觉功能的相机是否存在显著差异。本研究的 TPU 推理时间结果反映,与 GPU 相比,时间缩短了 25%,与 CPU 相比,推理时间惊人地缩短了 87.5%。本文的许多信息有助于最终选择 Google 的 Coral 品牌 Edge TPU 设备。Arduino Nano 33 BLE Sense Tiny ML 套件也被考虑用于比较,但由于初始不兼容性以及为了及时完成本研究,我们决定在未来的实验中再审查该套件。  
2024-10-05 Robust Task-Oriented Communication Framework for Real-Time Collaborative Vision Perception null Cooperative perception enhances sensing in multi-robot and vehicular networks by aggregating information from multiple agents, improving perception accuracy and range. However, mobility and non-rigid sensor mounts introduce extrinsic calibration errors, necessitating online calibration, which is complicated by limited overlap in sensing regions. Maintaining fresh information is crucial for timely and accurate sensing. To address calibration errors and ensure both perception accuracy and transmission timeliness, we propose a Robust Task-Oriented Communication framework (R-TOCOM) that optimizes calibration and feature transmission in both deployment and streaming phases. First, we formulate an Age of Perceived Targets (AoPT) minimization problem to capture information freshness. Then, in the deployment phase, we introduce a channel-aware self-calibration technique based on re-identification (Re-ID). This technique adaptively compresses key-point features according to channel capacities, effectively addressing calibration issues via spatial and temporal cross-camera correlations. In the streaming phase, we tackle the trade-off between bandwidth and inference accuracy by integrating an Information Bottleneck (IB)-based encoding method that adjusts video compression rates based on task relevance, thereby reducing communication overhead and latency. To mitigate performance degradation from packet loss, we introduce a priority network that filters corrupted features. Extensive studies demonstrate our framework outperforms five baselines, improving multiple object detection accuracy (MODA) by 25.49% and reducing communication costs by 51.36% under severe channel condition.  
2024-10-04 Classification-Denoising Networks null 图像分类和去噪面临着缺乏鲁棒性或部分忽略条件信息的互补问题。我们认为,可以通过 (噪声) 图像和类别标签的联合概率模型来统一这两个任务,从而缓解这些问题。分类通过前向传递和条件化来执行。使用 Tweedie-Miyasawa 公式,我们用分数来评估去噪函数,该分数可以通过边缘化和反向传播来计算。然后,训练目标是交叉熵损失和在噪声水平上积分的去噪分数匹配损失的组合。在 CIFAR-10 和 ImageNet 上的数值实验表明,与参考深度卷积分类器/去噪器相比,该方法具有竞争性的分类和去噪性能,并且与以前的联合方法相比,效率显着提高。与标准判别分类器相比,我们的模型对对抗性扰动的鲁棒性有所提高,并且可以将对抗性梯度 novel 地解释为去噪器的差异。  
2024-10-04 Sm: enhanced localization in Multiple Instance Learning for medical imaging classification link 多示例学习 (MIL) 广泛应用于医学图像分类,以减少标注工作量。虽然训练时只有包标签可用,但人们通常会在包和实例级别寻求预测(分别为分类和定位任务)。早期的 MIL 方法独立地处理包中的实例。最近的方法考虑了实例之间的全局和局部依赖关系。虽然它们在分类方面取得了很好的效果,但它们在定位方面的性能相对有限。我们认为,这些模型的设计目标是分类任务,而实例级别的含义尚未得到深入研究。基于一个简单的观察结果——相邻实例可能具有相同的标签——我们提出了一种新颖、有原则且灵活的机制来模拟局部依赖关系。它可以单独使用,也可以与任何模拟全局依赖关系的机制(例如,Transformer)结合使用。全面的实证验证表明,我们的模块在定位方面达到了最先进的性能,同时在分类方面也具有竞争力或优越性。我们的代码位于https://github.com/Franblueee/SmMIL。  
2024-10-04 DRAFTS: A Deep Learning-Based Radio Fast Transient Search Pipeline link 在射电天文学中,快速射电暴 (FRB) 的探测是一项复杂的任务,因为它面临着射频干扰 (RFI) 和星际介质中信号色散带来的挑战。传统的搜索算法通常效率低下、耗时且会产生大量的误报。在本文中,我们提出了 DRAFTS,一个基于深度学习的快速射电瞬变搜索流程。DRAFTS 整合了目标检测和二元分类技术,以准确识别射电数据中的 FRB。我们开发了一个大型的真实 FRB 数据集,用于训练深度学习模型。对 FAST 真实观测数据的搜索测试表明,DRAFTS 在准确性、完整性和搜索速度方面表现出色。在 FRB 20190520B 观测数据的搜索中,DRAFTS 探测到的爆发次数是 Heimdall 的三倍多,这突出了其在未来 FRB 探测和分析方面的潜力。  
2024-10-03 PixelShuffler: A Simple Image Translation Through Pixel Rearrangement link 图像到图像的转换是计算机视觉领域的一个课题,其应用范围十分广泛,从医学图像转换(例如将MRI扫描转换为CT扫描或其他MRI对比度)到图像着色、超分辨率、域适应以及从草图或语义图生成逼真图像。图像风格迁移也是图像到图像转换中一个被广泛研究的应用,其目标是合成一个结合了一幅图像的内容和另一幅图像风格的图像。现有的最先进方法通常依赖于复杂的神经网络(包括扩散模型和语言模型)来实现高质量的风格迁移,但这些方法的计算成本可能很高,而且实现起来也很复杂。在本文中,我们提出了一种新的像素洗牌方法,该方法解决了图像到图像转换的一般问题,并在风格迁移中有一个具体的演示应用。该方法通过对风格图像的像素进行洗牌来实现风格迁移,从而最大化洗牌后的图像与内容图像之间的互信息。这种方法inherently保留了风格图像的颜色,同时确保了内容图像的结构细节保留在风格化后的输出中。我们证明,这种简单直接的方法产生的结果可与最先进的技术相媲美,这可以通过学习感知图像块相似度(LPIPS)损失(用于内容保留)和Fr'echet初始距离(FID)分数(用于风格相似度)来衡量。我们的实验验证了所提出的像素洗牌方法在显著降低复杂度的同时实现了具有竞争力的性能,为高效的图像风格迁移提供了一种很有前途的替代方案,同时也为该方法在一般图像到图像转换任务中的可用性带来了希望。  
2024-10-03 On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions null 随着混合专家模型 (MoE) 架构在开发大规模基础模型中的重要性日益凸显,我们研究了分层混合专家模型 (HMoE),这是 MoE 的一种特殊变体,擅长处理复杂输入和提高目标任务的性能。我们的研究强调了使用不同的门控函数的优势,超越了 HMoE 框架内的 softmax 门控。我们从理论上证明,即使仅在选定的层次级别应用最佳门控函数,对每个专家组应用定制的门控函数也允许 HMoE 实现稳健的结果。跨不同场景的经验验证支持了这些理论主张。这包括大规模多模态任务、图像分类以及潜在领域发现和预测任务,在这些任务中,我们改进的 HMoE 模型显示出巨大的性能提升。  
2024-10-04 Learning 3D Perception from Others’ Predictions null 在现实环境中进行精确的三维目标检测需要大量高质量的标注数据。获取此类数据的过程既乏味又昂贵,并且在采用新传感器或将检测器部署到新环境中时,通常需要重复工作。我们研究了一种构建三维目标检测器的新方案:从配备精确检测器的附近单元的预测中学习。例如,当自动驾驶汽车进入一个新区域时,它可以从其他交通参与者那里学习,这些交通参与者的检测器已经针对该区域进行了优化。这种设置具有标签效率高、传感器无关性和通信效率高的特点:附近的单元只需要与自我代理(例如,汽车)共享预测结果。然而,简单地将接收到的预测作为真实值来训练自我车辆的检测器会导致性能下降。我们系统地研究了这个问题,并将视点不匹配和定位错误(由于同步和 GPS 错误)确定为主要原因,这些原因不可避免地会导致误报、漏报和不准确的伪标签。我们提出了一种基于距离的课程学习方法,首先从视点相似的较近单元学习,然后通过自我训练逐步提高其他单元预测的质量。我们进一步证明,可以使用少量标注数据训练有效的伪标签细化模块,从而大大减少训练目标检测器所需的数据量。我们在最近发布的真实世界协同驾驶数据集上验证了我们的方法,使用参考车辆的预测作为自我车辆的伪标签。包括多种场景(例如,不同的传感器、检测器和域)在内的大量实验表明,我们的方法可以有效地从其他单元的预测中进行标签高效的三维感知学习。  
2024-10-03 LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model null 当前最先进的医学多模态大型语言模型(med-MLLM),如 LLaVA-Med 或 BioMedGPT,在预训练中利用了指令遵循数据。然而,这些模型主要侧重于扩大模型规模和数据量以提高性能,而主要依赖于自回归学习目标。令人惊讶的是,我们发现这种学习方案可能导致视觉和语言模态之间的对齐较弱,使得这些模型高度依赖于大量的预训练数据集——这在医学领域是一个重大挑战,因为高质量指令遵循实例的整理既昂贵又耗时。我们使用 LoGra-Med 来解决这个问题,这是一种新的多图对齐算法,可在图像模态、基于对话的描述和扩展字幕之间强制执行三元组关联。这有助于模型捕捉上下文含义、处理语言变异性以及在视觉和文本之间建立跨模态关联。为了扩展我们的方法,我们设计了一种使用黑盒梯度估计的高效端到端学习方案,可以实现更快的 LLaMa 7B 训练。我们的结果表明,LoGra-Med 在 60 万个图像-文本对的医学 VQA 上与 LLAVA-Med 的性能相匹配,并且在接受 10% 数据训练时明显优于它。例如,在 VQA-RAD 上,我们比 LLAVA-Med 高出 20.13%,并且几乎达到了 100% 预训练分数(72.52% 对比 72.64%)。我们还在视觉聊天机器人上超越了像 BiomedGPT 这样的 SOTA 方法,并在使用 VQA 进行零样本图像分类方面超越了 RadFM,突出了多图对齐的有效性。  
2024-10-03 Personalized Quantum Federated Learning for Privacy Image Classification null 量子联邦学习提高了隐私图像分类的效果,但客户端模型缺乏个性化可能导致量子联邦学习的次优性。为了增强图像分布不平衡情况下客户端模型的个性化,提出了一种用于隐私图像分类的个性化量子联邦学习算法。首先,构建了个性化量子联邦学习模型,在客户端模型中设置了个性化层以维护个性化参数。其次,引入了个性化量子联邦学习算法,以确保客户端和服务器之间交换的信息安全。第三,将个性化联邦学习应用于 FashionMNIST 数据集上的图像分类,实验结果表明,即使在本地训练样本不平衡的情况下,个性化量子联邦学习算法也能获得性能优异的全局和局部模型。在8个客户端和分布参数为100的情况下,服务器的准确率达到了100%,比非个性化模型提高了7%。在2个客户端和分布参数为1的情况下,客户端的平均准确率比非个性化模型提高了2.9%。与之前的量子联邦学习算法相比,所提出的个性化量子联邦学习算法在保护模型和数据隐私的同时,无需额外的本地训练。这可能促进量子技术的更广泛采用和应用,并为更安全、可扩展和高效的量子分布式机器学习解决方案铺平道路。  
2024-10-03 DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM null 视觉语言跟踪 (VLT) 已成为一个前沿研究领域,它利用语言数据增强了多模态输入算法,并将传统单目标跟踪 (SOT) 的范围扩展到视频理解应用。 尽管如此,大多数 VLT 基准测试仍然依赖于人工标注的简洁文本描述来描述每个视频。 这些描述通常无法捕捉视频内容动态的细微差别,并且缺乏语言风格变化,受限于其统一的细节水平和固定的标注频率。 因此,算法倾向于默认采用“记住答案”的策略,偏离了深入理解视频内容的核心目标。 幸运的是,大型语言模型 (LLM) 的出现使生成多样化文本成为可能。 这项工作利用 LLM 为具有代表性的 SOT 基准生成不同的语义注释(在文本长度和粒度方面),从而建立了一个新的多模态基准。 具体来说,我们 (1) 基于五个著名的 VLT 和 SOT 基准,提出了一个新的具有不同文本的视觉语言跟踪基准,名为 DTVLT,包括三个子任务:短期跟踪、长期跟踪和全局实例跟踪。 (2) 我们的基准测试提供了四种粒度的文本,考虑了语义信息的范围和密度。 我们预计这种多粒度生成策略将为 VLT 和视频理解研究营造有利的环境。 (3) 我们对 DTVLT 进行了全面的实验分析,评估了不同文本对跟踪性能的影响,并希望识别出的现有算法的性能瓶颈能够支持 VLT 和视频理解的进一步研究。 提出的基准、实验结果和工具包将在 http://videocube.aitestunion.com/ 上逐步发布。  
2024-10-03 PnP-Flow: Plug-and-Play Image Restoration with Flow Matching link 本文介绍了即插即用流匹配 (PnP Flow Matching),这是一种解决成像逆问题的算法。PnP 方法利用预训练去噪器(通常是深度神经网络)的优势,将它们集成到优化方案中。虽然它们在各种成像逆问题上实现了最先进的性能,但 PnP 方法在修复等更具生成性的任务中面临着固有的局限性。另一方面,流匹配等生成模型突破了图像采样的界限,但缺乏在图像恢复中有效使用的明确方法。我们建议通过使用预训练的 FM 模型定义时间相关的去噪器,将 PnP 框架与流匹配 (FM) 相结合。我们的算法在数据保真度项上的梯度下降步骤、对学习到的 FM 路径的重新投影和去噪之间交替进行。值得注意的是,我们的方法计算效率高且内存友好,因为它避免了通过 ODE 的反向传播和轨迹计算。我们评估了其在去噪、超分辨率、去模糊和修复任务上的性能,证明了其与现有 PnP 算法和基于流匹配的最先进方法相比具有优越的结果。  
2024-10-03 Spiking Neural Network as Adaptive Event Stream Slicer null 基于事件的相机由于其丰富的边缘信息、高动态范围和高时间分辨率而备受关注。许多最先进的基于事件的算法依赖于将事件分割成固定的组,这会导致关键时间信息的丢失,尤其是在处理不同的运动场景(例如,高速/低速)时。在这项工作中,我们提出了SpikeSlicer,一种新颖的即插即用事件处理方法,能够自适应地分割事件流。SpikeSlicer利用轻量级(0.41M)和低能耗的脉冲神经网络(SNN)来触发事件切片。为了引导SNN在最佳时间步长触发脉冲,我们提出了脉冲位置感知损失(SPA-Loss)来调节神经元的状态。此外,我们开发了一种反馈更新训练策略,利用来自下游人工神经网络(ANN)的反馈来改进切片决策。大量实验表明,我们的方法在基于事件的目标跟踪和识别方面取得了显著的性能提升。值得注意的是,SpikeSlicer提供了一种全新的SNN-ANN合作范式,其中SNN充当高效、低能耗的数据处理器,协助ANN提高下游性能,为探索新的视角和潜在途径注入了活力。  
2024-10-02 Kolmogorov-Arnold Network Autoencoders link 深度学习模型已经彻底改变了各个领域,其中多层感知器 (MLP) 是数据回归和图像分类等任务的基石。然而,最近的一项研究引入了 Kolmogorov-Arnold 网络 (KAN) 作为 MLP 的有前途的替代方案,它利用放置在边而不是节点上的激活函数。这种结构转变使 KAN 与 Kolmogorov-Arnold 表示定理紧密结合,有可能提高模型的准确性和可解释性。在这项研究中,我们探讨了 KAN 在通过自动编码器进行数据表示方面的功效,将它们在 MNIST、SVHN 和 CIFAR-10 数据集上的性能与传统卷积神经网络 (CNN) 进行了比较。我们的结果表明,基于 KAN 的自动编码器在重建精度方面取得了具有竞争力的性能,从而表明它们可以作为数据分析任务中的有效工具。  
2024-10-02 Stochastic Deep Restoration Priors for Imaging Inverse Problems null 作为图像去噪器的深度神经网络被广泛用作解决成像逆问题的先验。 虽然高斯去噪被认为足以学习图像先验,但我们表明,从预先训练为更通用的恢复算子的深度模型中获得的先验可以表现得更好。 我们引入了随机深度恢复先验 (ShaRP),这是一种利用此类恢复模型的集合来规范化逆问题的新方法。 ShaRP 通过更好地处理结构化伪影并在即使没有完全采样数据的情况下也能进行自监督训练,改进了使用高斯去噪器先验的方法。 我们证明了 ShaRP 最小化了一个目标函数,该函数涉及从最小均方误差 (MMSE) 恢复算子的得分函数导出的正则化器,并从理论上分析了其收敛性。 经验表明,ShaRP 在磁共振成像重建和单图像超分辨率等任务上实现了最先进的性能,超过了基于去噪器和扩散模型的方法,而无需重新训练。  
2024-10-02 Samba: Synchronized Set-of-Sequences Modeling for Multiple Object Tracking null 在复杂场景(例如,协作舞蹈表演、团队运动或动态动物群体)中进行多目标跟踪提出了独特的挑战。在这些场景中,目标经常以协调的模式移动、相互遮挡并在其轨迹中表现出长期依赖性。然而,如何对轨迹内的长期依赖性、轨迹间的相互依赖性以及相关的时序遮挡进行建模仍然是一个关键的开放性研究问题。为此,我们引入了 Samba,这是一种新颖的线性时间序列集模型,旨在通过同步用于对每个轨迹建模的多个选择性状态空间来联合处理多个轨迹。Samba 自回归地预测每个序列的未来轨迹查询,同时保持跨轨迹同步的长期记忆表示。通过将 Samba 集成到逐传播跟踪框架中,我们提出了 SambaMOTR,这是第一个有效解决上述问题的跟踪器,包括长期依赖性、轨迹相互依赖性和时间遮挡。此外,我们介绍了一种处理不确定观察结果的有效技术 (MaskObs) 和一种有效的训练方法,以将 SambaMOTR 扩展到更长的序列。通过对跟踪对象之间的长期依赖性和交互进行建模,SambaMOTR 隐式地学习在没有任何手工启发式的情况下准确地跟踪遮挡下的对象。我们的方法在 DanceTrack、BFT 和 SportsMOT 数据集上显着优于先前最先进的方法。  
2024-10-02 Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking link 三维多目标跟踪通过实时监控和预测多个物体的运动,在自动驾驶中发挥着至关重要的作用。传统的三维跟踪系统通常受到预定义物体类别的限制,限制了它们对动态环境中新出现的、未见过的物体的适应性。为了解决这一限制,我们引入了开放词汇三维跟踪,它将三维跟踪的范围扩展到预定义类别之外的物体。我们将开放词汇三维跟踪问题进行公式化,并引入了旨在表示各种开放词汇场景的数据集划分。我们提出了一种新方法,将开放词汇能力集成到三维跟踪框架中,从而能够泛化到未见过的物体类别。我们的方法通过策略性适应有效地减少了跟踪已知物体和新物体之间的性能差距。实验结果表明,我们的方法在各种室外驾驶场景中具有鲁棒性和适应性。据我们所知,这项工作是第一个解决开放词汇三维跟踪问题的,为现实世界中的自主系统带来了重大进步。代码、经过训练的模型和数据集划分均已公开发布。  
2024-09-30 NUTRIVISION: A System for Automatic Diet Management in Smart Healthcare null 通过均衡饮食保持健康和强健体魄对于预防心脏病、糖尿病和癌症等非传染性疾病至关重要。NutriVision 将智能医疗保健与计算机视觉和机器学习相结合,以应对营养和饮食管理方面的挑战。本文介绍了一种新颖的系统,该系统可以识别食物种类,估算数量,并提供全面的营养信息。NutriVision 采用了基于 Faster Region 的卷积神经网络,这是一种深度学习算法,通过生成区域提proposals 并对这些区域进行分类来改进对象检测,使其即使在复杂和无序的膳食环境中也能高效、准确地识别食物。通过基于智能手机的图像捕捉,NutriVision 可以提供即时营养数据,包括宏量营养素分解、卡路里计数和微量营养素详细信息。NutriVision 的突出特点之一是其个性化的营养分析和饮食建议,这些建议是根据每个用户的饮食偏好、营养需求和健康史量身定制的。通过提供定制化的建议,NutriVision 帮助用户实现特定的健康和健身目标,例如管理饮食限制或控制体重。除了提供精确的食物检测和营养评估外,NutriVision 还通过将用户数据与促进均衡健康饮食的建议相结合,支持更明智的饮食决策。该系统为营养管理提供了一种实用且先进的解决方案,并有可能显著影响人们的饮食选择方式,促进更健康的饮食习惯和整体健康。本文讨论了 NutriVision 系统的设计、性能评估和未来应用。  
2024-09-30 POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator null 神经架构搜索 (NAS) 自动化了神经网络设计,减少了对人类专业知识的依赖。虽然 NAS 方法计算量大且依赖于特定数据集,但辅助预测器减少了需要训练的模型数量,从而缩短了搜索时间。此策略用于生成满足多个计算约束的架构。最近,可迁移 NAS 应运而生,将搜索过程从依赖于数据集推广到依赖于任务。在该领域,DiffusionNAG 是一种最先进的方法。这种基于扩散的方法简化了计算,生成针对未见数据集的准确性进行优化的架构,而无需进一步调整。然而,DiffusionNAG 只关注准确性,而忽略了其他关键目标,如模型复杂性、计算效率和推理延迟,这些因素对于在资源受限环境中部署模型至关重要。本文介绍了帕累托最优多目标神经架构生成器 (POMONAG),通过多目标扩散过程扩展了 DiffusionNAG。POMONAG 同时考虑准确性、参数数量、乘积累加运算 (MAC) 和推理延迟。它集成了性能预测器模型来估计这些指标并指导扩散梯度。POMONAG 的优化通过扩展其训练元数据集、应用帕累托前沿过滤和改进条件生成的嵌入来增强。这些增强功能使 POMONAG 能够生成在性能和效率方面优于先前技术的帕累托最优架构。结果在两个搜索空间(NASBench201 和 MobileNetV3)上得到验证,并在 15 个图像分类数据集上进行了评估。  
2024-09-30 Fine-Tuning Personalization in Federated Learning to Mitigate Adversarial Clients null 联邦学习 (FL) 是一种颇具吸引力的范式,它允许多台机器(也称为客户端)在保持数据本地化的同时进行集体学习。然而,由于客户端数据分布的异构性,使用联邦学习算法获得的模型在某些客户端的数据上可能表现不佳。个性化通过使每个客户端能够拥有针对自身数据定制的不同模型,同时受益于其他客户端的数据来解决这个问题。我们考虑了一种联邦学习设置,其中某些客户端可能是对抗性的,并且我们推导出完全协作失败的条件。具体来说,我们分析了在存在对抗性客户端的情况下插值个性化联邦学习框架的泛化性能,并精确地描述了完全协作的性能严格低于微调个性化的情况。我们的分析根据数据异构性和可容忍的对抗性客户端比例,确定了我们应该将协作程度降低多少。我们通过对均值估计和二元分类问题的实证结果来支持我们的发现,并考虑了合成和基准图像分类数据集。  
2024-09-30 Classroom-Inspired Multi-Mentor Distillation with Adaptive Learning Strategies null 我们提出了ClassroomKD,这是一个受课堂环境启发的新型多导师知识蒸馏框架,旨在增强学生和多个导师之间的知识转移。与依赖固定导师-学生关系的传统方法不同,我们的框架根据每个数据样本的有效性动态选择和调整不同导师的教学策略。ClassroomKD 包含两个主要模块:知识过滤 (KF) 模块和指导模块。KF 模块根据每个输入的表现对导师进行动态排名,仅激活高质量的导师,以最大程度地减少误差累积并防止信息丢失。指导模块通过根据学生和导师之间的表现差距调整每个导师的影响力来调整蒸馏策略,从而有效地调节学习进度。在图像分类(CIFAR-100 和 ImageNet)和二维人体姿态估计(COCO Keypoints 和 MPII Human Pose)方面的大量实验表明,ClassroomKD 明显优于现有的知识蒸馏方法。我们的结果表明,导师选择和指导的动态和自适应方法可以实现更有效的知识转移,从而通过蒸馏提高模型性能。  
2024-09-30 Training a Computer Vision Model for Commercial Bakeries with Primarily Synthetic Images null 在食品工业中,重新加工退回的产品是提高资源效率的重要步骤。[SBB23] 提出了一种人工智能应用程序,可以自动跟踪退回的圆面包。我们通过创建一个包含 2432 张图像和更广泛烘焙食品的扩展数据集来扩展他们的工作。为了提高模型的鲁棒性,我们使用生成模型 pix2pix 和 CycleGAN 来创建合成图像。我们在检测任务上训练了最先进的对象检测模型 YOLOv9 和 YOLOv8。我们总体表现最佳的模型在我们的测试集上实现了 90.3% 的平均精度 [email protected]  
2024-09-30 TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection null 基于CNN的目标检测模型在性能和速度之间取得了平衡,并逐渐应用于息肉检测任务。然而,由于现有方法忽略了两个关键问题:帧内序列分布异质性和精度-置信度差异,因此在复杂的结肠镜视频场景中准确定位息肉仍然具有挑战性。为了应对这些挑战,我们提出了一种新颖的时空自校正检测器(TSdetector),它首先整合了时间层面的 consistency learning 和空间层面的 reliability learning 来持续检测目标。具体来说,我们首先提出了一种全局时间感知卷积,它汇集了先前的信息,以动态引导当前的卷积核关注序列之间的全局特征。此外,我们设计了一种层次队列集成机制,通过渐进累积的方式组合多时间特征,充分利用上下文一致性信息,同时保留长序列依赖特征。同时,在空间层面上,我们提出了一种位置感知聚类,以探索候选框之间的空间关系,从而自适应地重新校准预测置信度,从而有效地消除冗余边界框。在三个公开可用的息肉视频数据集上的实验结果表明,TSdetector 实现了最高的息肉检测率,并优于其他最先进的方法。代码可在 https://github.com/soleilssss/TSdetector 获取。  
2024-09-30 DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction link 多传感器融合显著提高了三维语义占用预测的准确性和鲁棒性,这对于自动驾驶和机器人技术至关重要。然而,现有方法依赖于大图像分辨率和复杂网络来实现最佳性能,这阻碍了它们在实际场景中的应用。此外,大多数多传感器融合方法侧重于改进融合特征,而忽略了对这些特征的监督策略的探索。为此,我们提出了 DAOcc,一种新颖的多传感器融合占用网络,它利用 3D 目标检测监督来帮助实现卓越的性能,同时使用部署友好的图像特征提取网络和实用的输入图像分辨率。此外,我们引入了 BEV 视域扩展策略来减轻降低图像分辨率带来的不利影响。因此,我们的方法在使用 ResNet50 和 256x704 输入图像分辨率的 Occ3D-nuScenes 和 SurroundOcc 数据集上取得了新的最先进的结果。代码将在 https://github.com/AlphaPlusTT/DAOcc 上提供。  
2024-09-30 SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers null 在过去的几年里,视觉Transformer(ViT)在各种视觉识别任务中一直表现出卓越的性能。然而,增强其鲁棒性的尝试收效甚微,主要集中在不同的训练策略、输入patch增强或网络结构增强。这些方法通常涉及大量的训练和微调,既耗时又耗费资源。为了克服这些障碍,我们引入了一种名为空间自相关Token分析(SATA)的新方法。通过利用Token特征之间的空间关系,SATA增强了ViT模型的表示能力和鲁棒性。这是通过在输入到自注意力机制的前馈网络(FFN)块之前,根据空间自相关分数对Token进行分析和分组来实现的。重要的是,SATA可以无缝集成到现有的预训练ViT基线中,无需重新训练或额外的微调,同时通过减少FFN单元的计算负载来提高效率。实验结果表明,经过SATA增强的基线ViT不仅在ImageNet-1K图像分类上实现了新的最先进的top-1准确率(94.9%),而且在多个鲁棒性基准测试中也建立了新的最先进的性能,包括ImageNet-A(top-1=63.6%)、ImageNet-R(top-1=79.2%)和ImageNet-C(mCE=13.6%),所有这些都不需要对基线模型进行额外的训练或微调。  
2024-09-30 HazyDet: Open-source Benchmark for Drone-view Object Detection with Depth-cues in Hazy Scenes link 基于无人机的恶劣天气条件下的目标检测对于增强无人机的环境感知至关重要,但由于缺乏相关的基准测试,这方面在很大程度上仍未得到探索。为了弥合这一差距,我们引入了 HazyDet,这是一个专为无人机在雾霾场景中进行目标检测而设计的大规模数据集。它包含 383,000 个真实世界实例,这些实例是从自然雾霾环境和具有合成叠加雾霾效果的正常场景中收集的,以模拟恶劣的天气条件。通过观察不同深度和雾霾条件下目标尺度和清晰度的显著变化,我们设计了一种深度条件检测器 (DeCoDet),以结合这种先验知识。DeCoDet 具有多尺度深度感知检测头,可无缝集成深度感知,并通过动态深度条件核模块利用由此产生的深度线索。此外,我们提出了一种尺度不变的细化损失,以促进从伪标签中学习鲁棒的深度线索。在 HazyDet 数据集上的大量评估证明了我们方法的灵活性和有效性,产生了显著的性能提升。我们的数据集和工具包可在 https://github.com/GrokCV/HazyDet 获取。  
2024-09-29 Applying the Lower-Biased Teacher Model in Semi-Suepervised Object Detection null 我提出了低偏差教师模型,这是对无偏差教师模型的增强,专门针对半监督目标检测任务进行了定制。该模型的主要创新在于将定位损失集成到教师模型中,从而显着提高了伪标签生成的准确性。通过解决类别不平衡和边界框精度等关键问题,低偏差教师模型在目标检测任务中表现出优异的性能。在多个半监督目标检测数据集上的大量实验表明,低偏差教师模型不仅减少了由类别不平衡引起的伪标签偏差,而且还减少了由错误边界框引起的错误。因此,与现有方法相比,该模型实现了更高的mAP分数和更可靠的检测结果。这项研究强调了准确的伪标签生成的重要性,并为未来半监督学习在目标检测中的进步提供了一个强大的框架。  
2024-09-27 Spectral Wavelet Dropout: Regularization in the Wavelet Domain null 正则化技术有助于防止过拟合,从而提高卷积神经网络 (CNN) 的泛化能力。过拟合的原因之一是网络不同部分之间复杂的相互适应,这使得 CNN 依赖于它们的联合响应,而不是鼓励每个部分独立学习有用的特征表示。频域处理是一种强大的策略,它利用频率分解来修改具有时间和空间一致性的数据。这项工作介绍了一种新颖的正则化方法——谱小波丢弃 (SWD),它包括两种变体:1D-SWD 和 2D-SWD。这些变体通过随机丢弃特征图的离散小波分解中的详细频带,从而提高 CNN 的泛化能力。我们的方法区别于预先存在的谱“傅立叶”丢弃 (2D-SFD),后者消除了傅立叶域中的系数。值得注意的是,SWD 只需要一个超参数,不像 SFD 需要两个。我们还通过实现一维版本的谱“傅立叶”丢弃 (1D-SFD) 来扩展文献,为全面比较奠定了基础。我们的评估表明,相对于 1D-SFD 和 2D-SFD,1D 和 2D SWD 变体在 CIFAR-10/100 基准测试中均具有竞争力的性能。具体来说,与 1D/2D-SFD 相比,1D-SWD 具有显著更低的计算复杂度。在 Pascal VOC 目标检测基准测试中,SWD 变体的性能优于 1D-SFD 和 2D-SFD,并且在训练期间表现出更低的计算复杂度。  
2024-09-27 Unconditional stability of a recurrent neural circuit implementing divisive normalization link 递归神经模型的稳定性是一个重大挑战,特别是在开发可以无缝训练的生物学上合理的 neurodynamical 模型方面。传统的皮质回路模型由于动力系统中存在广泛的非线性,因此难以训练,导致优化问题具有难以施加的非线性稳定性约束。相反,递归神经网络 (RNN) 在涉及序列数据的任务中表现出色,但缺乏生物学上的合理性和可解释性。在这项工作中,我们通过将动态除法归一化 (DN) 与 ORGaNICs 的稳定性联系起来来解决这些挑战,ORGaNICs 是一种生物学上合理的递归皮质回路模型,它可以动态地实现 DN,并且已被证明可以模拟广泛的神经生理学现象。通过使用 Lyapunov 的间接方法,我们证明了当递归权重矩阵是单位矩阵时,任意维度的 ORGaNICs 电路具有无条件局部稳定性的显著特性。因此,我们将 ORGaNICs 连接到一个耦合阻尼谐振子的系统,这使我们能够推导出电路的能量函数,从而提供电路和单个神经元旨在实现的目标的规范原则。此外,对于一般的递归权重矩阵,我们证明了二维模型的稳定性,并通过经验证明了稳定性在更高维度上成立。最后,我们表明 ORGaNICs 可以通过时间反向传播进行训练,而无需梯度裁剪/缩放,这得益于其内在的稳定性特性和自适应时间常数,解决了梯度爆炸、消失和振荡的问题。通过评估模型在 RNN 基准测试中的性能,我们发现 ORGaNICs 在静态图像分类任务上优于其他神经动力学模型,并且在序列任务上的性能与 LSTM 相当。  
2024-09-27 Subspace Preserving Quantum Convolutional Neural Network Architectures null 子空间保持量子电路是一类量子算法,它依赖于计算中的某些对称性,可以为其训练提供理论上的保证。这些算法之所以受到广泛关注,是因为它们可以提供多项式加速,并且可以用来模拟经典的机器学习算法。在这项工作中,我们提出了一种基于汉明重量保持量子电路的新型卷积神经网络架构模型。特别是,我们引入了卷积层和基于测量的池化层,它们在保持量子态对称性的同时,使用非子空间保持的门来实现非线性。与经典的深度学习架构相比,我们的方案在多项式运行时间上具有显著的优势。我们提供了一个用于汉明重量保持量子电路的开源仿真库,可以使用面向GPU的库更有效地仿真我们的技术。使用此代码,我们提供了一些架构示例,这些示例突出了在量子比特数量有限且参数少于经典深度学习架构的情况下,在复杂图像分类任务上的出色性能。  
2024-09-27 MCUBench: A Benchmark of Tiny Object Detectors on MCUs link 我们推出了 MCUBench,这是一个基准测试平台,涵盖了 100 多个基于 YOLO 的目标检测模型,这些模型在 VOC 数据集上针对七种不同的 MCU 进行了评估。该基准测试平台提供了各种输入分辨率和基于 YOLO 的单阶段检测器的平均精度、延迟、RAM 和 Flash 使用情况的详细信息。通过使用固定的训练流程进行受控比较,我们收集了全面的性能指标。我们的帕累托最优分析表明,集成现代检测头和训练技术可以让各种 YOLO 架构(包括 YOLOv3 等传统模型)在平均精度 (mAP) 和延迟之间实现高效的权衡。MCUBench 是一个有价值的工具,可用于对当代目标检测器的 MCU 性能进行基准测试,并根据特定限制条件帮助进行模型选择。  
2024-09-27 A Novel Unified Architecture for Low-Shot Counting by Detection and Segmentation link 少样本目标计数器可以使用少量甚至没有标注样本估计图像中的目标数量。目标定位通过将目标与原型进行匹配来实现,原型是通过对图像范围内的目标外观进行无监督聚合构建的。由于目标外观可能存在多样性,现有方法通常会导致过度泛化和误报。此外,性能最佳的方法通过预测每个目标中心的单位高斯分布的代理损失来训练目标定位。这种损失对标注误差和超参数很敏感,并且没有直接优化检测任务,导致计数结果欠佳。我们引入了GeCo,这是一种新颖的少样本计数器,可以在统一的架构中实现准确的目标检测、分割和计数估计。GeCo 通过一种新颖的密集目标查询公式,可以稳健地泛化不同目标外观的原型。此外,我们还提出了一种新的计数损失,它直接优化检测任务,避免了标准代理损失的问题。GeCo 在总计数平均绝对误差方面比领先的基于少样本检测的计数器高出约 25%,实现了卓越的检测精度,并在所有少样本计数设置中都树立了新的最先进的结果。  
2024-09-27 Query matching for spatio-temporal action detection with query-based object detector null 本文提出了一种扩展基于查询的目标检测模型DETR的方法,将其应用于时空动作检测,该任务需要在视频中保持时间一致性。我们提出的方法将DETR应用于每一帧,并使用特征偏移来整合时间信息。然而,每帧中DETR的对象查询可能对应于不同的对象,使得简单的特征偏移无效。为了克服这个问题,我们提出了跨不同帧的查询匹配,确保对同一对象的查询能够匹配并用于特征偏移。实验结果表明,当使用所提出的查询匹配对查询特征进行偏移时,JHMDB21数据集上的性能显著提高。  
2024-09-27 Simpler Gradient Methods for Blind Super-Resolution with Lower Iteration Complexity link 我们研究了盲超分辨率问题,它可以通过向量化汉克尔提升(VHL)公式化为一个低秩矩阵恢复问题。先前基于VHL的名为PGD-VHL的梯度下降方法依赖于额外的正则化,例如投影和平衡惩罚,表现出次优的迭代复杂度。在本文中,我们提出了一个更简单的无约束优化问题,无需上述两种类型的正则化,并开发了两种新的可证梯度方法,分别名为VGD-VHL和ScalGD-VHL。我们为算法的理论保证提供了新颖而清晰的分析,证明了我们的方法比PGD-VHL具有更低的迭代复杂度。此外,ScalGD-VHL具有最低的迭代复杂度,同时与条件数无关。此外,我们的新分析表明,盲超分辨率问题对不相干性的要求较低,从而无需不相干投影即可实现线性收敛。实验结果表明,我们的方法在实现与现有技术相当的恢复性能的同时,还具有更高的计算效率。  
2024-09-26 Realistic Evaluation of Model Merging for Compositional Generalization link 模型融合已成为一种广泛使用的方法,可以将单个模型廉价地组合成一个模型,该模型继承了它们的性能并获得了更好的性能。这种流行促进了许多新融合方法的快速发展,这些方法通常在不同的实验环境中得到验证,并且经常在对模型架构、数据可用性和计算预算做出的假设方面有所不同。在这项工作中,我们通过在共享实验环境中评估不同的融合方法并精确识别每种方法的实际要求,来描述它们的相对优点。具体来说,我们的设置侧重于使用融合来实现图像分类、图像生成和自然语言处理中功能的组合泛化。此外,我们还测量了不同融合方法的计算成本,以及它们在扩展融合模型数量时的性能。总的来说,我们的结果阐明了模型融合领域的现状,并提供了一个全面而严谨的实验设置来测试新方法。  
2024-09-26 Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing null 本研究旨在全面回顾和实证评估多模态大型语言模型 (MLLM) 和大型视觉模型 (VLM) 在交通系统目标检测中的应用。首先,我们介绍了 MLLM 在交通应用中的潜在优势,并对以往研究中现有的 MLLM 技术进行了全面回顾。我们重点介绍了它们在各种交通场景下目标检测的有效性和局限性。其次,我们概述了交通应用中端到端目标检测的分类以及未来方向。在此基础上,我们提出了实证分析,在三个现实交通问题上测试 MLLM,这些问题包括目标检测任务,即道路安全属性提取、安全关键事件检测和热图像视觉推理。我们的研究结果提供了对 MLLM 性能的详细评估,揭示了其优势和需要改进的方面。最后,我们讨论了 MLLM 在增强交通目标检测方面的实际局限性和挑战,从而为该关键领域的未来研究和开发提供了路线图。  
2024-09-26 DARE: Diverse Visual Question Answering with Robustness Evaluation null 视觉语言模型 (VLM) 扩展了仅文本大型语言模型和仅视觉模型的卓越能力,并且能够从多模态视觉文本输入中学习和处理。 虽然现代 VLM 在许多标准图像分类和图像文本匹配任务中表现良好,但它们仍然难以应对许多关键的视觉语言 (VL) 推理能力,例如计数和空间推理。 此外,虽然它们可能对指令和/或评估协议的微小变化非常脆弱,但现有基准测试未能评估它们的稳健性(或者更确切地说是缺乏稳健性)。 为了将具有挑战性的 VL 场景与全面的稳健性评估相结合,我们引入了 DARE,即具有稳健性评估的多样化视觉问答,这是一个精心创建和策划的多项选择 VQA 基准测试。 DARE 评估 VLM 在五个不同类别上的性能,并包括四个基于以下变化的稳健性评估:提示、答案选项子集、输出格式和正确答案的数量。 在其他一系列发现中,我们报告说,最先进的 VLM 仍然难以回答大多数类别的问题,并且无法在测试的稳健性评估中始终如一地提供其峰值性能。 选项子集的最坏情况性能比标准情况下的性能低 34%。 LLaVA 1.6 和 Idefics2 等开源 VLM 的稳健性无法与 GPT-4 和 Gemini 等闭源模型相提并论,但即使是后者仍然非常容易受到不同变化的影响。  
2024-09-26 A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts null 单目深度估计是自动驾驶和许多其他计算机视觉应用的关键任务。虽然该领域已经取得了重大进展,但视角变化对深度估计模型的影响在很大程度上仍未得到充分探索。本文介绍了一种新的数据集和评估方法,用于量化不同相机位置和方向对单目深度估计性能的影响。我们提出了一种基于单应性估计和目标检测的真值策略,无需昂贵的激光雷达传感器。我们从多个视点收集了道路场景的多样化数据集,并用它来评估现代深度估计模型对几何偏移的鲁棒性。在公共数据集上评估了我们策略的有效性后,我们提供了对当前模型局限性的宝贵见解,并强调了在实际应用中考虑视点变化的重要性。  
2024-09-26 Cascade Prompt Learning for Vision-Language Model Adaptation link 提示学习已成为一种有效的方法,可以提高视觉语言模型(VLM)在下游任务中的性能,例如CLIP。然而,当前可学习的提示标记主要用于适应任务的单一阶段(即,调整提示),容易导致过拟合风险。在这项工作中,我们提出了一种新颖的级联提示学习CasPL框架,使提示学习能够同时服务于通用和特定专业知识(即,增强和调整提示)。具体来说,CasPL是一种新的学习范式,包括两个不同阶段的可学习提示:第一个增强提示旨在通过使用大量未标记的域图像对齐其预测的logits,从高级更大的CLIP教师模型中提取域一般知识。然后,第二个调整提示与冻结的第一组级联,以微调下游任务,遵循先前研究中采用的方法。通过这种方式,CasPL可以有效地将域一般表示和任务特定表示捕获到明确不同的渐进提示组中,从而潜在地缓解目标域中的过拟合问题。值得注意的是,CasPL是一个即插即用模块,可以无缝集成到任何现有的提示学习方法中。CasPL在性能和推理速度之间取得了显著更好的平衡,这对于在资源受限的环境中部署较小的VLM模型尤其有利。与之前的最先进方法PromptSRC相比,CasPL在11个图像分类数据集上,基础类的平均改进率为1.85%,新类的平均改进率为3.44%,调和平均值的平均改进率为2.72%。代码公开地址:https://github.com/megvii-research/CasPL。  
2024-09-26 Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs link 基于扩散的图像超分辨率 (SR) 模型因其强大的图像恢复能力而引起了广泛关注。然而,现有的扩散模型通常难以在效率和性能之间取得最佳平衡。它们通常要么忽略了利用现有大量预训练模型的潜力,限制了其生成能力,要么需要从随机噪声开始进行数十次前向传递,从而降低了推理效率。在本文中,我们提出了 DoSSR,一种基于域迁移扩散的 SR 模型,它利用预训练扩散模型的生成能力,并通过以低分辨率 (LR) 图像初始化扩散过程来显著提高效率。我们方法的核心是一个与现有扩散模型无缝集成的域迁移方程。这种集成不仅提高了扩散先验的利用,还提高了推理效率。此外,我们通过将离散迁移过程转换为连续公式(称为 DoS-SDE)来推进我们的方法。这一进步带来了快速且定制化的求解器,进一步提高了采样效率。实验结果表明,我们提出的方法在合成数据集和真实世界数据集上均达到了最先进的性能,同时仅需 5 个采样步骤。与之前基于扩散先验的方法相比,我们的方法实现了 5-7 倍的显著加速,证明了其卓越的效率。代码:https://github.com/QinpengCui/DoSSR。  
2024-09-26 LGFN: Lightweight Light Field Image Super-Resolution using Local Convolution Modulation and Global Attention Feature Extraction null 光场(LF)能够将三维场景信息编码成四维光场图像,在诸如后期重聚焦和深度感知等领域有着广泛的应用。光场图像超分辨率(SR)旨在提升受限于光场相机传感器性能的图像分辨率。尽管现有方法已经取得了可喜的成果,但由于模型不够轻量化,限制了其实际应用。本文提出了一种名为LGFN的轻量级模型,它集成了不同视角的局部和全局特征以及不同通道的特征,用于光场图像超分辨率。具体来说,由于不同子孔径图像中相同像素位置的相邻区域表现出相似的结构关系,我们设计了一个基于轻量级CNN的特征提取模块(DGCE),通过特征调制更好地提取局部特征。同时,由于光场图像中超出边界的像素位置存在较大差异,我们提出了一个高效的空间注意力模块(ESAM),它使用可分解的大核卷积来获得更大的感受野,以及一个高效的通道注意力模块(ECAM)。与现有参数量大的光场图像超分辨率模型相比,我们的模型参数量为0.45M,FLOPs为19.33G,取得了具有竞争力的效果。大量的消融实验验证了我们提出的方法的有效性,在NTIRE2024光场超分辨率挑战赛的Track 2保真度和效率赛道中排名第二,在Track 1保真度赛道中排名第七。  
2024-09-26 Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes null 随着机器人在日常任务中越来越多地与人类合作,采取措施使机器人系统能够理解环境变得至关重要。这项工作侧重于场景理解,以根据场景的初始图像和最终图像检测拾取和放置任务。为此,我们收集了一个用于目标检测和拾取放置任务检测的数据集。随后训练了一个 YOLOv5 网络来检测初始场景和最终场景中的目标。给定检测到的目标及其边界框,我们提出了两种方法来检测将初始场景转换为最终场景的拾取和放置任务。一种是几何方法,它跟踪目标在两个场景中的运动,并根据场景内移动的边界框的交集进行工作。相反,基于 CNN 的方法利用卷积神经网络将具有相交边界框的目标分类为 5 类,显示相关目标之间的空间关系。然后,通过分析包含这两个场景的实验,得出执行的拾取和放置任务。结果表明,在某些场景下,使用 VGG16 骨干网络的基于 CNN 的方法的成功率比几何方法高出约 12 个百分点,总体成功率为 84.3%。  
2024-09-26 Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution link 基于窗口的 Transformer 由于其通过局部自注意力机制 (SA) 进行自适应建模的能力,在超分辨率任务中展现出卓越的性能。然而,与卷积神经网络相比,它们表现出更高的计算复杂度和推理延迟。在本文中,我们首先确定 Transformer 的适应性源于其自适应空间聚合和先进的结构设计,而其高延迟则源于与局部 SA 相关的计算成本和内存布局转换。为了模拟这种聚合方法,我们提出了一种有效的基于卷积的线性焦点可分离注意力机制 (FSA),允许以线性复杂度进行长距离动态建模。此外,我们引入了一种有效的双分支结构,结合超轻量级信息交换模块 (IEM),以增强 Token Mixer 对信息的聚合能力。最后,在结构方面,我们通过结合自门控机制来修改现有的基于空间门控的前馈神经网络,以保留高维通道信息,从而能够对更复杂的关系进行建模。基于这些改进,我们构建了一个名为线性自适应混合网络 (LAMNet) 的基于卷积的 Transformer 框架。大量实验表明,LAMNet 在保持卷积神经网络计算效率的同时,实现了比现有基于 SA 的 Transformer 方法更好的性能,推理时间可达 (3\times) 加速。代码将公开发布在:https://github.com/zononhzy/LAMNet。  
2024-09-26 Let the Quantum Creep In: Designing Quantum Neural Network Models by Gradually Swapping Out Classical Components link 人工智能 (AI) 凭借其乘数效应和在多个领域的广泛应用,可能成为量子计算的重要应用领域。由于现代人工智能系统通常建立在神经网络之上,因此量子神经网络的设计成为将量子计算集成到人工智能中的关键挑战。为了更细致地描述量子组件对神经网络性能的影响,我们提出了一个框架,在该框架中,经典神经网络层逐渐被具有相同输入和输出类型、同时保持层间信息流不变的量子层所取代,这不同于目前大多数量子神经网络的研究,后者倾向于端到端的量子模型。我们从一个没有任何标准化层或激活函数的简单三层经典神经网络开始,逐步将经典层更改为相应的量子版本。我们对 MNIST、FashionMNIST 和 CIFAR-10 等图像分类数据集进行了数值实验,以证明系统引入量子组件所带来的性能变化。通过这个框架,我们的研究为未来量子神经网络模型的设计提供了新的思路,在这些模型中,寻找能够利用经典世界和量子世界优势的方法和框架可能更为有利。  
2024-09-26 General Compression Framework for Efficient Transformer Object Tracking null 基于Transformer的跟踪器在视觉目标跟踪领域占据主导地位。虽然这些跟踪器表现出良好的性能,但由于效率低下,它们在资源受限设备上的部署仍然具有挑战性。为了提高推理效率并降低计算成本,先前的方法旨在设计轻量级跟踪器或将知识从较大的教师模型提炼到更紧凑的学生模型中。然而,这些解决方案通常以牺牲精度为代价来提高速度。因此,我们提出了一种通用的高效Transformer目标跟踪模型压缩框架CompressTracker,以将预训练的跟踪模型压缩成轻量级跟踪器,同时最大限度地减少性能下降。我们的方法采用了一种新颖的阶段划分策略,将教师模型的Transformer层划分为不同的阶段,使学生模型能够更有效地模拟每个相应的教师阶段。此外,我们还设计了一种独特的替换训练技术,该技术涉及用教师模型中的相应阶段随机替换学生模型中的特定阶段,而不是孤立地训练学生模型。替换训练增强了学生模型复制教师模型行为的能力。为了进一步迫使学生模型模拟教师模型,我们引入了预测指导和阶段性特征模拟,以便在教师模型的压缩过程中提供额外的监督。我们的框架CompressTracker在结构上是不可知的,使其与任何Transformer架构兼容。我们进行了一系列实验,以验证CompressTracker的有效性和通用性。我们的CompressTracker-4具有4个Transformer层,它是从OSTrack压缩而来的,在LaSOT上保留了约96%的性能(66.1% AUC),同时实现了2.17倍的加速。  
2024-09-26 CAMOT: Camera Angle-aware Multi-Object Tracking null 本文提出了CAMOT,一种用于多目标跟踪的简单相机角度估计器,用于解决两个问题:1)遮挡和2)深度方向上的距离估计不准确。在假设每个视频帧中的多个目标位于平面上,CAMOT 使用目标检测来估计相机角度。此外,它还给出了每个目标的深度,从而实现了伪 3D MOT。我们通过将其添加到 MOT17 和 MOT20 数据集上的各种 2D MOT 方法中来评估其性能,并确认了其有效性。将 CAMOT 应用于 ByteTrack,我们在 MOT17 中获得了 63.8% 的 HOTA、80.6% 的 MOTA 和 78.5% 的 IDF1,这些都是最先进的结果。它的计算成本明显低于现有的基于深度学习的跟踪深度估计器。  
2024-09-18 Applications of Knowledge Distillation in Remote Sensing: A Survey null 随着遥感 (RS) 领域模型复杂性的不断提高,对平衡模型精度和计算效率的解决方案的需求也日益增长。知识蒸馏 (KD) 已成为满足这一需求的强大工具,能够在不显著降低性能的情况下,将知识从大型复杂模型迁移到更小、更高效的模型。这篇综述文章广泛考察了 KD 及其在遥感领域的创新应用。KD 是一种将知识从复杂、通常笨重的模型(教师)迁移到更紧凑、更高效的模型(学生)的技术,已经在各个领域得到了显著的发展和应用。首先,我们介绍了 KD 方法的基本概念和历史进程。文章重点介绍了采用 KD 的优势,特别是在模型压缩、计算效率提高和性能改善方面,这些优势对于 RS 场景中的实际部署至关重要。文章提供了 KD 技术的全面分类,其中每个类别都经过严格分析,以证明替代方案的广度和深度,并通过具体的案例研究展示了 KD 方法在 RS 任务中的实际应用,例如实例分割和目标检测。此外,该综述还讨论了 KD 在遥感领域面临的挑战和局限性,包括实际约束和未来的发展方向,为遥感领域的研究人员和从业者提供了全面的概述。通过这种组织方式,本文不仅阐明了 KD 研究的现状,而且为未来的研究方向奠定了基础,从而为学术研究和实际应用做出了重大贡献。  
2024-09-18 Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes link 神经网络的损失景观是其训练的一个关键方面,理解其属性对于提高其性能至关重要。在本文中,我们研究了当样本量增加时损失曲面如何变化,这是一个以前未被探索的问题。我们从理论上分析了全连接神经网络中损失景观的收敛性,并推导出在样本中添加新对象时损失函数值差异的上界。我们的实证研究在各种数据集上证实了这些结果,证明了图像分类任务中损失函数曲面的收敛性。我们的发现为神经损失景观的局部几何提供了见解,并对样本量确定技术的发展具有意义。  
2024-09-18 Agglomerative Token Clustering null 我们提出了聚合式Token聚类(ATC),这是一种新颖的Token合并方法,在图像分类、图像合成以及目标检测和分割任务中始终优于以前的Token合并和剪枝方法。ATC通过自下而上的层次聚类来合并聚类,无需引入额外的可学习参数。我们发现ATC在所有任务中都实现了最先进的性能,甚至在应用于现成模型时(即无需微调)也能与之前的最先进技术相媲美。当应用于低保留率时,ATC特别有效,在这种情况下,只有一小部分Token被保留,并且保持任务性能特别困难。  
2024-09-18 Distillation-free Scaling of Large SSMs for Images and Videos null State-space models (SSMs), exemplified by S4, have introduced a novel context modeling method by integrating state-space techniques into deep learning. However, they struggle with global context modeling due to their data-independent matrices. The Mamba model addressed this with data-dependent variants via the S6 selective-scan algorithm, enhancing context modeling, especially for long sequences. However, Mamba-based architectures are difficult to scale with respect to the number of parameters, which is a major limitation for vision applications. This paper addresses the scalability issue of large SSMs for image classification and action recognition without requiring additional techniques like knowledge distillation. We analyze the distinct characteristics of Mamba-based and Attention-based models, proposing a Mamba-Attention interleaved architecture that enhances scalability, robustness, and performance. We demonstrate that the stable and efficient interleaved architecture resolves the scalability issue of Mamba-based architectures for images and videos and increases robustness to common artifacts like JPEG compression. Our thorough evaluation on the ImageNet-1K, Kinetics-400 and Something-Something-v2 benchmarks demonstrates that our approach improves the accuracy of state-of-the-art Mamba-based architectures by up to $+1.7$ .  
2024-09-18 RockTrack: A 3D Robust Multi-Camera-Ken Multi-Object Tracking Framework null 随着3D目标检测技术的快速发展,尤其是在经济高效的多相机设置中,3D多目标跟踪(MOT)获得了显著的性能提升。然而,目前流行的端到端多相机跟踪器训练方法会导致模型依赖于特定的检测器,从而限制了其通用性。此外,现有的通用跟踪器忽略了多相机检测器的独特特征,即运动观测的不可靠性和视觉信息的可用性。为了应对这些挑战,我们提出了RockTrack,一种面向多相机检测器的3D MOT方法。RockTrack遵循“检测跟踪”框架,兼容各种现成的检测器。RockTrack包含一个置信度引导的预处理模块,用于从单个检测器的不同表示空间中提取可靠的运动和图像观测结果。然后,这些观测结果会在关联模块中融合,该模块利用几何和外观线索来最大程度地减少错配。最终的匹配结果通过分阶段估计过程进行传播,形成启发式噪声建模的基础。此外,我们引入了一种新颖的外观相似性度量方法,用于在多相机设置中明确表征目标亲和度。RockTrack在nuScenes仅视觉跟踪排行榜上实现了最先进的性能,AMOTA达到59.1%,同时展现出惊人的计算效率。  
2024-09-18 Few-Shot Learning Approach on Tuberculosis Classification Based on Chest X-Ray Images null Tuberculosis (TB) is caused by the bacterium Mycobacterium tuberculosis, primarily affecting the lungs. Early detection is crucial for improving treatment effectiveness and reducing transmission risk. Artificial intelligence (AI), particularly through image classification of chest X-rays, can assist in TB detection. However, class imbalance in TB chest X-ray datasets presents a challenge for accurate classification. In this paper, we propose a few-shot learning (FSL) approach using the Prototypical Network algorithm to address this issue. We compare the performance of ResNet-18, ResNet-50, and VGG16 in feature extraction from the TBX11K Chest X-ray dataset. Experimental results demonstrate classification accuracies of 98.93% for ResNet-18, 98.60% for ResNet-50, and 33.33% for VGG16. These findings indicate that the proposed method outperforms others in mitigating data imbalance, which is particularly beneficial for disease classification applications.  
2024-09-17 VALO: A Versatile Anytime Framework for LiDAR-based Object Detection Deep Neural Networks link This work addresses the challenge of adapting dynamic deadline requirements for LiDAR object detection deep neural networks (DNNs). The computing latency of object detection is critically important to ensure safe and efficient navigation. However, state-of-the-art LiDAR object detection DNNs often exhibit significant latency, hindering their real-time performance on resource-constrained edge platforms. Therefore, a tradeoff between detection accuracy and latency should be dynamically managed at runtime to achieve optimum results. In this paper, we introduce VALO (Versatile Anytime algorithm for LiDAR Object detection), a novel data-centric approach that enables anytime computing of 3D LiDAR object detection DNNs. VALO employs a deadline-aware scheduler to selectively process input regions, making execution time and accuracy tradeoffs without architectural modifications. Additionally, it leverages efficient forecasting of past detection results to mitigate possible loss of accuracy due to partial processing of input. Finally, it utilizes a novel input reduction technique within its detection heads to significantly accelerate execution without sacrificing accuracy. We implement VALO on state-of-the-art 3D LiDAR object detection networks, namely CenterPoint and VoxelNext, and demonstrate its dynamic adaptability to a wide range of time constraints while achieving higher accuracy than the prior state-of-the-art. Code is available athttps://github.com/CSL-KU/VALO}{github.com/CSL-KU/VALO.  
2024-09-17 Enhancing the Reliability of LiDAR Point Cloud Sampling: A Colorization and Super-Resolution Approach Based on LiDAR-Generated Images null In recent years, Light Detection and Ranging (LiDAR) technology, a critical sensor in robotics and autonomous systems, has seen significant advancements. These improvements include enhanced resolution of point clouds and the capability to provide 360{\deg} low-resolution images. These images encode various data such as depth, reflectivity, and near-infrared light within the pixels. However, an excessive density of points and conventional point cloud sampling can be counterproductive, particularly in applications such as LiDAR odometry, where misleading points and degraded geometry information may induce drift errors. Currently, extensive research efforts are being directed towards leveraging LiDAR-generated images to improve situational awareness. This paper presents a comprehensive review of current deep learning (DL) techniques, including colorization and super-resolution, which are traditionally utilized in conventional computer vision tasks. These techniques are applied to LiDAR-generated images and are analyzed qualitatively. Based on this analysis, we have developed a novel approach that selectively integrates the most suited colorization and super-resolution methods with LiDAR imagery to sample reliable points from the LiDAR point cloud. This approach aims to not only improve the accuracy of point cloud registration but also avoid mismatching caused by lacking geometry information, thereby augmenting the utility and precision of LiDAR systems in practical applications. In our evaluation, the proposed approach demonstrates superior performance compared to our previous work, achieving lower translation and rotation errors with a reduced number of points.  
2024-09-19 Super Resolution On Global Weather Forecasts null Weather forecasting is a vitally important tool for tasks ranging from planning day to day activities to disaster response planning. However, modeling weather has proven to be challenging task due to its chaotic and unpredictable nature. Each variable, from temperature to precipitation to wind, all influence the path the environment will take. As a result, all models tend to rapidly lose accuracy as the temporal range of their forecasts increase. Classical forecasting methods use a myriad of physics-based, numerical, and stochastic techniques to predict the change in weather variables over time. However, such forecasts often require a very large amount of data and are extremely computationally expensive. Furthermore, as climate and global weather patterns change, classical models are substantially more difficult and time-consuming to update for changing environments. Fortunately, with recent advances in deep learning and publicly available high quality weather datasets, deploying learning methods for estimating these complex systems has become feasible. The current state-of-the-art deep learning models have comparable accuracy to the industry standard numerical models and are becoming more ubiquitous in practice due to their adaptability. Our group seeks to improve upon existing deep learning based forecasting methods by increasing spatial resolutions of global weather predictions. Specifically, we are interested in performing super resolution (SR) on GraphCast temperature predictions by increasing the global precision from 1 degree of accuracy to 0.5 degrees, which is approximately 111km and 55km respectively.  
2024-09-17 SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking link Open-vocabulary Multiple Object Tracking (MOT) aims to generalize trackers to novel categories not in the training set. Currently, the best-performing methods are mainly based on pure appearance matching. Due to the complexity of motion patterns in the large-vocabulary scenarios and unstable classification of the novel objects, the motion and semantics cues are either ignored or applied based on heuristics in the final matching steps by existing methods. In this paper, we present a unified framework SLAck that jointly considers semantics, location, and appearance priors in the early steps of association and learns how to integrate all valuable information through a lightweight spatial and temporal object graph. Our method eliminates complex post-processing heuristics for fusing different cues and boosts the association performance significantly for large-scale open-vocabulary tracking. Without bells and whistles, we outperform previous state-of-the-art methods for novel classes tracking on the open-vocabulary MOT and TAO TETA benchmarks. Our code is available at \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck}.  
2024-09-17 STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking link Multiple object tracking (MOT) in Unmanned Aerial Vehicle (UAV) videos is important for diverse applications in computer vision. Current MOT trackers rely on accurate object detection results and precise matching of target reidentification (ReID). These methods focus on optimizing target spatial attributes while overlooking temporal cues in modelling object relationships, especially for challenging tracking conditions such as object deformation and blurring, etc. To address the above-mentioned issues, we propose a novel Spatio-Temporal Cohesion Multiple Object Tracking framework (STCMOT), which utilizes historical embedding features to model the representation of ReID and detection features in a sequential order. Concretely, a temporal embedding boosting module is introduced to enhance the discriminability of individual embedding based on adjacent frame cooperation. While the trajectory embedding is then propagated by a temporal detection refinement module to mine salient target locations in the temporal field. Extensive experiments on the VisDrone2019 and UAVDT datasets demonstrate our STCMOT sets a new state-of-the-art performance in MOTA and IDF1 metrics. The source codes are released at https://github.com/ydhcg-BoBo/STCMOT.  
2024-09-17 Vision foundation models: can they be applied to astrophysics data? link Vision foundation models, which have demonstrated significant potential in many multimedia applications, are often underutilized in the natural sciences. This is primarily due to mismatches between the nature of domain-specific scientific data and the typical training data used for foundation models, leading to distribution shifts. Scientific data often differ substantially in structure and characteristics; researchers frequently face the challenge of optimizing model performance with limited labeled data of only a few hundred or thousand images. To adapt foundation models effectively requires customized approaches in preprocessing, data augmentation, and training techniques. Additionally, each vision foundation model exhibits unique strengths and limitations, influenced by differences in architecture, training procedures, and the datasets used for training. In this work, we evaluate the application of various vision foundation models to astrophysics data, specifically images from optical and radio astronomy. Our results show that using features extracted by specific foundation models improves the classification accuracy of optical galaxy images compared to conventional supervised training. Similarly, these models achieve equivalent or better performance in object detection tasks with radio images. However, their performance in classifying radio galaxy images is generally poor and often inferior to traditional supervised training results. These findings suggest that selecting suitable vision foundation models for astrophysics applications requires careful consideration of the model characteristics and alignment with the specific requirements of the downstream tasks.  
2024-09-17 Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation null The LiDAR-based 3D object detector that strikes a balance between accuracy and speed is crucial for achieving real-time perception in autonomous driving and robotic navigation systems. To enhance the accuracy of point cloud detection, integrating global context for visual understanding improves the point clouds ability to grasp overall spatial information. However, many existing LiDAR detection models depend on intricate feature transformation and extraction processes, leading to poor real-time performance and high resource consumption, which limits their practical effectiveness. In this work, we propose a Faster LiDAR 3D object detection framework, called FASD, which implements heterogeneous model distillation by adaptively uniform cross-model voxel features. We aim to distill the transformer’s capacity for high-performance sequence modeling into Mamba models with low FLOPs, achieving a significant improvement in accuracy through knowledge transfer. Specifically, Dynamic Voxel Group and Adaptive Attention strategies are integrated into the sparse backbone, creating a robust teacher model with scale-adaptive attention for effective global visual context modeling. Following feature alignment with the Adapter, we transfer knowledge from the Transformer to the Mamba through latent space feature supervision and span-head distillation, resulting in improved performance and an efficient student model. We evaluated the framework on the Waymo and nuScenes datasets, achieving a 4x reduction in resource consumption and a 1-2\% performance improvement over the current SoTA methods.  
2024-09-17 TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection null Semi-supervised 3D object detection is a common strategy employed to circumvent the challenge of manually labeling large-scale autonomous driving perception datasets. Pseudo-labeling approaches to semi-supervised learning adopt a teacher-student framework in which machine-generated pseudo-labels on a large unlabeled dataset are used in combination with a small manually-labeled dataset for training. In this work, we address the problem of improving pseudo-label quality through leveraging long-term temporal information captured in driving scenes. More specifically, we leverage pre-trained motion-forecasting models to generate object trajectories on pseudo-labeled data to further enhance the student model training. Our approach improves pseudo-label quality in two distinct manners: first, we suppress false positive pseudo-labels through establishing consistency across multiple frames of motion forecasting outputs. Second, we compensate for false negative detections by directly inserting predicted object tracks into the pseudo-labeled scene. Experiments on the nuScenes dataset demonstrate the effectiveness of our approach, improving the performance of standard semi-supervised approaches in a variety of settings.  
2024-09-17 Single-Layer Learnable Activation for Implicit Neural Representation (SL $^{2}$A-INR) null 隐式神经表示 (INR) 利用神经网络将坐标输入转换为相应的属性,近年来在多个视觉相关领域取得了重大进展。然而,INR 的性能很大程度上受其多层感知器 (MLP) 架构中使用的非线性激活函数选择的影响。目前已经研究了多种非线性方法;然而,当前的 INR 在捕获高频分量、多样信号类型和处理逆问题方面面临局限性。我们已经确定,通过引入 INR 的范式转变可以大大缓解这些问题。我们发现,在初始层具有可学习激活函数的架构可以表示底层信号中的精细细节。具体来说,我们提出了 SL$^{2}$A-INR,这是一种用于 INR 的混合网络,具有单层可学习激活函数,从而提高了传统基于 ReLU 的 MLP 的有效性。我们的方法在各种任务中均表现出色,包括图像表示、3D 形状重建、图像修复、单图像超分辨率、CT 重建和新视图合成。通过综合实验,SL$^{2}$ A-INR 在 INR 的准确性、质量和收敛速度方面树立了新的基准。  
2024-09-17 Context-Dependent Interactable Graphical User Interface Element Detection for VR Applications null In recent years, Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments on the dataset demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.  
2024-09-16 Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks? null 图像分类模型,包括卷积神经网络(CNN),在各种分类任务中表现良好,但在部分遮挡的情况下表现不佳,例如,物体被部分遮挡在相机视野之外的情况。已经出现了一些方法来提高遮挡情况下的性能,包括数据增强、基于部分的聚类,以及更强大的架构,包括视觉Transformer(ViT)模型,这些方法在一定程度上已经根据其在部分遮挡下对物体进行分类的能力进行了评估。然而,对这些方法的评估很大程度上依赖于包含人工遮挡的图像,这些图像通常是计算机生成的,因此标注成本低廉。此外,这些方法很少相互比较,许多方法是与早期、现在已经过时的深度学习模型进行比较的。我们贡献了遮挡下图像识别(IRUO)数据集,该数据集基于最近开发的遮挡视频实例分割(OVIS)数据集(arXiv:2102.01558)。IRUO利用真实世界和人工遮挡的图像来测试和比较领先方法在视觉识别任务中对部分遮挡的鲁棒性。此外,我们还贡献了使用IRUO图像进行的人类研究的设计和结果,该研究评估了人类在多个级别和类型的遮挡下的分类性能。我们发现,与早期的基于CNN的模型相比,现代基于CNN的模型在遮挡图像上的识别精度有所提高,并且基于ViT的模型在遮挡图像上的精度高于基于CNN的模型,其性能仅略低于人类精度。我们还发现,某些类型的遮挡,包括漫射遮挡,即相关物体通过栅栏和树叶等遮挡物上的“孔洞”可见,与人类相比,这种遮挡会大大降低深度识别模型的精度,尤其是那些具有CNN骨干的模型。  
2024-09-16 CoMamba: Real-time Cooperative Perception Unlocked with State Space Models null Cooperative perception systems play a vital role in enhancing the safety and efficiency of vehicular autonomy. Although recent studies have highlighted the efficacy of vehicle-to-everything (V2X) communication techniques in autonomous driving, a significant challenge persists: how to efficiently integrate multiple high-bandwidth features across an expanding network of connected agents such as vehicles and infrastructure. In this paper, we introduce CoMamba, a novel cooperative 3D detection framework designed to leverage state-space models for real-time onboard vehicle perception. Compared to prior state-of-the-art transformer-based models, CoMamba enjoys being a more scalable 3D model using bidirectional state space models, bypassing the quadratic complexity pain-point of attention mechanisms. Through extensive experimentation on V2X/V2V datasets, CoMamba achieves superior performance compared to existing methods while maintaining real-time processing capabilities. The proposed framework not only enhances object detection accuracy but also significantly reduces processing time, making it a promising solution for next-generation cooperative perception systems in intelligent transportation networks.  
2024-09-16 Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning null We present a novel frequency-based Self-Supervised Learning (SSL) approach that significantly enhances its efficacy for pre-training. Prior work in this direction masks out pre-defined frequencies in the input image and employs a reconstruction loss to pre-train the model. While achieving promising results, such an implementation has two fundamental limitations as identified in our paper. First, using pre-defined frequencies overlooks the variability of image frequency responses. Second, pre-trained with frequency-filtered images, the resulting model needs relatively more data to adapt to naturally looking images during fine-tuning. To address these drawbacks, we propose FOurier transform compression with seLf-Knowledge distillation (FOLK), integrating two dedicated ideas. First, inspired by image compression, we adaptively select the masked-out frequencies based on image frequency responses, creating more suitable SSL tasks for pre-training. Second, we employ a two-branch framework empowered by knowledge distillation, enabling the model to take both the filtered and original images as input, largely reducing the burden of downstream tasks. Our experimental results demonstrate the effectiveness of FOLK in achieving competitive performance to many state-of-the-art SSL methods across various downstream tasks, including image classification, few-shot learning, and semantic segmentation.  
2024-09-13 Optically-Validated Microvascular Phantom for Super-Resolution Ultrasound Imaging null 超分辨率超声 (SRUS) 通过定位和跟踪空间隔离的微泡造影剂,可视化超声衍射极限(波长 ( $λ$ )/2)以外的微血管结构。SRUS 模型通常由简单的管状结构组成,其中直径小于 100 微米的通道不可用。此外,这些模型通常易碎且不稳定,真值验证有限,并且其简单的结构限制了 SRUS 算法的评估。为了帮助 SRUS 的开发,需要具有已知且生理相关的微血管结构的坚固耐用的模型,以便进行可重复的 SRUS 测试。这项工作提出了一种制造耐用微血管模型的方法,该模型允许进行光学测量以进行 SRUS 验证。该方法使用嵌入聚二甲基硅氧烷中的微血管阴模来制造微血管模型。展示了具有可变微血管密度的分支微血管模型,其光学验证的血管直径低至约 60 微米(λ/5.8;λ = 约 350 微米)。进行了 SRUS 成像并通过光学测量进行了验证。平均 SRUS 误差为 15.61 微米(λ/22),标准偏差误差为 11.44 微米。一旦定位的微泡数量超过每个估计直径 1000 个,平均误差降低至 7.93 微米(λ/44)。此外,制造一年后测得的声学和光学特性变化小于 10% 以及模型的机械韧性证明了其长期耐用性。这项工作提出了一种制造耐用且经过光学验证的复杂微血管模型的方法,该模型可用于量化 SRUS 性能并促进其进一步发展。  
2024-09-13 Pushing Joint Image Denoising and Classification to the Edge null 本文中,我们将图像分类和图像去噪相结合,旨在增强人类对边缘设备(如低照度监控摄像头)所拍摄噪声图像的感知能力。在这种情况下,重要的是要保留人类验证自动分类决策的能力,从而联合对图像进行去噪以增强人类感知。由于边缘设备计算能力有限,我们通过提出一种集成这两项任务的新型架构来明确优化效率。此外,我们还修改了一种神经架构搜索(NAS)方法,该方法搜索分类器以搜索集成模型,同时优化目标延迟、分类精度和去噪性能。NAS 架构在去噪和分类方面均优于我们手动设计的方案,可显著改善人类感知。我们的方法使用户能够构建针对医疗成像、监控系统和工业检测等领域的定制架构。  
2024-09-13 Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing null 遥感影像中的目标检测在地球观测的各个应用中都起着至关重要的作用。然而,与自然场景图像中的目标检测不同,由于不同地形中存在大量的小型且通常难以察觉的目标,这项任务尤其具有挑战性。为了应对这些挑战,可以使用多模态学习来整合来自不同数据模态的特征,从而提高检测精度。然而,多模态学习的性能往往受到标记数据集大小有限的限制。在本文中,我们建议使用掩蔽图像建模(MIM)作为预训练技术,利用未标记数据的自监督学习来提高检测性能。然而,传统的 MIM 方法(如 MAE)使用不包含任何上下文信息的掩码标记,由于缺乏与图像其他部分的交互,难以捕捉到细粒度的细节。为了解决这个问题,我们提出了一种新的交互式 MIM 方法,可以在不同标记之间建立交互,这对于遥感中的目标检测特别有利。大量的消融研究和评估证明了我们方法的有效性。  
2024-09-13 Direct-CP: Directed Collaborative Perception for Connected and Autonomous Vehicles via Proactive Attention null 协同感知 (CP) 利用来自联网和自动驾驶车辆 (CAV) 的视觉数据来增强自车视野 (FoV)。尽管最近取得了进展,但目前的 CP 方法几乎平等地扩展了自车的 360 度感知范围,这面临着两个关键挑战。首先,在交通分布不均匀的地区,关注交通流量小的方向带来的好处有限。其次,在有限的通信预算下,为不太重要的方向分配过多的带宽会降低更重要区域的感知精度。为了解决这些问题,我们提出了 Direct-CP,一种主动且方向感知的 CP 系统,旨在改善特定方向的 CP。我们的核心理念是使自车能够主动发出其感兴趣方向的信号,并重新调整其注意力以增强局部方向性 CP 性能。为此,我们首先提出了一种 RSU 辅助方向掩蔽机制,以帮助自车识别重要方向。此外,我们设计了一个方向感知的选择性注意模块,根据自车的方向优先级、通信预算和 CAV 的位置数据,明智地聚合相关特征。此外,我们引入了方向加权检测损失 (DWLoss) 来捕捉方向性 CP 结果与真实情况之间的差异,从而促进有效的模型训练。在 V2X-Sim 2.0 数据集上进行的大量实验表明,与最先进的协作 3D 目标检测方法相比,我们的方法在感兴趣方向的局部感知精度提高了 19.8%,整体感知精度提高了 2.5%。  
2024-09-13 Test-time Training for Hyperspectral Image Super-resolution null 高光谱图像 (HSI) 超分辨率 (SR) 的研究进展仍然落后于 RGB 图像 SR 的研究。HSI 通常具有大量的波段,因此准确地模拟 HSI SR 的波段间交互非常困难。此外,HSI SR 的训练数据难以获取,因此数据集通常很小。在这项工作中,我们提出了一种新的测试时训练方法来解决这个问题。具体来说,我们开发了一个新的自训练框架,可以生成更准确的伪标签和更准确的 LR-HR 关系,以便模型可以使用它们进行进一步训练以提高性能。为了更好地支持我们的测试时训练方法,我们还提出了一种新的网络架构来学习 HSI SR,而无需对波段间交互进行建模,并提出了一种新的数据增强方法 Spectral Mixup,以增加测试时训练数据的的多样性。我们还收集了一个新的 HSI 数据集,其中包含从食物到植被、材料和一般场景等各种有趣对象的图像。在多个数据集上的大量实验表明,我们的方法可以在测试时训练后显着提高预训练模型的性能,并在 HSI SR 方面显着优于竞争方法。  
2024-09-13 Low Complexity DoA-ToA Signature Estimation for Multi-Antenna Multi-Carrier Systems null 准确的方向估计 (DoA) 和到达时间 (ToA) 估计是声纳、雷达、通信和双功能雷达通信 (DFRC) 等多种无线系统的严格要求。由于使用高载波频率和带宽,这些系统大多数设计有多个天线和子载波。尽管大阵列机制下的分辨率很高,但由于频谱泄漏效应,实际的网格估计方法的 DoA-ToA 估计精度仍然存在估计不准确的问题。在本文中,我们提出了针对具有正交频分复用 (OFDM) 信号的多天线多载波系统的 DoA-ToA 估计方法。在第一种方法中,我们应用了基于离散傅立叶变换 (DFT) 的粗略特征估计,并提出了一种低复杂度的多级微调方法,以极大地提高估计精度。第二种方法基于压缩感知,其中我们通过采用比天线和子载波基数实际数量更多的二维过完备角度延迟字典来实现超分辨率。与向量化一维正交匹配追踪 (OMP) 方法不同,我们将低复杂度的二维 OMP 方法应用于矩阵数据模型,这使得在大型阵列机制中使用压缩感知方法变得切实可行。通过数值仿真,我们表明我们提出的方法实现了与基于子空间的二维多重信号分类 (MUSIC) 方法相似的性能,并且计算复杂度显着降低。  
2024-09-13 Byzantine-Robust and Communication-Efficient Distributed Learning via Compressed Momentum Filtering null 分布式学习已成为跨私有数据孤岛训练大规模机器学习模型的标准方法。虽然分布式学习增强了隐私保护和训练效率,但它也面临着与拜占庭鲁棒性和通信减少相关的重大挑战。现有的拜占庭鲁棒且高效通信的方法依赖于每次迭代或以一定概率在某些迭代中获得完整的梯度信息,并且它们仅收敛到解周围一个不必要的大的邻域。基于这些问题,我们提出了一种新颖的拜占庭鲁棒且高效通信的随机分布式学习方法,该方法对批量大小没有任何要求,并且收敛到比所有现有方法都更接近最优解的小邻域,与理论下界一致。我们的关键创新是利用 Polyak 动量来减轻由有偏压缩器和随机梯度引起的噪声,从而在信息压缩的情况下防御拜占庭工作者。我们提供了在非凸平滑损失函数的背景下,我们算法的紧复杂度界限的证明,证明这些界限与无拜占庭场景中的下界相匹配。最后,我们通过一系列广泛的实验验证了我们算法的实际意义,对二进制分类和图像分类任务的性能进行了基准测试。  
2024-09-13 Think Twice Before You Act: Improving Inverse Problem Solving With MCMC null 最近的研究表明,扩散模型可以作为解决逆问题的强有力先验。一个突出的例子是扩散后验采样(DPS),它使用Tweedie公式来近似给定测量值的数据后验分布。尽管DPS在解决各种逆问题时具有无需重新训练的优点,但由于这种后验近似可能不准确,特别是在高噪声水平下,因此其性能受到限制。因此,我们提出了扩散后验MCMC(DPMC),这是一种基于退火MCMC的新型推理算法,用于解决使用预训练扩散模型的逆问题。我们定义了一系列中间分布,其灵感来自DPS使用的近似条件分布。通过退火MCMC采样,我们鼓励样本在移动到噪声水平较低的下一个分布之前,更紧密地遵循每个中间分布,从而减少沿路径累积的误差。我们在各种逆问题中测试了我们的算法,包括超分辨率、高斯去模糊、运动去模糊、修复和相位检索。我们的算法在几乎所有任务中都优于DPS,并且评估次数更少,并且与现有方法相比具有竞争力。  
2024-09-12 Learned Compression for Images and Point Clouds link 在过去十年中,深度学习在执行计算机视觉任务(包括分类、超分辨率和风格迁移)方面表现出色。现在,我们将其应用于数据压缩,以帮助构建下一代多媒体编解码器。本论文对这一新兴的学习压缩领域做出了三个主要贡献。首先,我们提出了一种高效的低复杂度熵模型,它通过将编码分布本身作为边信息进行压缩和传输,从而动态地使编码分布适应特定的输入。其次,我们提出了一种新颖的轻量级低复杂度点云编解码器,该编解码器专门针对分类进行了高度优化,与非专门编解码器相比,可以显著降低比特率。最后,我们探讨了连续视频帧之间输入域内的运动是如何体现在相应的卷积导出的潜在空间中的。  
2024-09-12 FACT: Feature Adaptive Continual-learning Tracker for Multiple Object Tracking null 多目标跟踪 (MOT) 涉及识别视频序列中的多个目标并为其分配相应的 ID,其中经常遇到遮挡。最近的方法通过在线学习技术解决遮挡问题,以提高适应性,或通过离线学习技术利用视频中的时间信息。然而,大多数现有的基于在线学习的 MOT 方法无法从所有过去的跟踪信息中学习,从而在保持实时跟踪速度的同时提高对长期遮挡的适应性。另一方面,基于时间信息的离线学习方法维护一个长期记忆来存储过去的跟踪信息,但这种方法限制了它们在跟踪过程中只能使用局部的过去信息。为了应对这些挑战,我们提出了一种新的 MOT 框架,称为特征自适应持续学习跟踪器 (FACT),它通过利用所有过去的跟踪信息实现目标的实时跟踪和特征学习。我们证明了该框架可以与各种最先进的基于特征的跟踪器集成,从而提高它们的跟踪能力。具体来说,我们开发了特征自适应持续学习 (FAC) 模块,这是一个神经网络,可以在线训练以自适应地学习特征,并在跟踪过程中使用所有过去的跟踪信息。此外,我们还介绍了一个专为所提出的基于持续学习的跟踪而设计的两阶段关联模块。大量实验结果表明,所提出的方法在 MOT17 和 MOT20 基准测试中实现了最先进的在线跟踪性能。代码将在接收后发布。  
2024-09-12 Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters link 在医学显微图像分类 (MIC) 领域,基于 CNN 和 Transformer 的模型已被广泛研究。然而,CNN 难以建模远程依赖关系,限制了其充分利用图像语义信息的能力。相反,Transformer 则受到二次计算复杂性的阻碍。为了解决这些挑战,我们提出了一种基于 Mamba 架构的模型:Microscopic-Mamba。具体来说,我们设计了部分选择前馈网络(PSFFN)来替换视觉状态空间模块(VSSM)的最后一个线性层,增强了 Mamba 的局部特征提取能力。此外,我们引入了调制交互特征聚合(MIFA)模块,以有效地调制和动态聚合全局和局部特征。我们还结合了并行 VSSM 机制,以改善通道间的信息交互,同时减少参数数量。大量实验表明,我们的方法在五个公共数据集上实现了最先进的性能。代码可在 https://github.com/zs1314/Microscopic-Mamba 获取。  
2024-09-12 What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector null 本研究全面分析了 YOLOv9 对象检测模型,重点关注其架构创新、训练方法以及相较于先前版本的性能改进。关键的改进,例如广义高效层聚合网络 (GELAN) 和可编程梯度信息 (PGI),显著增强了特征提取和梯度流,从而提高了准确性和效率。通过结合深度卷积和轻量级 C3Ghost 架构,YOLOv9 在保持高精度的同时降低了计算复杂度。在 Microsoft COCO 上的基准测试表明,它具有优越的平均精度均值 (mAP) 和更快的推理时间,在多个指标上优于 YOLOv8。该模型的多功能性体现在它可以无缝部署到从边缘设备到高性能 GPU 的各种硬件平台上,并内置支持 PyTorch 和 TensorRT 集成。本文首次深入探讨了 YOLOv9 的内部特征及其在现实世界中的适用性,将其确立为跨行业的实时对象检测的最新解决方案,从物联网设备到大型工业应用。  
2024-09-12 Mesh-based Super-Resolution of Fluid Flows with Multiscale Graph Neural Networks null 这项工作介绍了一种图神经网络 (GNN) 方法,能够对流体流动进行基于网格的三维超分辨率重建。在此框架中,GNN 的设计不是一次性在整个基于网格的场上运行,而是直接在局部元素(或单元)网格上运行。为了以类似于谱(或有限)元素离散化的方式促进基于网格的 GNN 表示,修改了基线 GNN 层(称为消息传递层,用于更新局部节点属性)以考虑重合图节点的同步,从而使其与常用的基于元素的网格连接兼容。该架构本质上是多尺度的,由粗尺度和细尺度消息传递层序列(称为处理器)组合而成,这些序列之间通过图解池层进行分离。粗尺度处理器使用粗尺度同步消息传递在元素邻域上将查询元素(以及一组相邻的粗元素)嵌入到单个潜在图表示中,而细尺度处理器利用此潜在图上的其他消息传递操作来校正插值误差。使用来自雷诺数为 1600 和 3200 的泰勒-格林涡流模拟的六面体网格数据进行演示研究。通过分析全局和局部误差,结果最终表明,与粗尺度和多尺度模型配置中的目标相比,GNN 如何能够生成准确的超分辨率场。发现固定架构的重建误差与雷诺数成正比,而包含周围粗元素邻居被发现可以改善 Re=1600 时的预测,但在 Re=3200 时则不然。  
2024-09-12 DFDG: Data-Free Dual-Generator Adversarial Distillation for One-Shot Federated Learning null 联邦学习 (FL) 是一种分布式机器学习方案,其中客户端通过共享模型信息而不是其私有数据集来共同参与全局模型的协作训练。考虑到与通信和隐私相关的担忧,具有一轮通信的单次联邦学习已成为事实上的有希望的解决方案。然而,现有的单次联邦学习方法要么需要公共数据集,要么侧重于模型同构设置,要么从本地模型中提取的知识有限,这使得训练鲁棒的全局模型变得困难甚至不切实际。为了解决这些限制,我们提出了一种新的用于单次联邦学习的无数据双生成器对抗蒸馏方法 (即 DFDG),该方法可以通过训练双生成器来探索更广泛的本地模型训练空间。DFDG 以对抗方式执行,包括两部分:双生成器训练和双模型蒸馏。在双生成器训练中,我们深入研究了每个生成器在保真度、可迁移性和多样性方面的内容,以确保其效用,并额外定制了交叉散度损失以减少双生成器输出空间的重叠。在双模型蒸馏中,训练好的双生成器协同工作,为全局模型的更新提供训练数据。最后,我们对各种图像分类任务的广泛实验表明,与 SOTA 基线相比,DFDG 在准确性方面取得了显着的性能提升。  
2024-09-12 Cooperative Inference with Interleaved Operator Partitioning for CNNs null 将深度学习模型部署在物联网(IoT)设备上通常会面临内存资源和计算能力有限的挑战。协同推理是解决这一问题的重要方法,需要对智能模型进行分区和分布式部署。为了执行水平分区,现有的协同推理方法要么采用算子的输出通道,要么采用特征图的高度和宽度作为分区维度。在这种方式下,由于算子的激活是分布式的,因此必须将它们连接在一起,然后才能将其馈送到下一个算子,这会导致协同推理的延迟。在本文中,我们为CNN模型提出了交错算子分区(IOP)策略。通过基于输出通道维度对一个算子进行分区,并基于输入通道维度对其后续算子进行分区,可以避免激活连接,从而减少通信连接的数量,从而减少协同推理延迟。基于IOP,我们进一步提出了一种模型分割算法,用于最小化协同推理时间,该算法根据获得的推理延迟收益,贪婪地选择用于IOP配对的算子。实验结果表明,与CoEdge中使用的最先进的分区方法相比,IOP策略在三个经典图像分类模型上实现了6.39%~16.83%的加速,并将峰值内存占用减少了21.22%~49.98%。  
2024-09-11 Minimizing Embedding Distortion for Robust Out-of-Distribution Performance null 基于庞大且多样化数据集训练的基础模型在各种零样本任务中展现出跨不同领域和分布泛化的非凡能力。我们的工作解决了在通过微调使基础模型适应特定下游任务时,如何保留这些强大的泛化能力的挑战。为此,我们引入了一种名为“相似性损失”的新方法,它可以融入到任何任务的微调过程中。通过最小化微调嵌入与预训练嵌入之间的扭曲,我们的方法在特定任务适应和保持广泛泛化能力之间取得了平衡。我们在两个不同的任务上评估了我们的方法:卫星图像的图像分类和人脸识别,重点关注开放类别和领域迁移场景,以评估分布外 (OOD) 性能。我们证明,这种方法在保持强大的分布内 (ID) 性能的同时,显著提高了 OOD 性能。  
2024-09-11 ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers link Transformer在基于视觉的目标检测问题上表现出具有竞争力的精度。然而,由于注意力权重的平方大小,它们需要相当大的计算资源。在这项工作中,我们建议根据输入信息熵对transformer输入进行聚类。这样做的原因是,每个像素的自信息(其总和为熵)在对应于同一对象的像素之间可能是相似的。聚类减少了作为transformer输入的数据量,因此减少了训练时间和GPU内存使用量,同时保留了要传递到网络其余部分的有意义信息。建议的过程组织在一个名为ENACT的模块中,该模块可以插入任何在其编码器中包含多头自注意力计算的transformer架构。我们使用COCO目标检测数据集和三个检测transformer进行了广泛的实验。获得的结果表明,在所有测试案例中,所需的计算资源都持续减少,而检测任务的精度仅略有下降。ENACT模块的代码将在https://github.com/GSavathrakis/ENACT上提供。  
2024-09-11 A Contrastive Symmetric Forward-Forward Algorithm (SFFA) for Continual Learning Tasks null 所谓的“正向-正向算法”(FFA) 近期作为一种替代传统神经网络学习中反向传播算法的新方法获得了关注,在各种建模任务中展现出具有竞争力的性能。通过用两次对比正向传递代替梯度反向传播的反向传递,FFA 通过启用逐层训练启发式方法,避免了其前身所经历的几个缺点(例如梯度消失/爆炸)。在分类任务中,这种对比方法已被证明可以有效地创建输入数据的潜在稀疏表示,最终有利于区分性。然而,由于正负数据之间损失函数的不平衡,FFA 表现出固有的不对称梯度行为,这会对模型的泛化能力产生负面影响并导致准确性下降。为了解决这个问题,这项工作提出了对称正向-正向算法 (SFFA),这是对原始 FFA 的一种新颖改进,它将每一层划分为正神经元和负神经元。这允许将局部适应度函数定义为正神经元激活与整体层活动之间的比率,从而在训练阶段产生对称的损失情况。为了评估我们方法增强的收敛性,我们使用多个图像分类基准进行了多项实验,比较了使用 SFFA 训练的模型与其使用 FFA 训练的模型的准确性。作为这种重新表述的副产品,我们探索了将逐层训练算法用于持续学习 (CL) 任务的优势。逐层训练算法引起的神经元特化及其激活的稀疏性使得能够实现有效的 CL 策略,将新知识(类别)整合到神经网络中,同时防止灾难性地遗忘先前…  
2024-09-11 Three-Dimensional, Multimodal Synchrotron Data for Machine Learning Applications link Machine learning techniques are being increasingly applied in medical and physical sciences across a variety of imaging modalities; however, an important issue when developing these tools is the availability of good quality training data. Here we present a unique, multimodal synchrotron dataset of a bespoke zinc-doped Zeolite 13X sample that can be used to develop advanced deep learning and data fusion pipelines. Multi-resolution micro X-ray computed tomography was performed on a zinc-doped Zeolite 13X fragment to characterise its pores and features, before spatially resolved X-ray diffraction computed tomography was carried out to characterise the homogeneous distribution of sodium and zinc phases. Zinc absorption was controlled to create a simple, spatially isolated, two-phase material. Both raw and processed data is available as a series of Zenodo entries. Altogether we present a spatially resolved, three-dimensional, multimodal, multi-resolution dataset that can be used for the development of machine learning techniques. Such techniques include development of super-resolution, multimodal data fusion, and 3D reconstruction algorithm development.  
2024-09-10 A comprehensive study on Blood Cancer detection and classification using Convolutional Neural Network null 多年来,在目标检测领域,一些高效的卷积神经网络 (CNN),如 DenseNet201、InceptionV3、ResNet152v2、SEresNet152、VGG19、Xception 因其性能而备受关注。此外,CNN 范式已经扩展到从原始 CNN 架构进行迁移学习和集成模型。研究表明,迁移学习和集成模型能够提高深度学习 (DL) 模型的准确性。然而,很少有研究利用这些技术对血液恶性肿瘤进行检测和定位的综合实验。意识到这一差距,本研究进行了三个实验;在第一个实验中,使用了六个原始 CNN,在第二个实验中,使用了迁移学习,在第三个实验中,开发了一个新的集成模型 DIX(DenseNet201、InceptionV3 和 Xception)来检测和分类血癌。统计结果表明,DIX 的性能优于原始模型和迁移学习,准确率达到 99.12%。然而,这项研究也提供了一个关于迁移学习的负面结果,因为迁移学习并没有提高原始 CNN 的准确性。与许多其他癌症一样,血癌疾病需要及时识别,才能制定有效的治疗方案并提高生存机会。使用 CNN 检测和分类血癌的高精度表明,CNN 模型在血癌检测中很有前景。这项研究在生物医学工程、计算机辅助疾病诊断和基于机器学习的疾病检测领域具有重要意义。  
2024-09-10 Lightweight Multiscale Feature Fusion Super-Resolution Network Based on Two-branch Convolution and Transformer null 目前,深度学习下的单图像超分辨率(SISR)算法主要有两大模型,一种是基于卷积神经网络的模型,另一种是基于Transformer的模型。前者采用不同卷积核大小的卷积层堆叠的方式来设计模型,使得模型能够更好地提取图像的局部特征;后者采用自注意力机制来设计模型,通过自注意力机制可以让模型建立图像像素点之间的长距离依赖关系,进而更好地提取图像的全局特征。然而,上述两种方法都面临着自己的问题。基于此,本文提出了一种基于双向互补卷积和Transformer的新型轻量级多尺度特征融合网络模型,该模型通过双分支网络架构,融合Transformer和卷积神经网络各自的特点,实现全局和局部信息的相互融合。同时,考虑到深度神经网络训练的低像素图像造成的局部信息丢失,本文设计了一种多阶段特征补充的模块化连接方式,将模型浅层阶段提取的特征图与模型深层阶段提取的特征图进行融合,以最大限度地减少特征图像中信息的丢失,有利于图像的复原,便于获得更高质量的复原图像。最终的实践结果表明,与其他参数量相同的轻量级模型相比,本文提出的模型在图像恢复性能方面是最优的。  
2024-09-10 Transtreaming: Adaptive Delay-aware Transformer for Real-time Streaming Perception null 实时目标检测对于许多现实应用(如自动驾驶中的防撞和路径规划)的决策过程至关重要。本研究提出了一种创新的实时流感知方法 Transtreaming,它解决了具有动态计算延迟的实时目标检测挑战。Transtreaming 的核心创新在于其自适应延迟感知转换器,它可以同时预测多个未来帧并选择与现实世界当前时间最匹配的输出,从而补偿任何系统引起的计算延迟。即使在单帧检测场景中,所提出的模型也通过利用基于转换器的方法优于现有的最先进方法。它在从强大的 V100 到适度的 2080Ti 的各种设备上均表现出强大的性能,在所有平台上都实现了最高水平的感知精度。与大多数难以在功能较弱的设备上在一帧内完成计算的最先进方法不同,Transtreaming 可以满足各种设备上的严格实时处理要求。实验结果强调了该系统的适应性和其显着提高许多现实系统(如自动驾驶)的安全性和可靠性的潜力。  
2024-09-10 Semi-Supervised 3D Object Detection with Chanel Augmentation using Transformation Equivariance null 对于自动驾驶汽车和机器人来说,精确的三维物体检测对于其安全有效地导航和与环境交互至关重要。同时,三维检测器的性能依赖于数据规模和标注,而这通常成本高昂。因此,使用有限的标注数据进行训练的需求日益增长。本文探索了一种新颖的师生框架,该框架采用通道增强技术进行三维半监督目标检测。师生SSL通常对教师和学生分别采用弱增强和强增强。在本工作中,我们使用变换等变检测器(TED)对两个网络应用了多通道增强。TED使我们能够探索点云上增强的不同组合,并有效地聚合多通道变换等变特征。原则上,通过对教师网络采用固定的通道增强,学生可以在可靠的伪标签上稳定地训练。采用强通道增强可以丰富数据的多样性,增强对变换的鲁棒性,提高学生网络的泛化性能。我们使用SOTA层次监督作为基线,并将其双阈值调整到TED,称为通道IoU一致性。我们使用KITTI数据集对我们的方法进行了评估,取得了显著的性能提升,超越了SOTA三维半监督目标检测模型。  
2024-09-10 Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm null 梯度下降 (GD) 和随机梯度下降 (SGD) 已广泛应用于众多应用领域。因此,理解 GD 的动力学并提高其收敛速度仍然非常重要。本文根据梯度流不同阶段的终端吸引子,仔细分析了 GD 的动力学。基于终端滑模理论和终端吸引子理论,设计了四种自适应学习率。并通过详细的理论研究考察了它们的性能,并对学习过程的运行时间进行了评估和比较。此外,还详细研究了它们学习过程的总时间。为了评估其有效性,在函数逼近问题和图像分类问题上对各种仿真结果进行了研究。  
2024-09-10 Knowledge Distillation via Query Selection for Detection Transformer null Transformer 通过引入 DETR 为目标检测领域带来了革命性的变化,DETR 以其简洁性和有效性而备受赞誉。尽管有这些优势,但这些模型的庞大规模对其在实际部署中,尤其是在资源受限的环境中,提出了重大挑战。本文利用知识蒸馏技术解决了压缩 DETR 的挑战,该技术有望在保持模型性能的同时减小模型规模。DETR 性能的一个关键方面是它们依赖查询来准确解释对象表示。传统的蒸馏方法通常只关注通过二分匹配识别的正查询,而忽略了硬负查询中存在的信息。我们的视觉分析表明,关注前景元素的硬负查询对于增强蒸馏结果至关重要。为此,我们引入了一种新颖的组查询选择策略,该策略通过根据查询与真实对象的广义交并比 (GIoU) 对查询进行分段,从而发现有价值的硬负查询用于蒸馏,这与 DETR 蒸馏中的传统查询选择不同。此外,我们提出了基于查询选择的 DETR 知识蒸馏 (QSKD) 框架,该框架结合了注意力引导特征蒸馏 (AGFD) 和局部对齐预测蒸馏 (LAPD)。这些组件通过关注教师模型中间特征和输出中最有信息的部分来优化蒸馏过程。我们对 MS-COCO 数据集的综合实验评估证明了我们方法的有效性,在不增加大量计算成本的情况下,显着提高了各种 DETR 架构的平均精度 (AP)。具体来说,Conditional DETR ResNet-18 的 AP 从 35.8 提高到 39.9。  
2024-09-10 Seam Carving as Feature Pooling in CNN null 这项工作研究了将接缝裁剪作为卷积神经网络 (CNN) 中的一种特征池化技术用于图像分类任务的潜力。我们建议用接缝裁剪操作替换传统的最大池化层。我们在 Caltech-UCSD Birds 200-2011 数据集上进行的实验表明,基于接缝裁剪的 CNN 与采用最大池化的模型相比,在准确率、精确率、召回率和 F1 分数等指标上均取得了更好的性能。我们通过特征图可视化进一步分析了这两种方法的行为,表明接缝裁剪在池化过程中可能保留了更多结构信息。此外,我们还讨论了我们方法的局限性,并提出了未来研究的潜在方向。  
2024-09-10 An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open Detection null 通过语言检测感兴趣的对象经常会遇到挑战,特别是对于那些不常见或难以描述的对象,因为自动化模型和人类标注者之间存在感知差异。这些挑战凸显了对综合数据集的需求,这些数据集需要超越标准的对象标签,并结合详细的属性描述。为了满足这一需求,我们引入了 Objects365-Attr 数据集,它是对现有 Objects365 数据集的扩展,其特点是具有属性标注。该数据集通过整合广泛的属性(包括颜色、材质、状态、纹理和色调)来减少对象检测中的不一致性。它包含 560 万个对象级属性描述的扩展集合,这些描述在 140 万个边界框中进行了精心标注。此外,为了验证数据集的有效性,我们对不同规模的 YOLO-World 进行了严格的评估,测量了它们的检测性能,并展示了该数据集对推进对象检测的贡献。  
2024-09-09 Replay Consolidation with Label Propagation for Continual Object Detection null 目标检测是一个与机器人技术和自动驾驶等许多应用高度相关的计算机视觉问题。持续学习 (CL) 考虑的是模型在保留先前获得的知识的同时逐步学习新信息的设置。这尤其具有挑战性,因为深度学习模型在训练新数据时往往会灾难性地忘记旧知识。特别是,与用于分类的持续学习相比,用于目标检测的持续学习 (CLOD) 带来了额外的困难。在 CLOD 中,来自先前任务的图像可能包含未知的类别,这些类别可能会在未来的任务中重新出现并被标记。这些缺失的注释会导致基于重放的方法出现任务干扰问题。因此,文献中的大多数工作都集中在基于蒸馏的方法上。然而,这些方法只有在不同任务之间存在强大的类别重叠时才有效。为了解决当前方法的问题,我们提出了一种解决 CLOD 的新技术,称为用于目标检测的标签传播重放整合 (RCLPOD)。基于重放方法,我们的解决方案通过增强缓冲区内存样本来避免任务干扰问题。我们的方法在 CLOD 文献中的现有技术基础上进行了评估,证明了其在 VOC 和 COCO 等既定基准测试中的优越性能。  
2024-09-09 LEROjD: Lidar Extended Radar-Only Object Detection link 对于自动驾驶而言,精确的三维物体检测至关重要。激光雷达传感器非常适合这项任务,但它们价格昂贵,并且在恶劣天气条件下存在局限性。3+1D 成像雷达传感器提供了一种经济高效且稳健的替代方案,但由于其分辨率低和测量噪声高而面临挑战。现有的 3+1D 成像雷达数据集包括雷达和激光雷达数据,可以改进跨模态模型。尽管不应在推理过程中使用激光雷达,但它可以帮助训练仅使用雷达的物体检测器。我们探索了两种将知识从激光雷达域迁移到雷达域和仅使用雷达的物体检测器的策略:1. 使用顺序激光雷达点云细化的多阶段训练,以及 2. 跨模态知识蒸馏。在多阶段过程中,我们研究了三种细化方法。我们的结果表明,通过多阶段训练,平均精度 (mAP) 显着提高了 4.2 个百分点,通过使用教师模型的权重初始化学生模型进行知识蒸馏,平均精度提高了 3.9 个百分点。这些方法的主要优点是它们适用于其他 3D 物体检测网络,而无需改变其架构,正如我们通过在两个不同的物体检测器上进行分析所展示的那样。我们的代码可在 https://github.com/rst-tu-dortmund/lerojd 获取。  
2024-09-08 Can OOD Object Detectors Learn from Foundation Models? link Out-of-distribution (OOD) object detection is a challenging task due to the absence of open-set OOD data. Inspired by recent advancements in text-to-image generative models, such as Stable Diffusion, we study the potential of generative models trained on large-scale open-set data to synthesize OOD samples, thereby enhancing OOD object detection. We introduce SyncOOD, a simple data curation method that capitalizes on the capabilities of large foundation models to automatically extract meaningful OOD data from text-to-image generative models. This offers the model access to open-world knowledge encapsulated within off-the-shelf foundation models. The synthetic OOD samples are then employed to augment the training of a lightweight, plug-and-play OOD detector, thus effectively optimizing the in-distribution (ID)/OOD decision boundaries. Extensive experiments across multiple benchmarks demonstrate that SyncOOD significantly outperforms existing methods, establishing new state-of-the-art performance with minimal synthetic data usage.  
2024-09-08 Visual Grounding with Multi-modal Conditional Adaptation link Visual grounding is the task of locating objects specified by natural language expressions. Existing methods extend generic object detection frameworks to tackle this task. They typically extract visual and textual features separately using independent visual and textual encoders, then fuse these features in a multi-modal decoder for final prediction. However, visual grounding presents unique challenges. It often involves locating objects with different text descriptions within the same image. Existing methods struggle with this task because the independent visual encoder produces identical visual features for the same image, limiting detection performance. Some recently approaches propose various language-guided visual encoders to address this issue, but they mostly rely solely on textual information and require sophisticated designs. In this paper, we introduce Multi-modal Conditional Adaptation (MMCA), which enables the visual encoder to adaptively update weights, directing its focus towards text-relevant regions. Specifically, we first integrate information from different modalities to obtain multi-modal embeddings. Then we utilize a set of weighting coefficients, which generated from the multimodal embeddings, to reorganize the weight update matrices and apply them to the visual encoder of the visual grounding model. Extensive experiments on four widely used datasets demonstrate that MMCA achieves significant improvements and state-of-the-art results. Ablation experiments further demonstrate the lightweight and efficiency of our method. Our source code is available at: https://github.com/Mr-Bigworth/MMCA.  
2024-09-08 RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network null Perceiving the surrounding environment is a fundamental task in autonomous driving. To obtain highly accurate perception results, modern autonomous driving systems typically employ multi-modal sensors to collect comprehensive environmental data. Among these, the radar-camera multi-modal perception system is especially favored for its excellent sensing capabilities and cost-effectiveness. However, the substantial modality differences between radar and camera sensors pose challenges in fusing information. To address this problem, this paper presents RCBEVDet, a radar-camera fusion 3D object detection framework. Specifically, RCBEVDet is developed from an existing camera-based 3D object detector, supplemented by a specially designed radar feature extractor, RadarBEVNet, and a Cross-Attention Multi-layer Fusion (CAMF) module. Firstly, RadarBEVNet encodes sparse radar points into a dense bird’s-eye-view (BEV) feature using a dual-stream radar backbone and a Radar Cross Section aware BEV encoder. Secondly, the CAMF module utilizes a deformable attention mechanism to align radar and camera BEV features and adopts channel and spatial fusion layers to fuse them. To further enhance RCBEVDet’s capabilities, we introduce RCBEVDet++, which advances the CAMF through sparse fusion, supports query-based multi-view camera perception models, and adapts to a broader range of perception tasks. Extensive experiments on the nuScenes show that our method integrates seamlessly with existing camera-based 3D perception models and improves their performance across various perception tasks. Furthermore, our method achieves state-of-the-art radar-camera fusion results in 3D object detection, BEV semantic segmentation, and 3D multi-object tracking tasks. Notably, with ViT-L as the image backbone, RCBEVDet++ achieves 72.73 NDS and 67.34 mAP in 3D object detection without test-time augmentation or model ensembling.  
2024-09-08 PatchAlign:Fair and Accurate Skin Disease Image Classification by Alignment with Clinical Labels link 深度学习模型在皮肤病变诊断自动化方面取得了巨大成功。然而,在部署这些模型之前,需要解决其预测中存在的种族差异问题。我们介绍了一种名为 PatchAlign 的新方法,通过与皮肤病临床文本表征对齐来提高皮肤病图像分类的准确性和公平性。PatchAlign 使用图最优传输 (GOT) 损失作为正则化器来执行跨域对齐。即使在训练样本有限的情况下,获得的表征也是稳健的,并且可以很好地泛化到不同的肤色。为了减少临床皮肤病图像中噪声和伪影的影响,我们提出了一种可学习的掩码图最优传输,用于跨域对齐,进一步改善了公平性指标。我们在两个具有不同皮肤类型的皮肤病变数据集上将我们的模型与最先进的 FairDisCo 进行了比较:Fitzpatrick17k 和 Diverse Dermatology Images (DDI)。与 FairDisCo 相比,PatchAlign 在 Fitzpatrick17k 上将皮肤病图像分类的准确性提高了 2.8%(域内)和 6.2%(跨域),在 DDI 上提高了 4.2%(域内)。此外,它持续改善了不同肤色真实阳性率的公平性。用于实现的源代码可在以下 GitHub 存储库中获取:https://github.com/aayushmanace/PatchAlign24,可以轻松复现和进一步试验。  
2024-09-07 Activation Function Optimization Scheme for Image Classification link Activation function has a significant impact on the dynamics, convergence, and performance of deep neural networks. The search for a consistent and high-performing activation function has always been a pursuit during deep learning model development. Existing state-of-the-art activation functions are manually designed with human expertise except for Swish. Swish was developed using a reinforcement learning-based search strategy. In this study, we propose an evolutionary approach for optimizing activation functions specifically for image classification tasks, aiming to discover functions that outperform current state-of-the-art options. Through this optimization framework, we obtain a series of high-performing activation functions denoted as Exponential Error Linear Unit (EELU). The developed activation functions are evaluated for image classification tasks from two perspectives: (1) five state-of-the-art neural network architectures, such as ResNet50, AlexNet, VGG16, MobileNet, and Compact Convolutional Transformer which cover computationally heavy to light neural networks, and (2) eight standard datasets, including CIFAR10, Imagenette, MNIST, Fashion MNIST, Beans, Colorectal Histology, CottonWeedID15, and TinyImageNet which cover from typical machine vision benchmark, agricultural image applications to medical image applications. Finally, we statistically investigate the generalization of the resultant activation functions developed through the optimization scheme. With a Friedman test, we conclude that the optimization scheme is able to generate activation functions that outperform the existing standard ones in 92.8% cases among 28 different cases studied, and $-x\cdot erf(e^{-x})$ is found to be the best activation function for image classification generated by the optimization scheme.  
2024-09-07 SSFam: Scribble Supervised Salient Object Detection Family link Scribble supervised salient object detection (SSSOD) constructs segmentation ability of attractive objects from surroundings under the supervision of sparse scribble labels. For the better segmentation, depth and thermal infrared modalities serve as the supplement to RGB images in the complex scenes. Existing methods specifically design various feature extraction and multi-modal fusion strategies for RGB, RGB-Depth, RGB-Thermal, and Visual-Depth-Thermal image input respectively, leading to similar model flood. As the recently proposed Segment Anything Model (SAM) possesses extraordinary segmentation and prompt interactive capability, we propose an SSSOD family based on SAM, named SSFam, for the combination input with different modalities. Firstly, different modal-aware modulators are designed to attain modal-specific knowledge which cooperates with modal-agnostic information extracted from the frozen SAM encoder for the better feature ensemble. Secondly, a siamese decoder is tailored to bridge the gap between the training with scribble prompt and the testing with no prompt for the stronger decoding ability. Our model demonstrates the remarkable performance among combinations of different modalities and refreshes the highest level of scribble supervised methods and comes close to the ones of fully supervised methods. https://github.com/liuzywen/SSFam  
2024-09-07 SpotActor: Training-Free Layout-Controlled Consistent Image Generation null Text-to-image diffusion models significantly enhance the efficiency of artistic creation with high-fidelity image generation. However, in typical application scenarios like comic book production, they can neither place each subject into its expected spot nor maintain the consistent appearance of each subject across images. For these issues, we pioneer a novel task, Layout-to-Consistent-Image (L2CI) generation, which produces consistent and compositional images in accordance with the given layout conditions and text prompts. To accomplish this challenging task, we present a new formalization of dual energy guidance with optimization in a dual semantic-latent space and thus propose a training-free pipeline, SpotActor, which features a layout-conditioned backward update stage and a consistent forward sampling stage. In the backward stage, we innovate a nuanced layout energy function to mimic the attention activations with a sigmoid-like objective. While in the forward stage, we design Regional Interconnection Self-Attention (RISA) and Semantic Fusion Cross-Attention (SFCA) mechanisms that allow mutual interactions across images. To evaluate the performance, we present ActorBench, a specified benchmark with hundreds of reasonable prompt-box pairs stemming from object detection datasets. Comprehensive experiments are conducted to demonstrate the effectiveness of our method. The results prove that SpotActor fulfills the expectations of this task and showcases the potential for practical applications with superior layout alignment, subject consistency, prompt conformity and background diversity.  
2024-09-07 LoCa: Logit Calibration for Knowledge Distillation null Knowledge Distillation (KD), aiming to train a better student model by mimicking the teacher model, plays an important role in model compression. One typical way is to align the output logits. However, we find a common issue named mis-instruction, that the student would be misled when the predictions based on teacher logits do not follow the labels. Meanwhile, there is other useful dark knowledge in the logits such as the class discriminability, which is vital for distillation. In this paper, we propose a simple yet effective Logit Calibration (LoCa) method, which calibrates the logits from the teacher model based on the ground-truth labels. The key insight is to correct the prediction (to address the mis-instruction issue) and maintain useful dark knowledge simultaneously. Our proposed LoCa does not require any additional parameters. Empirical results on image classification and text generation tasks demonstrate that LoCa can effectively improve the performance of baselines.  
2024-09-05 Use of triplet loss for facial restoration in low-resolution images null 近年来,人脸识别 (FR) 模型已成为应用最广泛的生物识别工具,在众多数据集上取得了令人瞩目的成果。然而,硬件的固有挑战或拍摄距离 often 导致低分辨率图像,这会严重影响人脸识别模型的性能。为了解决这个问题,人们提出了几种解决方案,包括生成高度逼真的人脸的超分辨率 (SR) 模型。尽管做出了这些努力,但人脸识别算法并未取得显著改进。我们提出了一种新颖的超分辨率模型 FTLGAN,它侧重于生成保留个人身份的高分辨率图像,而不仅仅是提高图像质量,从而最大限度地提高人脸识别模型的性能。结果令人信服,表明 d’ 的平均值比当前最先进的模型高出 21%,具体而言,14x14 像素时 d’ = 1.099,AUC = 0.78,28x28 像素时 d’ = 2.112,AUC = 0.92,56x56 像素时 d’ = 3.049,AUC = 0.98。这项研究的贡献在几个关键领域意义重大。首先,在低分辨率图像(特别是 14x14、28x28 和 56x56 像素的分辨率)中,人脸识别性能取得了显着提高。其次,FTLGAN 所展示的增强功能在所有分辨率下都表现出一致的响应,与其他比较模型不同,它始终如一地提供出色的性能。第三,使用三元组损失逻辑实施了一种创新方法,能够仅使用真实图像训练超分辨率模型,这与当前模型形成对比,并扩展了潜在的现实应用。最后,本研究引入了一种新颖的模型,该模型通过在模型训练期间将人脸识别质量作为损失纳入其中,专门解决了提高人脸识别系统分类性能的挑战。  
2024-09-05 Have Large Vision-Language Models Mastered Art History? null 大型视觉语言模型 (VLM) 的出现最近在跨多个领域的图像分类方面建立了新的基准。然而,VLM 在艺术品分类这一特定任务中的表现,特别是绘画艺术风格分类——传统上由艺术史学家掌握的领域——尚未得到探索。与自然图像相比,艺术品由于其固有的复杂性和多样性结构(以多变的构图和风格为特征)而构成了独特的挑战。艺术史学家长期以来一直在研究艺术品的独特方面,而风格预测是其学科的一个重要组成部分。本文研究了集成视觉和文本数据的大型 VLM 是否可以有效地预测绘画的艺术史属性。我们对四种 VLM(即 CLIP、LLaVA、OpenFlamingo 和 GPT-4o)进行了深入分析,重点关注使用两个公共艺术品基准对艺术风格、作者和时间段进行零样本分类。此外,我们还介绍了 ArTest,这是一个精心策划的艺术品测试集,其中包括艺术史学家研究的关键绘画作品。  
2024-09-05 LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution link 近年来,基于视觉Transformer (ViT) 的图像超分辨率方法展现出令人印象深刻的性能。然而,它们存在复杂性高的问题,导致推理时间和内存使用量大。此外,使用窗口自注意力机制(WSA) 的ViT模型在处理窗口区域外的信息时面临挑战。为了解决这些问题,我们提出了低到高多级Transformer (LMLT),它对每个头采用不同特征大小的注意力机制。LMLT 沿通道维度划分图像特征,逐渐减小低层头的空间大小,并对每个头应用自注意力机制。这种方法有效地捕获了局部和全局信息。通过将低层头的结果整合到高层头中,LMLT 克服了自注意力机制中的窗口边界问题。大量实验表明,我们的模型在保持甚至超越最先进的基于 ViT 的图像超分辨率方法的性能的同时,显著减少了推理时间和 GPU 内存使用量。我们的代码可在 https://github.com/jwgdmkj/LMLT 获取。  
2024-09-05 Non-Uniform Illumination Attack for Fooling Convolutional Neural Networks link 卷积神经网络(CNN)虽然取得了显著进步,但仍然容易受到攻击,特别是在面对人类容易识别的微小图像扰动时。这种弱点通常被称为“攻击”,突显了CNN的鲁棒性有限,需要研究如何增强其抵抗此类操纵的能力。本研究介绍了一种新颖的非均匀照明(NUI)攻击技术,该技术使用不同的NUI掩码对图像进行细微 alteration。我们在广泛接受的数据集(包括CIFAR10、TinyImageNet和CalTech256)上进行了大量实验,重点关注12种不同NUI攻击模型的图像分类。评估了VGG、ResNet、MobilenetV3-small和InceptionV3模型对NUI攻击的抵抗力。我们的结果表明,CNN模型在遭受NUI攻击时,分类精度大幅下降,表明它们在非均匀照明下的脆弱性。为了缓解这种情况,我们提出了一种防御策略,将通过新的NUI变换生成的NUI攻击图像包含到训练集中。结果表明,当CNN模型面对受NUI攻击影响的扰动图像时,其性能得到显著提升。该策略旨在增强CNN模型对NUI攻击的抵抗力。  
2024-09-05 Raw Speech Enhancement with Deep State Space Modeling link 我们提出了 aTENNuate,这是一种简单的深度状态空间自编码器,专为高效的在线原始语音增强而配置,采用端到端的方式。该网络的性能主要在原始语音去噪方面进行评估,并在超分辨率和去量化等任务上进行了额外评估。我们在 VoiceBank + DEMAND 和 Microsoft DNS1 合成测试集上对 aTENNuate 进行了基准测试。该网络在 PESQ 分数、参数数量、MAC 和延迟方面优于以前的实时去噪模型。即使作为原始波形处理模型,该模型也能保持对干净信号的高保真度,并且可听见的伪影极少。此外,即使将噪声输入压缩至 4000Hz 和 4 位,该模型仍能保持良好的性能,这表明它在资源受限的环境中具有一般的语音增强能力。  
2024-09-05 Training-free Conversion of Pretrained ANNs to SNNs for Low-Power and High-Performance Applications null 脉冲神经网络 (SNN) 由于其推理速度快、功耗低等优势,已成为人工神经网络 (ANN) 的一种很有前途的替代方案。然而,缺乏有效的训练算法阻碍了它们的广泛应用。现有的 SNN 监督学习算法比 ANN 需要更多的内存和时间。即使是常用的 ANN-SNN 转换方法也需要重新训练 ANN 以提高转换效率,从而产生额外的计算成本。为了应对这些挑战,我们提出了一种新颖的免训练 ANN-SNN 转换流程。我们的方法将预先训练好的 ANN 模型直接转换为高性能 SNN,无需额外的训练。该转换流程包括一个基于局部学习的阈值平衡算法,该算法能够有效地计算最佳阈值并通过通道缩放对阈值进行细粒度调整。我们展示了我们的框架在三个典型的计算机视觉任务中的可扩展性:图像分类、语义分割和目标检测。这展示了其对分类和回归任务的适用性。此外,我们评估了转换后的 SNN 的能耗,证明了它们与传统 ANN 相比具有优越的低功耗优势。我们的免训练算法优于现有方法,突出了其实用性和效率。这种方法通过利用开源预训练 ANN 模型和神经形态硬件简化了 SNN 的部署,从而实现了快速、低功耗的推理,并且性能损失可以忽略不计。  
2024-09-05 YOLO-PPA based Efficient Traffic Sign Detection for Cruise Control in Autonomous Driving null 在自动驾驶系统中高效、准确地检测交通标志至关重要。然而,距离越远,交通标志越小。现有的目标检测算法很难检测到这些小尺寸的标志。此外,车载嵌入式设备的性能限制了检测模型的规模。为了应对这些挑战,本文提出了一种基于 YOLO PPA 的交通标志检测算法。在 GTSDB 数据集上的实验结果表明,与原始 YOLO 相比,该方法将推理效率提高了 11.2%,mAP 50 也提高了 93.2%,证明了所提出的 YOLO PPA 的有效性。  
2024-09-05 PEPL: Precision-Enhanced Pseudo-Labeling for Fine-Grained Image Classification in Semi-Supervised Learning null 细粒度图像分类随着深度学习和计算机视觉技术的出现取得了显著的进步。然而,详细标注的缺乏仍然是一个主要挑战,特别是在获取高质量标记数据的成本高昂或耗时的情况下。为了解决这一限制,我们引入了专为半监督学习框架内的细粒度图像分类设计的精度增强型伪标签(PEPL)方法。我们的方法通过生成高质量的伪标签来利用丰富的未标记数据,这些伪标签通过两个关键阶段逐步细化:初始伪标签生成和语义混合伪标签生成。这些阶段利用类激活图(CAM)来准确估计语义内容并生成细化标签,这些标签捕获了细粒度分类所需的基本细节。通过关注语义级信息,我们的方法有效地解决了标准数据增强和图像混合技术在保留关键细粒度特征方面的局限性。我们在基准数据集上实现了最先进的性能,证明了相对于现有半监督策略的显著改进,在准确性和鲁棒性方面都有显著提升。我们的代码已在https://github.com/TianSuya/SemiFG开源。  
2024-09-05 The AdEMAMix Optimizer: Better, Faster, Older link 基于动量的优化器是众多机器学习应用的核心。这些优化器通常依赖于梯度的指数移动平均 (EMA),它会以指数方式衰减旧梯度对当前梯度的贡献。这是因为梯度是局部的线性近似,当迭代点在损失函数曲面上移动时,旧梯度的相关性会降低。这项工作对使用单个 EMA 来累积过去梯度的做法提出了质疑,并通过经验证明了这种选择可能是次优的:单个 EMA 无法同时对最近的梯度赋予高权重,并对较旧的梯度赋予不可忽略的权重。基于这一观察,我们提出了 AdEMAMix,它是对 Adam 优化器的一种简单修改,它混合了两个 EMA,以更好地利用过去的梯度。我们在语言建模和图像分类方面的实验表明,令人惊讶的是,梯度在数万步内仍然具有相关性。它们有助于更快地收敛,并且通常收敛到更低的最小值:例如,一个在 1010 亿个词符上训练的具有 13 亿个参数的 AdEMAMix LLM 的性能与在一个 1970 亿个词符上训练的 AdamW 模型相当(+95%)。此外,我们的方法显著减缓了训练过程中的模型遗忘。我们的工作鼓励进一步探索利用过去梯度的不同类型的函数,而不仅仅是 EMA。  
2024-09-04 Boundless: Generating Photorealistic Synthetic Data for Object Detection in Urban Streetscapes link 我们介绍Boundless,这是一个用于在密集的城市街景中实现高度准确的目标检测的逼真合成数据生成系统。Boundless可以用自动化和可配置的过程取代大规模的现实世界数据收集和手动地面实况目标注释(标记)。Boundless基于虚幻引擎5 (UE5) 城市示例项目,并进行了改进,能够在不同的照明和场景变化条件下准确收集3D边界框。我们评估了在Boundless生成的数据集上训练的目标检测模型在从中空相机获取的真实数据集上进行推理时的性能。我们将Boundless训练模型的性能与CARLA训练模型的性能进行了比较,观察到7.8 mAP的改进。我们取得的结果支持了合成数据生成是一种可靠的方法,可以用于训练/微调用于城市场景的可扩展目标检测模型。  
2024-09-04 iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation null 基于预训练编码器的完整微调(FFT)和任务特定解码器的迁移学习随着深度模型的指数级增长而变得越来越复杂。使用由小型可学习层组成的适配器的参数高效微调(PEFT)方法已成为 FFT 的替代方案,在保持高训练效率的同时实现了可比的性能。然而,适配器对输入实例的不灵活限制了其在不同下游任务中学习任务特定信息的能力。在本文中,我们提出了一种新的 PEFT 方法,即输入条件化的 Transformer,称为 iConFormer,它利用了以输入实例为条件的动态适配器。为了确保在各种下游任务中对输入实例的灵活学习能力,我们在动态适配器中引入了输入条件化网络(iCoN),从而实现实例级特征转换。具体来说,iCoN 为每个特征生成通道级的卷积核,并使用自适应卷积过程对其进行转换,以有效捕获针对下游任务的任务特定和细粒度细节。实验结果表明,通过仅调整 Transformer 主干参数的 1.6% 到 2.8%,iConFormer 在单目深度估计和语义分割方面实现了与 FFT 相当的性能,同时在图像分类和实例分割方面优于 FFT。此外,所提出的方法在所有上述任务中始终优于最近的 PEFT 方法。  
2024-09-04 Real-Time Dynamic Scale-Aware Fusion Detection Network: Take Road Damage Detection as an example null 基于无人机的道路损坏检测 (RDD) 对城市的日常维护和安全至关重要,特别是在显著降低劳动力成本方面。然而,当前基于无人机的 RDD 研究仍面临许多挑战。例如,形状和方向不规则的损坏、背景对损坏的遮挡以及难以区分损坏和背景,这些因素都显著影响了无人机在日常巡检中检测道路损坏的能力。为了解决这些问题并提高无人机实时道路损坏检测的性能,我们设计并提出了三个相应的模块:一个能够灵活适应形状和背景的特征提取模块;一个融合多尺度感知并适应形状和背景的模块;一个高效的下采样模块。 基于这些模块,我们设计了一种具有自动去除背景干扰能力的多尺度自适应道路损坏检测模型,称为动态尺度感知融合检测模型 (RT-DSAFDet)。在 UAV-PDD2023 公开数据集上的实验结果表明,我们的模型 RT-DSAFDet 的 mAP50 达到了 54.2%,比最新实时目标检测模型 YOLOv10 的高效变体 YOLOv10-m 高 11.1%,而参数量减少到 1.8M,FLOPs 减少到 4.6G,分别降低了 88% 和 93%。此外,在大型通用目标检测公开数据集 MS COCO2017 上也展现了我们模型的优越性,其 mAP50-95 与 YOLOv9-t 相同,但 mAP50 高出 0.5%,参数量减少 10%,FLOPs 减少 40%。  
2024-09-04 Boosting Generalizability towards Zero-Shot Cross-Dataset Single-Image Indoor Depth by Meta-Initialization null 室内机器人的导航或障碍物检测等任务依赖于深度信息,而单图像深度估计被广泛用于辅助感知。大多数室内单图像深度预测较少关注模型对未见数据集的泛化能力,而更关注系统部署的野外鲁棒性。这项工作利用基于梯度的元学习在零样本跨数据集推理中获得更高的泛化能力。与研究最多的、与显式类别标签相关的图像分类元学习不同,对于与物体排列和场景构成方面高度变化的室内环境相关的连续深度值,不存在明确的任务边界。我们提出了细粒度任务,在我们的元学习公式中将每个RGB-D小批量视为一个任务。我们首先展示了我们的方法在有限数据上诱导出更好的先验(RMSE 最高降低 27.8%)。然后,在元学习初始化上进行微调始终优于没有元方法的基线。为了实现泛化,我们提出了零样本跨数据集协议,并验证了由我们的元初始化诱导的更高泛化能力,作为许多现有深度估计方法的简单而有用的插件。深度和元学习交叉领域的工作有可能推动这两项研究更接近实际的机器人和机器感知应用。  
2024-09-03 Site Selection for the Second Flyeye Telescope: A Simulation Study for Optimizing Near-Earth Object Discovery null 欧洲航天局 (ESA) 正在开发一个名为 Flyeye 的广域巡天望远镜网络,以改进近地天体 (NEO) 的发现。该网络中的第一个望远镜将位于北半球的穆法拉山(意大利),而第二个具有增强探测能力的 Flyeye 望远镜刚刚开始关键设计阶段。通过对撞击轨迹上的近地天体进行模拟,研究了第二个 Flyeye 望远镜的潜在位置。对大约 3000 个撞击小行星(绝对星等为 H=25 和 H=28)进行了传播,并测试了主要现有巡天项目(Catalina、Pan-STARRS、ATLAS)、即将投入使用的薇拉·鲁宾天文台 (LSST) 以及 Flyeye 可能选址的可探测性。 考虑了智利、南非和北半球的第二个设施。对于每个天文台,在模拟中都考虑了它们过去或计划的指向策略。在 LSST 部署之前,南半球的一个 Flyeye 的性能与北半球的一个望远镜相似。结合起来,在北方和南方各放置一台望远镜可以最大限度地提高探测率和探测到的独特物体的数量。LSST 之后,南部和北部的 Flyeye 望远镜仍然是互补的。总体而言,模拟表明,无论是在 LSST 之前还是之后,位于南部的第二个 Flyeye 都可以补充位于北部的 Flyeye 望远镜。位于拉西拉的 Flyeye 将利用其优越的大气条件,同时平衡南北半球的资产。  
2024-09-03 K-Origins: Better Colour Quantification for Neural Networks link K-Origins是一种神经网络层,旨在在学习颜色或强度有利时提高基于图像的网络性能。 超过 250 个编码器-解码器卷积网络在 16 位合成数据上进行了训练和测试,结果表明,在两种情况下,K-Origins 提高了语义分割精度:低信噪比下的目标检测,以及分割形状相同但颜色不同的多个目标。 对于每个可训练参数 $w_k$,K-Origins 通过公式 $\textbf{Y}_k = \textbf{X}-\textbf{J}\cdot w_k$ 从输入特征 $\textbf{X}$ 生成输出特征,其中 $\textbf{J}$ 是一个全 1 矩阵。 此外,还训练了具有不同感受野的网络,以根据目标类别的维度确定最佳网络深度,这表明感受野长度应超过目标大小。 通过确保足够的感受野长度并结合 K-Origins,我们可以获得更好的语义网络性能。  
2024-09-03 Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems null 近年来,视觉语言模型(VLM)的快速发展展现出其在图像理解相关应用方面的巨大潜力。本研究探索了最先进的VLM模型在基于视觉的交通工程任务中的应用,例如图像分类和目标检测。图像分类任务包括拥堵检测和裂缝识别,而目标检测任务则用于识别未佩戴头盔的行为。我们应用了开源模型(如CLIP、BLIP、OWL-ViT、Llava-Next)和闭源模型GPT-4o,评估了这些最先进的VLM模型的性能,以利用语言理解能力来完成基于视觉的交通任务。这些任务通过对VLM模型应用零样本提示来完成,因为零样本提示可以在不对任务进行任何训练的情况下执行任务。这消除了对特定任务进行标注数据集或微调的需求。虽然这些模型在图像分类任务中取得了与基准卷积神经网络(CNN)模型相当的结果,但在目标定位任务中仍有改进的空间。因此,本研究对最先进的VLM模型进行了全面评估,突出了这些模型的优势和局限性,可以作为未来改进和广泛实施的基准。  
2024-09-03 A Modern Take on Visual Relationship Reasoning for Grasp Planning null 与现实世界杂乱场景交互对机器人代理提出了若干挑战,这些代理需要理解观察到的物体之间复杂的的空间依赖性,以确定最佳拾取顺序或有效的物体检索策略。 现有的解决方案通常管理简化的场景,并侧重于在初始物体检测阶段之后预测成对物体关系,但往往忽略全局上下文或难以处理冗余和缺失的物体关系。 在这项工作中,我们提出了一种用于抓取规划的视觉关系推理的现代方法。 我们介绍了 D3GD,这是一个新的测试平台,其中包括包含来自 97 个不同类别的多达 35 个物体的分拣场景。 此外,我们还提出了 D3G,这是一种新的基于端到端 transformer 的依赖图生成模型,它可以同时检测物体并生成表示其空间关系的邻接矩阵。 认识到标准指标的局限性,我们首次采用关系平均精度来评估模型性能,进行了广泛的实验基准测试。 获得的结果表明我们的方法是这项任务的最新技术,为机器人操作的未来研究奠定了基础。 我们在 https://paolotron.github.io/d3g.github.io 上公开发布代码和数据集。  
2024-09-03 Compressed learning based onboard semantic compression for remote sensing platforms link 地球观测 (EO) 在创建和维持一个具有弹性和繁荣的社会方面发挥着至关重要的作用,这对所有生命和地球本身都具有深远的影响。卫星、航空平台以及最近的无人机和无人驾驶飞行器等遥感平台都用于 EO。它们收集大量数据,需要将其下传到地球进行进一步处理和分析。这种高吞吐量采集的瓶颈是下行链路带宽。需要以数据为中心的图像压缩解决方案来应对这种海量数据。在这项工作中,通过压缩学习框架研究了语义压缩,该框架仅利用快速和稀疏的矩阵向量乘法来编码数据。相机噪声和通信信道是造成失真的主要来源。然后,完整的语义通信管道由一个学习到的低复杂度压缩矩阵组成,该矩阵作用于噪声相机输出,以在机载生成一个观测向量,该向量通过通信信道下行链路传输,通过展开网络处理,然后馈送到执行必要下游任务的深度学习模型;研究了图像分类。通过使用小波稀疏先验展开 NA-ALISTA 的层来补偿失真。因此,解码是一种根据相机/环境信息和下游任务设计的即插即用方法。用于下游任务的深度学习模型通过端到端方式的损失函数与压缩矩阵和展开网络联合微调。结果表明,在低压缩比的噪声环境中,添加恢复损失以及任务相关损失可以提高下游性能。  
2024-09-03 Latent Distillation for Continual Object Detection at the Edge link 虽然在目标检测文献中存在许多性能卓越的方法,但解决数据分布偏移仍然具有挑战性。持续学习(CL)为这个问题提供了解决方案,使模型能够适应新数据,同时保持对先前数据的性能。这对于边缘设备尤其重要,这些设备在汽车和机器人等动态环境中很常见。在这项工作中,我们解决了目标检测持续学习(CLOD)场景中边缘设备的内存和计算限制。具体来说,(i)我们研究了一种开源、轻量级和快速的检测器 NanoDet 对边缘设备上 CLOD 的适用性,改进了文献中使用的较大架构。此外,(ii)我们提出了一种名为潜在蒸馏(LD)的新型 CL 方法,该方法在不显着影响检测性能的情况下减少了最先进的 CL 方法所需的运算次数和内存。我们的方法使用著名的 VOC 和 COCO 基准测试集进行了验证,与其他蒸馏方法相比,每次模型更新可将蒸馏参数开销减少 74%,将浮点运算(FLOPs)减少 56%。  
2024-09-03 GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection null 鸟瞰图 (BEV) 表示已成为多视图 3D 对象检测的主流范式,展现出令人印象深刻的感知能力。然而,现有方法忽略了 BEV 表示的几何质量,使其处于低分辨率状态,无法恢复场景真实的几何信息。在本文中,我们确定了先前方法受限于低 BEV 表示分辨率的原因,并提出了径向-笛卡尔 BEV 采样 (RC-Sampling),从而能够高效生成高分辨率密集 BEV 表示,而无需复杂的算子。此外,我们设计了一种新颖的盒内标签来替代从激光雷达点生成的传统深度标签。此标签反映了对象的实际几何结构,而不仅仅是它们的表面,将现实世界的几何信息注入 BEV 表示中。此外,结合盒内标签,开发了一种质心感知内部损失 (CAI 损失) 来捕捉对象的细粒度内部几何结构。最后,我们将上述模块集成到一个名为 GeoBEV 的新型多视图 3D 对象检测框架中。在 nuScenes 数据集上的大量实验表明,GeoBEV 实现了最先进的性能,突出了其有效性。  

(<a href=#updated-on-20241204>back to top</a>)

生成模型

Publish Date Title Code Abstract  
2024-12-03 Motion Prompting: Controlling Video Generation with Motion Trajectories null 运动控制对于生成具有表现力和吸引力的视频内容至关重要;然而,大多数现有的视频生成模型主要依赖于文本提示进行控制,这难以捕捉动态动作和时间构成的细微之处。为此,我们训练了一个以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动条件工作相比,这种灵活的表示可以编码任意数量的轨迹,特定对象或全局场景运动,以及时间稀疏运动;由于其灵活性,我们将这种条件称为运动提示。虽然用户可以直接指定稀疏轨迹,但我们也展示了如何将高级用户请求转换为详细的、半密集的运动提示,我们将此过程称为运动提示扩展。我们通过各种应用展示了我们方法的多功能性,包括相机和对象运动控制、“与图像交互”、运动转移和图像编辑。我们的结果展示了涌现行为,例如逼真的物理效果,这表明运动提示在探测视频模型和与未来生成世界模型交互方面的潜力。最后,我们进行了定量评估,开展了用户研究,并展示了强大的性能。视频结果可在我们的网页上获取:https://motion-prompting.github.io/  
2024-12-03 Diffusion-based Visual Anagram as Multi-task Learning link 视觉字谜游戏是指经过翻转或旋转等变换后外观会发生变化的图像。随着扩散模型的出现,通过在反向去噪过程中对多个视图的噪声进行平均,可以生成这种视觉错觉。然而,我们观察到这种方法存在两个关键的失效模式:(i) 概念分离,即不同视图中的概念独立生成,这不能被视为真正的字谜游戏,以及 (ii) 概念支配,即某些概念压倒其他概念。在本研究中,我们将视觉字谜游戏生成问题转化为多任务学习设置,其中不同的视点提示类似于不同的任务,并推导出可同时在不同任务之间良好对齐的去噪轨迹。我们设计的框架核心是两个新引入的技术:(i) 一种反分离优化策略,它促进不同概念之间交叉注意力图的重叠,以及 (ii) 一种噪声向量平衡方法,它自适应地调整不同任务的影响。此外,我们观察到直接平均噪声预测会产生次优性能,因为统计特性可能无法保留,这促使我们推导出一种噪声方差校正方法。大量的定性和定量实验表明,我们的方法在生成跨越不同概念的视觉字谜游戏方面具有优越的能力。  
2024-12-03 FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation null 尽管图像生成模型取得了显著进步,但生成逼真的手部图像仍然是一项持续的挑战,这是由于手部复杂的关节结构、多变的视角以及频繁的遮挡造成的。我们提出了FoundHand,一个用于合成单手和双手图像的大规模特定领域扩散模型。为了训练我们的模型,我们引入了FoundHand-10M,一个带有二维关键点和分割掩码标注的大规模手部数据集。我们的见解是使用二维手部关键点作为通用表示,它既编码了手部关节结构,也编码了相机视角。FoundHand从图像对中学习以捕捉物理上可信的手部关节,原生支持通过二维关键点进行精确控制,并支持外观控制。我们的模型展现了核心功能,包括重新摆放手部姿势、迁移手部外观,甚至合成新视角。这带来了零样本功能,可以修复先前生成的图像中变形的手部,或合成手部视频序列。我们提供了大量的实验和评估,证明了我们方法的最佳性能。  
2024-12-03 SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance null 近期的研究在将多步文本到图像扩散模型蒸馏成单步模型方面取得了 promising 的成果。最先进的有效蒸馏技术,即 SwiftBrushv2 (SBv2),甚至在有限的资源下超过了教师模型的性能。然而,我们的研究表明,由于在变分分数蒸馏(VSD)损失中使用固定的引导尺度,它在处理不同的扩散模型骨干时存在不稳定性。现有单步扩散模型的另一个弱点是不支持负面提示引导,这在实际图像生成中至关重要。本文提出了 SNOOPI,一个旨在通过增强单步扩散模型在训练和推理过程中的引导来解决这些限制的新框架。首先,我们通过 Proper Guidance-SwiftBrush (PG-SB) 有效地增强了训练的稳定性,它采用了一种随机尺度的无分类器引导方法。通过改变两个教师模型的引导尺度,我们拓宽了它们的输出分布,从而得到了更鲁棒的 VSD 损失,使 SB 能够在不同的骨干网络上有效执行,同时保持 competitive 的性能。其次,我们提出了一种名为 Negative-Away Steer Attention (NASA) 的免训练方法,它通过交叉注意力将负面提示整合到单步扩散模型中,以抑制生成图像中不需要的元素。我们的实验结果表明,我们提出的方法在各种指标上显著提高了基线模型的性能。值得注意的是,我们实现了 31.08 的 HPSv2 分数,为单步扩散模型树立了新的 state-of-the-art 基准。  
2024-12-03 AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction null 从单张图像生成可动画人体化身对于各种数字人体建模应用至关重要。现有的3D重建方法通常难以捕捉可动画模型中的精细细节,而用于可控动画的生成方法虽然避免了显式3D建模,但在极端姿势下存在视角不一致和计算效率低下的问题。在本文中,我们利用生成模型的能力生成详细的多视角规范姿态图像,这有助于解决可动画人体重建中的歧义,从而应对这些挑战。然后,我们提出了一种鲁棒的用于不一致图像的3D重建方法,从而在推理过程中实现实时渲染。具体来说,我们采用基于Transformer的视频生成模型来生成多视角规范姿态图像和法线贴图,并在大型视频数据集上进行预训练以提高泛化能力。为了处理视角不一致性,我们将重建问题重新定义为4D任务,并引入了一种使用4D高斯 splatting 的高效3D建模方法。实验表明,我们的方法可以从自然图像中实现逼真的3D人体化身的实时动画,展示了其有效性和泛化能力。  
2024-12-03 Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation null 文本到图像扩散模型的进步使得快速3D内容创建取得了显著进展。一种常见的方法是生成一组对象的多视图图像,然后将其重建为3D模型。然而,这种方法绕过了对象原生3D表示的使用,因此容易出现几何伪影,并且在可控性和操作能力方面受到限制。另一种方法涉及直接生成3D表示的原生3D生成模型。然而,这些模型的分辨率通常有限,导致生成的3D对象质量较低。在这项工作中,我们弥合了直接生成3D表示的方法与从多视图图像重建3D对象的方法之间的质量差距。我们引入了一种名为Sharp-It的多视图到多视图扩散模型,它采用从低质量对象渲染的3D一致的多视图图像集,并丰富其几何细节和纹理。该扩散模型并行作用于多视图集,因为它在生成的视图之间共享特征。然后可以从丰富的多视图集中重建高质量的3D模型。通过利用2D和3D方法的优势,我们的方法为高质量3D内容创建提供了一种高效且可控的方法。我们证明了Sharp-It支持各种3D应用,例如快速合成、编辑和受控生成,同时获得高质量的资产。  
2024-12-03 The effect of priors on Learning with Restricted Boltzmann Machines null 受限玻尔兹曼机(RBM)是一种生成模型,旨在从具有丰富底层结构的数据中学习。在这项工作中,我们探索了一种教师-学生设置,其中学生 RBM 从教师 RBM 生成的示例中学习,重点关注单元先验对学习效率的影响。我们考虑一类参数化的先验,它在连续(高斯)变量和二元变量之间进行插值。这种方法为教师和学生 RBM 建模了各种可能的可见单元、隐藏单元和权重的选择。通过分析贝叶斯最优和失配情况下后验分布的相图,我们证明了三相点的存在,该三相点定义了通过泛化学习所需的临界数据集大小。临界大小受教师属性(以及数据)的强烈影响,但不受学生 RBM 属性的影响。然而,谨慎选择学生先验可以通过扩展所谓的信号检索区域来促进训练,在该区域中机器可以有效地泛化。  
2024-12-03 Unveiling Concept Attribution in Diffusion Models null 扩散模型在根据文本提示生成逼真且高质量的图像方面展现了非凡的能力。然而,训练后的模型仍然是一个黑匣子;我们对其组件在展现诸如物体或风格等概念中的作用知之甚少。最近的研究工作采用因果追踪来定位存储在生成模型中知识的层,但并未展示这些层如何对目标概念做出贡献。在这项工作中,我们从更通用的角度来处理模型可解释性问题,并提出一个问题:“模型组件如何协同工作来展示知识?”。我们采用组件归因法来分解扩散模型,揭示组件如何对某个概念做出贡献。我们的框架允许有效的模型编辑,特别是,我们可以通过移除正向组件来从扩散模型中擦除一个概念,同时保留其他概念的知识。令人惊讶的是,我们还发现存在对某个概念有负面贡献的组件,这在知识定位方法中尚未被发现。实验结果证实了我们的框架所确定的正向和负向组件的作用,描绘了对生成模型进行解释的完整视角。我们的代码可在\url{https://github.com/mail-research/CAD-attribution4diffusion}获取。  
2024-12-03 GerPS-Compare: Comparing NER methods for legal norm analysis null 我们将命名实体识别(NER)应用于德语法律文本的一个特定子类型:规范公共服务行政中行政流程的法律规范。这类文本的分析涉及识别文本中体现公共服务行政专业人员确定的十个类别之一的片段。我们研究并比较了三种执行命名实体识别以检测这些类别的方法:基于规则的系统、深度判别模型和深度生成模型。我们的结果表明,深度判别模型的性能优于基于规则的系统和深度生成模型,后两者表现大致相同,在不同类别中互有胜负。这一 somewhat surprising 结果的主要原因可能是,分析中使用的类别在语义和句法上是异构的,这与更标准的 NER 任务中使用的类别不同。深度判别模型似乎比通用的大型语言模型和设计基于规则的 NER 系统的人类语言学家更能处理这种异构性。  
2024-12-03 Social patch foraging theory in an egalitarian group null 觅食是一种普遍的行为,与单独觅食相比,群体觅食可能带来多种益处,例如集体汇集信息和减少环境不确定性。通常,集体行为的理论模型使用粗粒度表示,或者过于复杂而难以进行分析处理,并且通常不考虑个体代理实现的噪声决策过程。这就需要开发一种机械的、可分析的和随机的框架来研究社会觅食的潜在过程,将微观层面与宏观层面联系起来。基于证据积累框架,我们开发了一个大型平等群体中斑块离开决策的模型。在各种环境统计数据和信息共享机制中,我们能够分析得出最佳代理策略。所考虑的环境统计数据是两个不枯竭的斑块或几个连续枯竭的斑块。社会信息共享机制要么通过观察其他个体的食物奖励,要么通过信念共享,包括连续共享、脉冲式观察其他个体的离开或到达,或通过计算斑块中的个体数量。在所有这些条件下,我们量化了群体随着时间的推移是如何凝聚的,代理平均在一个斑块中花费多少时间,以及它们的群体平衡动态是什么。我们发现,社会耦合在各种环境统计数据中强烈地调节着这些特征。这个通用的建模框架对于设计社会觅食实验和生成可检验的假设至关重要。此外,该框架可以扩展到具有等级关系的群体。  
2024-11-29 Input-Output Optics as a Causal Time Series Mapping: A Generative Machine Learning Solution null 多体量子系统对光脉冲的响应建模极具挑战性。本文探讨了使用传统和生成神经网络从数据中学习并模拟此类系统响应的方法。量子系统可以被视为执行从输入时间序列(光脉冲)到输出时间序列(系统响应)的复杂映射,该响应通常也是光脉冲。我们以横向和非可积伊辛模型为例,表明时间卷积网络不仅可以捕获系统生成的输入/输出映射,还可以用于表征映射的复杂性。这种复杂性的度量由能够准确建模映射的最小潜在空间的大小提供。我们进一步发现,生成模型,特别是变分自动编码器,在学习多体量子系统的复杂响应方面明显优于传统的自动编码器。对于生成最复杂映射的示例,变分自动编码器在我们测试数据中超过90%的输入产生的输出误差小于10%。  
2024-11-29 MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks null 近年来,受去噪扩散模型和大型语言模型等生成模型的启发,人体运动分析取得了显著进展。然而,现有方法主要集中在根据文本描述生成运动,而忽略了其逆向任务。在本文中,我们提出了MoTe,一个统一的多模态模型,它通过同时学习运动和文本的边缘、条件和联合分布来处理各种任务。MoTe使我们能够通过简单地修改输入上下文来处理配对的文本-运动生成、运动描述和文本驱动的运动生成。具体来说,MoTe由三个组件组成:运动编码器-解码器(MED)、文本编码器-解码器(TED)和运动-文本扩散模型(MTDM)。其中,MED和TED分别用于提取潜在嵌入,并从提取的嵌入中重建运动序列和文本描述。另一方面,MTDM对输入上下文执行迭代去噪过程以处理不同的任务。在基准数据集上的实验结果表明,我们提出的方法在文本到运动生成方面表现出色,在运动描述方面也具有竞争力。  
2024-11-29 Riemannian Denoising Score Matching for Molecular Structure Optimization with Accurate Energy null 本研究介绍了一种改进的分数匹配方法,旨在生成具有高能量精度的分子结构。分数匹配或扩散模型的去噪过程反映了分子结构优化,其中分数类似于物理力场,引导粒子达到平衡状态。为了获得能量精确的结构,使分数接近实际势能面的梯度是有利的。与仅基于欧几里得空间中的结构差异来设计目标分数的传统方法不同,我们提出了一种黎曼分数匹配方法。该方法将分子结构表示在由物理信息决定的内坐标所定义的流形上,以有效地模拟能量图景,并在该空间内进行加噪和去噪。我们的方法已通过在 QM9 和 GEOM 数据集上细化几种类型的起始结构进行了评估,结果表明所提出的黎曼分数匹配方法显着提高了生成分子结构的精度,达到了化学精度。这项研究的意义扩展到计算化学的各种应用,为精确的分子结构预测提供了一个强大的工具。  
2024-11-29 JetFormer: An Autoregressive Generative Model of Raw Images and Text null 消除建模限制和统一跨领域的架构一直是近年来训练大型多模态模型取得进展的关键驱动力。然而,这些模型中的大多数仍然依赖于许多单独训练的组件,例如特定模态的编码器和解码器。在这项工作中,我们进一步简化了图像和文本的联合生成建模。我们提出了一个自回归的仅解码器Transformer——JetFormer——它被训练用于直接最大化原始数据的似然性,而不依赖任何单独预训练的组件,并且可以理解和生成文本和图像。具体来说,我们利用归一化流模型来获得一个与自回归多模态Transformer联合训练的软标记图像表示。归一化流模型在推理过程中既充当图像编码器用于感知任务,又充当图像解码器用于图像生成任务。JetFormer实现了与最近基于VQ-VAE和VAE的基线相当的文本到图像生成质量。这些基线依赖于预训练的图像自编码器,这些自编码器使用包括感知损失在内的复杂损失混合进行训练。同时,JetFormer展现了强大的图像理解能力。据我们所知,JetFormer是第一个能够生成高保真图像并产生强对数似然边界的模型。  
2024-11-29 TexGaussian: Generating High-quality PBR Material via Octree-based 3D Gaussian Splatting null 基于物理的渲染(PBR)材质在现代图形学中扮演着至关重要的角色,它能够在不同的环境贴图中实现逼真的渲染效果。开发一种高效且有效的算法来自动生成高质量的PBR材质(而不是用于3D网格的RGB纹理)可以显著简化3D内容的创建过程。大多数现有方法利用预训练的2D扩散模型进行多视图图像合成,这通常会导致生成的纹理与输入3D网格之间存在严重的不一致性。本文提出了TexGaussian,一种使用八叉树对齐的3D高斯 splatting 来快速生成PBR材质的新方法。具体来说,我们将每个3D高斯放置在从输入3D网格构建的八叉树的最精细叶子节点上,以渲染多视图图像,不仅用于反照率贴图,还用于粗糙度和金属度。此外,我们的模型以回归方式进行训练,而不是扩散去噪,能够在单个前馈过程中生成3D网格的PBR材质。在公开可用的基准数据集上的大量实验表明,我们的方法合成的PBR材质在视觉上更令人满意,并且在无条件和文本条件场景下都比以前的方法运行速度更快,表现出与给定几何形状更好的 ​​一致性。我们的代码和训练好的模型可在 https://3d-aigc.github.io/TexGaussian 获取。  
2024-11-29 Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing link 基于扩散模型的文本引导图像生成和编辑技术取得了显著进展。其中,免调优方法因其无需大量模型调整即可执行编辑的能力而备受关注,兼具简洁性和高效性。然而,现有的免调优方法常常难以平衡保真度和编辑精度。DDIM逆推过程中的重建误差部分归因于U-Net中的交叉注意力机制,该机制在逆推和重建过程中引入了错位。为了解决这个问题,我们从结构角度分析了重建过程,并提出了一种新的方法,用统一的注意力图谱取代传统的交叉注意力机制,从而显著提高了图像重建的保真度。我们的方法有效地减少了噪声预测过程中由变化的文本条件引起的失真。为了补充这一改进,我们引入了一种自适应掩码引导的编辑技术,该技术与我们的重建方法无缝集成,确保了编辑任务的一致性和准确性。实验结果表明,我们的方法不仅在实现高保真图像重建方面表现出色,而且在真实图像合成和编辑场景中也表现出鲁棒性。这项研究强调了统一注意力图谱在增强基于扩散的图像处理方法的保真度和多功能性方面的潜力。代码可在https://github.com/Mowenyii/Uniform-Attention-Maps获取。  
2024-11-29 Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings link 现有的多模态大语言模型 (MLLM) 过度使用视觉标记,通常表现出明显的冗余性,并带来过高的计算成本。为了深入了解这个问题,我们首先对 MLLM 的注意力行为进行了广泛的实证研究,并总结了 MLLM 推理的三个主要阶段:(i)标记之间的早期融合首先快速完成。(ii)模态内建模开始发挥作用。(iii)多模态推理恢复并持续到推理结束。尤其值得注意的是,我们发现当文本标记接收到足够的图像信息后,视觉标记将停止对推理做出贡献,从而产生明显的视觉冗余。基于这些普遍观察,我们提出了一种简单而有效的方法来提高 MLLM 的效率,称为动态视觉标记退出 (DyVTE)。DyVTE 使用轻量级超网络来感知文本标记状态,并决定在特定层后移除所有视觉标记,从而解决观察到的视觉冗余问题。为了验证 VTE,我们将其应用于一组 MLLM,包括 LLaVA、VILA、Eagle 和 InternVL,并在多个基准测试上进行了广泛的实验。实验结果不仅表明了我们的 VTE 在提高 MLLM 效率方面的有效性,而且揭示了 MLLM 的一般建模模式,有助于深入理解 MLLM。我们的代码已匿名发布在 https://github.com/DoubtedSteam/DyVTE。  
2024-11-29 Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook link 随着生成模型的最新进展,深度伪造内容的逼真度一直在稳步提高,甚至达到了人们经常无法检测到在线操纵媒体内容的地步,从而被骗入各种类型的诈骗。在本文中,我们调查了深度伪造生成和检测技术,包括该领域的最新发展,如扩散模型和神经辐射场。我们的文献综述涵盖了所有深度伪造媒体类型,包括图像、视频、音频和多模态(视听)内容。我们根据用于更改或生成伪造内容的程序,识别各种类型的深度伪造。我们进一步构建了深度伪造生成和检测方法的分类法,展示了重要的方法组以及这些方法应用的领域。接下来,我们收集用于深度伪造检测的数据集,并提供在最流行数据集上表现最佳的深度伪造检测器的更新排名。此外,我们开发了一个新的多模态基准来评估深度伪造检测器对分布外内容的检测能力。结果表明,最先进的检测器无法泛化到由未见过的深度伪造生成器生成的深度伪造内容。最后,我们提出了未来获得鲁棒而强大的深度伪造检测器的方向。我们的项目页面和新基准可在https://github.com/CroitoruAlin/biodeep获取。  
2024-11-29 DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding null 人体运动固有的连续性和动态性给生成模型带来了巨大的挑战。尽管离散量化方法(如VQ-VAE)占主导地位,但它们存在固有的局限性,包括表达能力受限和帧间噪声伪影。连续方法虽然可以生成更平滑、更自然的运动,但由于高维复杂性和训练数据有限,往往难以奏效。为了解决离散表示和连续表示之间的这种“不协调”,我们引入了DisCoRD:通过校正流解码将离散标记转换为连续运动,这是一种通过校正流将离散运动标记解码为连续运动的新方法。通过在连续空间中采用迭代细化过程,DisCoRD 捕捉了细粒度的动态,并确保了更平滑、更自然的运动。我们的方法兼容任何基于离散的框架,在不影响对条件信号保真度的情况下增强了自然度。大量评估表明,DisCoRD 实现了最先进的性能,在 HumanML3D 上的 FID 为 0.032,在 KIT-ML 上的 FID 为 0.169。这些结果巩固了 DisCoRD 作为弥合离散效率和连续真实感之间差距的稳健解决方案的地位。我们的项目页面位于:https://whwjdqls.github.io/discord.github.io/。  
2024-11-29 Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis null 扩散模型的最新进展彻底改变了音频驱动的说话头像合成。除了精确的唇形同步外,基于扩散的方法还擅长生成与音频信号良好对齐的细微表情和自然头部运动。然而,这些方法面临推理速度慢、对面部运动的细粒度控制不足以及偶尔出现的视觉伪影等问题,这主要是因为从变分自动编码器(VAE)派生的隐式潜在空间,阻碍了它们在实时交互应用中的采用。为了解决这些问题,我们引入了Ditto,一个基于扩散的框架,可实现可控的实时说话头像合成。我们的主要创新在于通过一个明确的、身份无关的运动空间连接运动生成和逼真的神经渲染,取代了传统的VAE表示。这种设计大大降低了扩散学习的复杂性,同时实现了对合成说话头像的精确控制。我们进一步提出了一种联合优化三个关键组件的推理策略:音频特征提取、运动生成和视频合成。这种优化实现了流处理、实时推理和低首帧延迟,这些功能对于AI助手等交互式应用至关重要。大量的实验结果表明,Ditto 可以生成引人入胜的说话头像视频,并且在运动控制和实时性能方面都大大优于现有方法。  
2024-11-27 GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data null 给定一张野外环境下的人像照片,重建高保真3D人体模型仍然是一项具有挑战性的任务。现有方法面临诸多困难,包括:a) 野外环境下拍摄的人体图像中身体比例的变化;b) 照片中各种各样的个人物品;c) 人体姿势的模糊性和人体纹理的不一致性。此外,高质量人体数据的稀缺性加剧了这一挑战。为了解决这些问题,我们提出了一个通用的图像到3D人体重建框架,称为GeneMAN,它建立在一个包含高质量人体数据的综合多源集合的基础上,包括3D扫描、多视角视频、单张照片和我们生成的合成人体数据。GeneMAN包含三个关键模块。1) GeneMAN首先训练了一个人体专用文本到图像的扩散模型和一个视角条件扩散模型,分别作为GeneMAN的2D人体先验和3D人体先验,用于重建,而不依赖于参数化人体模型(例如SMPL)。2) 在预训练的人体先验模型的帮助下,利用几何初始化和雕刻流程来恢复高质量的3D人体几何形状。3) 为了获得高保真的3D人体纹理,GeneMAN采用了多空间纹理细化流程,在潜在空间和像素空间中连续细化纹理。大量的实验结果表明,GeneMAN可以从单张图像输入生成高质量的3D人体模型,其性能优于现有的最先进方法。值得注意的是,GeneMAN在处理野外环境下的图像时表现出更好的泛化能力,即使输入图像中身体比例不同,也能够生成高质量的、姿势自然的、带有常见物品的3D人体模型。  
2024-11-27 Diffusion Self-Distillation for Zero-Shot Customized Image Generation null 文转图扩散模型能生成令人印象深刻的结果,但对于渴望精细控制的艺术家来说,它们是令人沮丧的工具。例如,一个常见的用例是在新的上下文中创建特定实例的图像,即“保留身份的生成”。这种设置以及许多其他任务(例如,重新照明)自然适合图像+文本条件生成模型。然而,没有足够高质量的配对数据来直接训练这样的模型。我们提出了扩散自蒸馏,一种使用预训练的文转图模型为文本条件的图到图任务生成自己的数据集的方法。我们首先利用文转图扩散模型的上下文内生成能力来创建图像网格,并在视觉语言模型的帮助下整理一个大型配对数据集。然后,我们使用整理好的配对数据集将文转图模型微调为文本+图到图模型。我们证明,在广泛的身份保留生成任务上,扩散自蒸馏优于现有的零样本方法,并且与每个实例的微调技术相比具有竞争力,而无需测试时优化。  
2024-11-27 CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models null 我们提出了CAT4D,一种从单目视频创建4D(动态3D)场景的方法。CAT4D利用在各种数据集组合上训练的多视角视频扩散模型,能够在任何指定的相机姿态和时间戳合成新视角。结合一种新颖的采样方法,该模型可以将单个单目视频转换为多视角视频,从而能够通过优化可变形3D高斯表示来实现稳健的4D重建。我们在新视角合成和动态场景重建基准测试中展示了具有竞争力的性能,并突出了从真实或生成的视频生成4D场景的创造能力。请访问我们的项目页面以获取结果和交互式演示:\url{cat-4d.github.io}。  
2024-11-27 Evaluating and Improving the Effectiveness of Synthetic Chest X-Rays for Medical Image Analysis null 目的:探索生成合成胸部X光图像和扩充医学影像数据集的最佳实践方法,以优化深度学习模型在下游任务(如分类和分割)中的性能。方法:我们利用潜在扩散模型,根据文本提示和/或分割掩码来调节合成胸部X光图像的生成。我们探索了使用代理模型和放射科医生反馈等方法来提高合成数据的质量。然后,我们根据相关的疾病信息或几何变换的分割掩码生成这些合成图像,并将它们添加到来自CheXpert、CANDID-PTX、SIIM和RSNA肺炎数据集的真实训练集图像中,以衡量分类和分割模型在测试集上的性能改进。F1和Dice分数分别用于评估分类和分割性能。采用Bonferroni校正的单尾t检验评估了使用合成数据带来的性能改进的统计学显著性。结果:在所有实验中,与仅使用真实数据相比,我们生成的合成数据使分类的F1分数最大平均提高了0.150453(置信区间:0.099108-0.201798;P=0.0031)。对于分割,Dice分数的最大提高为0.14575(置信区间:0.108267-0.183233;P=0.0064)。结论:生成用于下游任务的合成胸部X光图像的最佳实践包括以单一疾病标签或几何变换的分割掩码为条件,以及可能使用代理模型进行微调。  
2024-11-27 Bit symmetry entails the symmetry of the quantum transition probability null 使用广义概率理论 (GPTs) 作为通用模型,从几个基本原理重建量子理论,并更好地理解量子物理学和量子计算的概率或信息论基础,这是相当常见的。在这个框架中,引入了各种对称性假设并进行了研究,包括自同构群在 (1) 纯态上,(2) 正交纯态对(这些对称为二维框架)上,以及 (3) 在任何相同大小的框架上的传递性。第二个假设是M"uller 和 Ududec 的比特对称性,他们通过量子计算的需求来 motivating 它。这里,我们在转移概率框架中探讨这三个假设,该框架比 GPTs 更具体,因为它预设了量子逻辑原子的转移概率的存在,可以直接预设,也可以通过状态空间的某种几何特性间接预设。作者在最近的一篇论文中介绍了紧凸集的这种性质。我们证明了比特对称性暗示了原子之间转移概率的对称性。利用 Barnum 和 Hilgert 的一个结果,我们可以得出结论:第三个相当强的对称性假设排除了除经典情况和简单欧几里得约旦代数之外的所有模型。  
2024-11-27 Building Confidence in Deep Generative Protein Design null 深度生成模型在新蛋白质设计方面展现出潜力,但其在特定蛋白质家族中的有效性仍未得到充分探索。在本研究中,我们评估了两种 3D 刚体生成方法,即分数匹配和流匹配,以在 SE(3) 空间中生成单体蛋白质骨架。我们的目标是提供新的见解,并增强人们对深度生成模型在蛋白质设计中更广泛适用性的信心。从生成的骨架预测最佳氨基酸序列,然后进行侧链同源建模。结果表明,生成的蛋白质结构完整性高,保守的关键残基与已知蛋白质对齐。结构系统发育分析显示,生成的样本与其蛋白质家族成员之间存在进化联系。进一步的分子动力学模拟和蛋白质-配体对接证实了这些样本的动态稳定性和功能潜力,配体结合诱导的构象变化与野生型蛋白质一致。  
2024-11-27 FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion null 扩散模型擅长生成高质量图像。然而,它们只有在以训练时使用的分辨率运行时才有效。以缩放分辨率进行推理会导致重复模式和结构扭曲。以更高的分辨率重新训练很快就会变得令人望而却步。因此,非常需要能够使预先存在的扩散模型在灵活的测试时分辨率下运行的方法。先前的工作经常出现伪影,并且常常会引入较大的延迟开销。我们提出了两个简单的模块来解决这些问题。我们引入了一个频率调制 (FM) 模块,它利用傅里叶域来改善全局结构一致性,以及一个注意力调制 (AM) 模块,它改善了局部纹理模式的一致性,这个问题在先前的工作中很大程度上被忽略了。我们的方法被称为Fam扩散,可以无缝集成到任何潜在扩散模型中,并且不需要额外的训练。大量的定性结果突出了我们的方法在解决结构和局部伪影方面的有效性,而定量结果显示了最先进的性能。此外,我们的方法避免了为提高一致性而进行的冗余推理技巧,例如基于补丁或渐进式生成,从而导致延迟开销可以忽略不计。  
2024-11-27 Enhancing weed detection performance by means of GenAI-based image augmentation null 精确的杂草管理对于维持作物产量和生态平衡至关重要。传统的除草剂施用面临经济和环境挑战,这凸显了对由深度学习驱动的智能杂草控制系统的需求。这些系统需要大量的优质训练数据。然而,现实情况是缺乏标注良好的训练数据,通常通过使用数据增强来生成更多数据来解决这个问题。尽管如此,传统的增强技术,例如随机翻转、颜色变化和模糊,缺乏足够的保真度和多样性。本文研究了一种基于生成式人工智能的增强技术,该技术使用Stable Diffusion模型生成各种合成图像,以提高杂草检测模型训练数据集的数量和质量。此外,本文还探讨了这些合成图像对实时检测系统性能的影响,因此重点关注用于边缘设备的紧凑型基于CNN的模型,例如YOLO nano。实验结果表明,使用生成式AI增强数据集训练的YOLO模型的平均精度(mAP50和mAP50-95)得分有了显著提高,证明了合成数据在增强模型鲁棒性和准确性方面的巨大潜力。  
2024-11-27 GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation null 多模态大型语言模型 (MLLM) 在视觉理解和生成任务方面取得了显著进展。然而,生成交错的图文内容仍然是一项挑战,这需要整合多模态理解和生成能力。虽然统一模型的进步提供了新的解决方案,但由于数据大小和多样性的限制,现有的基准不足以评估这些方法。为了弥合这一差距,我们推出了 GATE OpenING (OpenING),这是一个包含 5,400 个高质量人工标注实例、涵盖 56 个真实世界任务的综合基准。OpenING 涵盖了各种日常场景,例如旅行指南、设计和头脑风暴,为挑战交错生成方法提供了一个强大的平台。此外,我们还提出了 IntJudge,一个用于评估开放式多模态生成方法的评估模型。通过使用一种新颖的数据流水线进行训练,我们的 IntJudge 与人类判断的符合率达到了 82.42%,比基于 GPT 的评估器高出 11.34%。在 OpenING 上进行的大量实验表明,当前的交错生成方法仍有很大的改进空间。我们进一步提出了关于交错图文生成的几个关键发现,以指导下一代模型的开发。OpenING 已在 https://opening.github.io 开源。  
2024-11-27 Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification null 深度学习模型需要足够的数据才能找到其中的隐藏模式。生成模型的目的是学习数据分布,从而使我们能够采样更多数据并扩充原始数据集。在生理数据,更具体地说是心电图 (ECG) 数据的背景下,鉴于其敏感性和昂贵的数据收集成本,我们可以利用生成模型的优势来扩大现有数据集并改进下游任务,在本例中是心律分类。在这项工作中,我们探索了使用深度学习中不同的生成模型(即 Diffwave、Time-Diffusion 和 Time-VQVAE)生成的合成数据的有效性,以便为两个开源多变量 ECG 数据集获得更好的分类结果。此外,我们还通过微调一个预训练的合成模型,然后逐步添加越来越多的真实数据来研究迁移学习的效果。我们的结论是,尽管合成样本与真实样本相似,但简单地扩充真实数据集时,单个数据集的分类改进几乎不明显,但是当两个数据集合并时,使用合成样本作为增强数据时,分类器的所有指标都有所提高。从微调结果来看,Time-VQVAE 生成模型表现优于其他模型,但其功能不足以达到接近仅使用真实数据训练的分类器的结果。此外,作为本研究主要研究问题的副产品,我们还探索了用于衡量合成数据与真实数据之间接近度的方法和指标。  
2024-11-26 StableAnimator: High-Quality Identity-Preserving Human Image Animation link 目前的用于人体图像动画的扩散模型难以确保身份(ID)一致性。本文提出了 StableAnimator,这是第一个端到端的ID保持视频扩散框架,它无需任何后处理即可合成高质量视频,条件是参考图像和一系列姿势。基于视频扩散模型,StableAnimator 包含精心设计的用于训练和推理的模块,力求保持身份一致性。特别是,StableAnimator 首先分别使用现成的提取器计算图像和面部嵌入,并通过使用全局内容感知人脸编码器与图像嵌入交互来进一步细化面部嵌入。然后,StableAnimator 引入了一种新颖的分布感知 ID 适配器,可防止时间层引起的干扰,同时通过对齐来保持 ID。在推理过程中,我们提出了一种基于 Hamilton-Jacobi-Bellman (HJB) 方程的新颖优化方法,以进一步提高面部质量。我们证明了求解 HJB 方程可以集成到扩散去噪过程中,并且所得解约束了去噪路径,从而有利于 ID 保持。在多个基准上的实验定性和定量地证明了 StableAnimator 的有效性。  
2024-11-26 ScribbleLight: Single Image Indoor Relighting with Scribbles null 基于图像的室内房间重新照明创造了一种沉浸式的虚拟空间理解,这对于室内设计、虚拟舞台布置和房地产非常有用。由于多个光源和杂乱物体之间复杂的照明交互,以及物体几何形状和材质的巨大差异,从单张图像重新照明室内房间尤其具有挑战性。最近,生成模型已成功应用于基于图像的重新照明,并以目标图像或潜在代码为条件,尽管缺乏对局部照明的详细控制。在本文中,我们介绍了ScribbleLight,一种生成模型,它支持通过描述照明变化的涂鸦来对照明效果进行局部细粒度控制。我们的关键技术创新是一种反照率条件稳定的图像扩散模型,它在重新照明后保留了原始图像的固有颜色和纹理,以及一个基于编码器-解码器的ControlNet架构,它能够通过法线贴图和涂鸦注释实现保留几何形状的照明效果。我们展示了ScribbleLight能够通过稀疏的涂鸦注释创建不同的照明效果(例如,打开/关闭灯光、添加高光、投射阴影或来自不可见光源的间接照明)。  
2024-11-26 Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis null 本文提出了一项新任务——从人物视频及其转录文本 (VTTS) 生成语音——以激发多模态语音生成的新技术。这项任务概括了从裁剪的唇部视频生成语音的任务,并且比从视频和文本生成通用音频片段(例如,狗叫声)的任务更复杂。该任务的多语言版本可能会催生新的跨语言配音技术。我们还为此任务提出了一个仅解码器的多模态模型,我们称之为 Visatronic。该模型将视觉、文本和语音直接嵌入到 Transformer 模型的公共子空间中,并使用自回归损失来学习以说话人视频及其语音转录为条件的离散梅尔谱图的生成模型。通过将所有模态嵌入到一个公共子空间中,Visatronic 可以获得比仅使用文本或视频作为输入的模型更好的结果。此外,与现有的依赖唇部检测器和复杂架构来融合模态的方法相比,它为多模态语音生成提供了一种更简单的方法,同时产生更好的结果。由于该模型足够灵活,可以适应不同的输入排序方式,我们仔细探索了不同的策略,以便更好地理解将信息传播到生成步骤的最佳方式。为了促进对 VTTS 的进一步研究,我们将发布 (i) 我们的代码,(ii) 用于大规模 VoxCeleb2 数据集的干净转录,以及 (iii) 包含客观和主观指标的 VTTS 标准化评估协议。  
2024-11-26 GenDeg: Diffusion-Based Degradation Synthesis for Generalizable All-in-One Image Restoration null 近年来,基于深度学习的全能图像修复 (AIOR) 模型取得了显著进展。然而,由于对训练分布之外样本的泛化能力较差,它们的实际应用受到限制。这种限制主要源于现有数据集中退化变化和场景的多样性不足,导致对真实场景的表征不足。此外,获取大规模真实世界中雾霾、低光和雨滴等退化类型的配对数据通常很繁琐,有时甚至不可行。在本文中,我们利用潜在扩散模型的生成能力,从干净图像合成高质量的退化图像。具体来说,我们引入了 GenDeg,这是一个退化和强度感知的条件扩散模型,能够在干净图像上生成各种退化模式。使用 GenDeg,我们合成了超过 55 万个样本,涵盖六种退化类型:雾霾、雨、雪、运动模糊、低光和雨滴。这些生成的样本与现有数据集集成,形成了包含超过 75 万个样本的 GenDS 数据集。我们的实验表明,在 GenDS 数据集上训练的图像修复模型与仅在现有数据集上训练的模型相比,在分布外性能方面表现出显著改进。此外,我们还对基于扩散模型的合成退化对 AIOR 的影响进行了全面分析。代码将公开发布。  
2024-11-26 Accelerating Vision Diffusion Transformers with Skip Branches link 扩散Transformer(DiT)作为一种新兴的图像和视频生成模型架构,因其高质量的生成能力和可扩展性而展现出巨大潜力。尽管性能令人印象深刻,但其在实际部署中受到计算复杂性和序列去噪过程中冗余的限制。虽然跨时间步的特征缓存已被证明可有效加速扩散模型,但由于其与基于U-Net的方法在架构上的根本差异,其在DiT中的应用受到限制。通过对DiT特征动态的实证分析,我们发现DiT块之间显著的特征变化对特征复用性提出了关键挑战。为了解决这个问题,我们将标准DiT转换为带有跳跃连接的Skip-DiT,以增强特征平滑度。此外,我们引入了Skip-Cache,它利用跳跃连接在推理时跨时间步缓存DiT特征。我们在不同的DiT主干网络上验证了我们提出的方法在视频和图像生成中的有效性,展示了跳跃连接有助于保持生成质量并实现更高的加速。实验结果表明,Skip-DiT几乎可以免费实现1.5倍的加速,并且仅需少量降低量化指标即可实现2.2倍的加速。代码可在https://github.com/OpenSparseLLMs/Skip-DiT.git获取。  
2024-11-26 Mixed-State Quantum Denoising Diffusion Probabilistic Model null 生成式量子机器学习因其能够生成具有所需分布的量子态而备受关注。在各种量子生成模型中,量子去噪扩散概率模型 (QuDDPMs) [Phys. Rev. Lett. 132, 100602 (2024)] 提供了一种有前景的分步学习方法,解决了训练问题。然而,QuDDPM 中对高保真置乱幺正算符的要求给近期实现带来了挑战。我们提出了混合态量子去噪扩散概率模型 (MSQuDDPM),以消除对置乱幺正算符的需求。我们的方法侧重于将量子噪声通道适配到模型架构中,该架构在正向扩散过程中集成了去极化噪声通道,并在反向去噪步骤中集成了参数化量子电路和投影测量。我们还引入了几种改进 MSQuDDPM 的技术,包括噪声插值的余弦指数调度、使用单量子比特随机辅助比特以及基于超保真度的损失函数以增强收敛性。我们在量子系综生成任务上评估了 MSQuDDPM,证明了其成功的性能。  
2024-11-26 VideoDirector: Precise Video Editing via Text-to-Video Models null 尽管使用文本到图像 (T2I) 模型的典型“反演然后编辑”范式已展现出 promising 的结果,但将其直接扩展到文本到视频 (T2V) 模型仍然存在严重的伪影,例如颜色闪烁和内容失真。因此,目前的视频编辑方法主要依赖于 T2I 模型,其本身缺乏时间一致性生成能力,通常导致较差的编辑结果。在本文中,我们将典型编辑范式的失败归因于:1) 紧密的时空耦合。普通的基于关键点 (pivotal-based) 的反演策略难以解耦视频扩散模型中的时空信息;2) 复杂的时空布局。普通的交叉注意力控制不足以保留未编辑的内容。为了解决这些限制,我们提出了时空解耦引导 (STDG) 和多帧空文本优化策略,为更精确的关键点反演提供关键时间线索。此外,我们引入了自注意力控制策略,以保持更高的保真度,从而实现精确的部分内容编辑。实验结果表明,我们的方法(称为 VideoDirector)有效地利用了 T2V 模型强大的时间生成能力,生成的编辑视频在准确性、运动平滑度、真实感和未编辑内容的保真度方面均达到了最先进的性能。  
2024-11-26 Metaverse Innovation Canvas: A Tool for Extended Reality Product/Service Development null 本研究调查了新兴元宇宙领域中增强现实 (AR) 和虚拟现实 (VR) 初创公司失败的因素。通过对 2016 年至 2022 年 29 家失败的 AR/VR 初创公司进行深入分析,确定了关键的陷阱,例如缺乏可扩展性、可用性差、价值主张不明确以及未能解决特定的用户问题。基于这些发现,我们开发了元宇宙创新画布 (MIC),这是一个为 XR 产品和服务量身定制的商业构思框架。该画布指导创始人定义用户问题,阐明独特的 XR 价值主张,评估可用性因素(例如基于运动的交互负荷),考虑社交/虚拟经济机会,并规划长期可扩展性。与通用模型不同,专门的模块会促使从一开始就考虑关键的 XR 因素。该画布通过与初创公司顾问就五个失败的风险案例进行专家测试来评估。结果突出了该工具在预先发现被忽视的可用性问题和技术限制方面的有效性,从而提高了未来元宇宙初创公司的生存能力。  
2024-11-26 IMPROVE: Improving Medical Plausibility without Reliance on HumanValidation – An Enhanced Prototype-Guided Diffusion Framework null 生成模型已被证明在生成合成医学图像方面非常有效,并在下游任务中得到应用,例如增强罕见疾病数据集、长尾数据集扩充和扩展机器学习算法。对于医学应用,根据FID分数、精确率和召回率等传统指标评估,此类模型生成的合成医学图像质量仍然合理。然而,这些指标未能捕捉到生成图像的医学/生物学合理性。人类专家反馈已被用于获取生物学合理性,这表明这些生成的图像合理性非常低。最近,研究界通过基于人类反馈的强化学习(RLHF)进一步整合了这种人类反馈,从而生成了更具医学合理性的图像。然而,结合人类反馈是一个昂贵且缓慢的过程。在这项工作中,我们提出了一种无需人工反馈即可提高生成图像医学合理性的新方法。我们介绍了IMPROVE:改进医学合理性而无需依赖人工验证——一种增强的原型引导扩散框架,这是一种用于医学图像生成的原型引导扩散过程,并表明它在无需任何人工反馈的情况下大大增强了生成医学图像的生物学合理性。我们在骨髓和HAM10000数据集上进行了实验,结果表明,无需人工反馈即可大幅提高医学准确性。  
2024-11-26 FTMoMamba: Motion Generation with Frequency and Text State Space Models null 扩散模型在人体运动生成方面取得了令人瞩目的性能。然而,当前的方法通常忽略了频域信息在捕捉潜在空间中细粒度运动方面的重要性(例如,低频与静态姿势相关,高频与细粒度运动对齐)。此外,文本和运动之间存在语义差异,导致生成的运动与文本描述不一致。在这项工作中,我们提出了一种新颖的基于扩散的FTMoMamba框架,该框架配备了频率状态空间模型(FreqSSM)和文本状态空间模型(TextSSM)。具体来说,为了学习细粒度表示,FreqSSM将序列分解为低频和高频分量,分别指导静态姿势(例如,坐、躺)和细粒度运动(例如,过渡、绊倒)的生成。为了确保文本和运动之间的一致性,TextSSM在句子级别编码文本特征,将文本语义与序列特征对齐。大量实验表明,FTMoMamba在文本到运动生成任务上取得了优异的性能,尤其是在HumanML3D数据集上获得了最低的FID,为0.181(远低于MLD的0.421)。  
2024-11-22 DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving link 近年来,扩散模型作为一种强大的生成技术,已应用于机器人策略学习,能够对多模态动作分布进行建模。利用其进行端到端自动驾驶是一个很有前景的方向。然而,机器人扩散策略中大量的去噪步骤以及交通场景更动态、开放的特点,对实时生成多样化的驾驶动作提出了重大挑战。为了应对这些挑战,我们提出了一种新颖的截断扩散策略,它结合了先验的多模态锚点并截断了扩散计划,使模型能够学习从锚定的高斯分布到多模态驾驶动作分布的去噪过程。此外,我们设计了一个高效的级联扩散解码器,以增强与条件场景上下文的交互。所提出的模型DiffusionDrive与传统的扩散策略相比,去噪步骤减少了10倍,仅需2步即可提供卓越的多样性和质量。在面向规划的NAVSIM数据集上,使用对齐的ResNet-34骨干网络,DiffusionDrive在没有额外技巧的情况下实现了88.1的PDMS,创造了新的记录,同时在NVIDIA 4090上以45 FPS的实时速度运行。在挑战性场景下的定性结果进一步证实,DiffusionDrive可以鲁棒地生成多种合理的驾驶动作。代码和模型将在https://github.com/hustvl/DiffusionDrive上发布。  
2024-11-22 Material Anything: Generating Materials for Any 3D Object via Diffusion null 我们提出了Material Anything,这是一个全自动的统一扩散框架,旨在为3D对象生成基于物理的材质。与依赖复杂流程或特定案例优化的现有方法不同,Material Anything提供了一个稳健的端到端解决方案,适用于不同光照条件下的对象。我们的方法利用预训练的图像扩散模型,并通过三头架构和渲染损失来增强稳定性和材质质量。此外,我们引入了置信度掩码作为扩散模型中的动态切换器,使其能够有效处理不同光照条件下有纹理和无纹理的对象。通过采用由这些置信度掩码引导的渐进式材质生成策略,以及UV空间材质细化器,我们的方法确保了生成一致的、UV可用的材质输出。大量实验表明,我们的方法在各种对象类别和光照条件下均优于现有方法。  
2024-11-22 VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement null 近期的文本到视频 (T2V) 扩散模型在各个领域展现出令人印象深刻的生成能力。然而,这些模型生成的视频经常与文本提示不一致,尤其当提示描述包含多个对象和属性的复杂场景时。为了解决这个问题,我们引入了 VideoRepair,这是一个与模型无关、无需训练的视频细化框架,它能够自动识别细粒度的文本-视频不匹配,并生成明确的空间和文本反馈,使 T2V 扩散模型能够执行有针对性的局部细化。VideoRepair 包含四个阶段:(1)视频评估:我们通过生成细粒度的评估问题并使用大型语言模型 (MLLM) 回答这些问题来检测不匹配。(2)细化计划:我们识别准确生成的对象,然后创建局部提示以细化视频中的其他区域。接下来,在(3)区域分解阶段,我们使用组合的 grounding 模块分割正确生成的区域。我们在(4)局部细化阶段通过调整不匹配的区域同时保留正确的区域来重新生成视频。在两个流行的视频生成基准(EvalCrafter 和 T2V-CompBench)上,VideoRepair 在各种文本-视频对齐指标上的表现都明显优于近期的基线模型。我们提供了对 VideoRepair 组件的全面分析和一些定性示例。  
2024-11-22 Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion null 随着文生图模型的功能日益强大和复杂,其不断增长的规模成为广泛应用的重大障碍,尤其是在资源受限的设备上。本文对Stable Diffusion 2的训练后剪枝进行了开创性研究,解决了文生图领域模型压缩的关键需求。我们的研究探讨了先前未探索过的多模态生成模型的剪枝技术,并特别分别考察了剪枝对文本组件和图像生成组件的影响。我们对以不同稀疏度剪枝模型或模型的单个组件进行了全面比较。我们的结果得出了一些先前未记载的发现。例如,与语言模型剪枝的既定趋势相反,我们发现简单的幅度剪枝在文生图环境中优于更高级的技术。此外,我们的结果表明,Stable Diffusion 2可以剪枝到38.5%的稀疏度,且质量损失最小,从而显著减小了模型大小。我们提出了一种最优剪枝配置,将文本编码器剪枝到47.5%,将扩散生成器剪枝到35%。这种配置在保持图像生成质量的同时,大大降低了计算需求。此外,我们的工作揭示了关于文生图模型中信息编码的有趣问题:我们观察到,超过特定阈值的剪枝会导致性能突然下降(图像无法读取),这表明特定权重编码了关键的语义信息。这一发现为未来在模型压缩、互操作性和文生图模型偏差识别方面的研究开辟了新途径。通过提供对文生图模型剪枝行为的关键见解,我们的研究为开发更高效、更易于访问的AI驱动图像生成系统奠定了基础。  
2024-11-22 Leapfrog Latent Consistency Model (LLCM) for Medical Images Generation link 由于隐私问题,医院不愿共享数据,导致可访问的医学图像数据稀缺,这给有效训练用于医学诊断的深度学习模型带来了重大障碍。为此,我们收集了一个名为MedImgs的多样化数据集,其中包含来自开源存储库的超过250,127张图像,涵盖61种疾病类型和159种类的人类和动物。我们提出了一种跳蛙潜在一致性模型(LLCM),该模型是从基于收集的MedImgs数据集重新训练的扩散模型中提取出来的,这使我们的模型能够生成实时高分辨率图像。我们将反向扩散过程公式化为概率流常微分方程(PF-ODE),并使用跳蛙算法在潜在空间中求解。这种公式可以实现快速采样,而无需额外的迭代。我们的模型在生成医学图像方面展现了最先进的性能。此外,我们的模型可以使用任何自定义医学图像数据集进行微调,从而方便生成各种图像。我们的实验结果在未见过的狗心脏X光图像上优于现有模型。源代码可在https://github.com/lskdsjy/LeapfrogLCM获取。  
2024-11-22 The 1D nonlocal Fisher-KPP equation with a top hat kernel. Part 3. The effect of perturbations in the kernel null 在本系列论文的第三部分中,我们研究与第一部分相同的柯西问题,即一维空间中的非局部Fisher-KPP方程, $u_t = D u_{xx} + u(1-\phi_Tu)$,其中$\phi_Tu$是与顶帽核$\phi_T(y) \equiv H\left(\frac{1}{4}-y^2\right)$的空间卷积,但现在我们对该核加入一个特定的扰动,我们将其表示为$\overline{\phi}:\mathbb{R}\to \mathbb{R}$。因此,顶帽核$\phi_T$现在被扰动核$\phi:\mathbb{R} \to \mathbb{R}$取代,其中$\phi(x) = \phi_T(x) + \overline{\phi}(x)\forallx\in \mathbb{R}$。当核扰动的大小在合适的范数下较小时,当扩散系数$D$形式上为O(1)或更大时,通常情况下这是一个正则扰动问题。然而,当$D$ 变小,特别是与核扰动的大小相当时,这将成为一个强奇异扰动问题,整体结构发生显著变化。这种情况将被详细揭示。就其一般意义而言,该模型是经典Fisher-KPP模型的自然扩展,在饱和项中引入了最简单的非局部效应。非局部反应扩散模型自然地出现在各种(通常是生物或生态)环境中,因此详细研究其性质,并将其与经典Fisher-KPP模型的已知性质进行比较和对比具有根本意义。  
2024-11-22 FloAt: Flow Warping of Self-Attention for Clothing Animation Generation null 我们提出了一种基于扩散模型的方法FloAtControlNet,用于生成由人体服装动画组成的动态照片。我们专注于连衣裙、裙子和裤子等人体服装。我们模型的输入是一个文本提示,描述服装的类型和纹理,例如豹纹、条纹或纯色,以及一系列法线贴图,捕捉我们希望在输出中呈现的底层动画。我们方法的核心是一个以法线贴图作为条件的ControlNet,它在免训练的情况下运行。关键观察是底层动画嵌入在法线贴图的流动中。我们利用由此获得的流来操纵相应层的自注意力图。具体来说,特定层和帧的自注意力图被重新计算为其自身与相同层和前一帧的自注意力图的线性组合,并通过两帧法线贴图上的流进行变形。我们证明,操纵自注意力图可以极大地提高服装动画的质量,使其看起来更自然,并抑制背景伪影。通过大量实验,我们证明所提出的方法在视觉结果和用户研究方面都优于所有基线。具体来说,我们的方法能够减轻我们考虑的其他基于扩散模型的基线中存在的背景闪烁。此外,我们证明,在使用输入法线贴图序列和从输出RGB帧获得的法线贴图序列计算的RMSE和PSNR方面,我们的方法优于所有基线。此外,我们还表明,像LPIPS、SSIM和CLIP分数这样公认的视觉质量评估指标,并不一定适合捕捉人体服装动画中的细微运动。  
2024-11-22 Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation null 学习用于非抓取操作的多样化策略对于提高技能迁移和泛化到分布外场景至关重要。在这项工作中,我们通过在混合框架内采用双重方法来增强探索,该框架同时处理离散和连续动作空间。首先,我们将连续运动参数策略建模为扩散模型,其次,我们将其纳入最大熵强化学习框架,该框架统一了离散和连续组件。离散动作空间(例如接触点选择)通过 Q 值函数最大化进行优化,而连续部分则由基于扩散的策略引导。这种混合方法导致了一个原则性目标,其中最大熵项是使用结构化变分推理作为下界导出的。我们提出了混合扩散策略算法 (HyDo),并在仿真和零样本 sim2real 任务上评估其性能。我们的结果表明,HyDo 鼓励更多样化的行为策略,从而显着提高了跨任务的成功率——例如,在真实世界的 6D 姿态对齐任务中,成功率从 53% 提高到 72%。项目页面:https://leh2rng.github.io/hydo  
2024-11-22 Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation null 扩散模型在文本到图像生成方面取得了显著成功,使得这些模型的对齐方法变得越来越重要。一个关键的挑战是偏好标签的稀疏性,这些标签通常只在去噪轨迹的末端可用。这就引发了一个问题,即如何根据这些稀疏标签在去噪步骤中分配信用。在本文中,我们提出了去噪分布估计 (DDE),一种用于信用分配的新方法。与先前依赖辅助模型或手工方案的方法不同,DDE 的策略更加明确。提出的 DDE 直接从每个步骤的角度估计最终去噪分布。它配备了两种估计策略,并且能够通过单次模型推理表示整个去噪轨迹。我们从理论上和经验上证明,DDE 优先优化去噪轨迹的中间部分,从而产生一种新颖有效的信用分配方案。大量实验表明,我们的方法在定量和定性方面都实现了优越的性能。  
2024-11-22 Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation null 扩散模型 (DM) 能够从噪声生成图像并从数据进行反演,这启发了强大的非配对图像到图像 (I2I) 转换算法。然而,它们通常需要大量的网络函数评估 (NFE),限制了它们的实际应用。在本文中,我们使用薛定谔桥 (SB) 来解决这个问题,薛定谔桥是具有最小传输成本的分布之间的随机微分方程 (SDE)。我们分析了 SB 的概率流常微分方程 (ODE) 公式,并观察到我们可以将其向量场分解为源预测器、目标预测器和噪声预测器的线性组合。受此观察的启发,我们提出了潜在薛定谔桥 (LSB),它通过预训练的稳定扩散来近似 SB ODE,并开发了适当的提示优化和变量公式变换,以匹配分布之间的训练和推理。我们证明,我们的算法在无监督设置下成功地进行了具有竞争力的 I2I 转换,其计算成本仅是先前基于 DM 的 I2I 方法所需的一小部分。  
2024-11-21 Stable Flow: Vital Layers for Training-Free Image Editing null 扩散模型彻底改变了内容合成和编辑领域。最近的模型用扩散Transformer(DiT)取代了传统的UNet架构,并采用流匹配来改进训练和采样。然而,它们的生成多样性有限。在这项工作中,我们利用这一限制,通过选择性注入注意力特征来执行一致的图像编辑。主要的挑战是,与基于UNet的模型不同,DiT缺乏从粗到精的合成结构,使其不清楚在哪一层执行注入。因此,我们提出了一种自动识别DiT内对图像形成至关重要的“关键层”的方法,并演示了这些层如何使用相同的机制促进一系列受控的稳定编辑,从非刚性修改到对象添加。接下来,为了实现真实图像编辑,我们为流模型引入了一种改进的图像反演方法。最后,我们通过定性和定量比较以及用户研究来评估我们的方法,并展示其在多种应用中的有效性。项目页面位于https://omriavrahami.com/stable-flow  
2024-11-21 Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation null 现有的前馈图像到3D方法主要依赖于2D多视图扩散模型,无法保证3D一致性。这些方法在更改提示视图方向时容易崩溃,并且主要处理以对象为中心的提示图像。在本文中,我们提出了一种新颖的单阶段3D扩散模型DiffusionGS,用于从单视图生成对象和场景。DiffusionGS在每个时间步直接输出3D高斯点云,以增强视图一致性,并允许模型在给定任意方向的提示视图时稳健地生成,超越以对象为中心的输入。此外,为了提高DiffusionGS的能力和泛化能力,我们通过开发场景-对象混合训练策略来扩展3D训练数据。实验表明,我们的方法具有更好的生成质量(PSNR高2.20 dB,FID低23.25),并且比SOTA方法快5倍以上(在A100 GPU上约6秒)。用户研究和文本到3D的应用也揭示了我们方法的实用价值。我们的项目页面https://caiyuanhao1998.github.io/project/DiffusionGS/展示了视频和交互式生成结果。  
2024-11-21 CoNFiLD-inlet: Synthetic Turbulence Inflow Using Generative Latent Diffusion Models with Neural Fields null 求解涡流的湍流模拟需要能够准确复制复杂多尺度湍流结构的随机流入条件。传统的基于循环的方法依赖于计算成本高昂的前体模拟,而现有的合成流入生成器通常无法再现真实的湍流相干结构。深度学习 (DL) 的最新进展为流入湍流生成开辟了新的可能性,但许多基于深度学习的方法依赖于确定性的自回归框架,容易出现误差累积,导致长期预测的鲁棒性较差。在这项工作中,我们提出了 CoNFiLD-inlet,这是一种新颖的基于深度学习的流入湍流生成器,它将扩散模型与条件神经场 (CNF) 编码的潜在空间相结合,以生成逼真的随机流入湍流。通过使用雷诺数参数化流入条件,CoNFiLD-inlet 可以有效地泛化到各种雷诺数( $Re_τ$ 在 $10^3$ 和 $10^4$ 之间),而无需重新训练或参数调整。通过直接数值模拟 (DNS) 和壁面模型大涡模拟 (WMLES) 中的先验和后验测试进行的全面验证证明了其高保真度、鲁棒性和可扩展性,使其成为流入湍流合成的有效且通用的解决方案。  
2024-11-21 Enhancing Medical Image Segmentation with Deep Learning and Diffusion Models null 医学图像分割对于准确的临床诊断至关重要,但它面临着诸如病灶与正常组织之间对比度低、边界不清以及患者间差异性大等挑战。深度学习提高了分割的准确性和效率,但它仍然严重依赖于专家标注,并且难以应对医学图像的复杂性。医学图像数据集规模小以及数据采集成本高进一步限制了分割网络的性能。扩散模型凭借其迭代去噪过程,为更好地捕获分割细节提供了一种有前景的替代方案。然而,它们在准确分割小目标和保持边界细节的精度方面面临困难。本文讨论了医学图像分割的重要性、当前深度学习方法的局限性以及扩散模型应对这些挑战的潜力。  
2024-11-21 StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart null 生成模仿人类双眼视觉的高质量立体视频需要在帧之间保持一致的深度感知和时间连贯性。尽管扩散模型已经推进了图像和视频合成,但生成高质量的立体视频仍然具有挑战性,因为它难以在左右视图之间保持一致的时空连贯性。我们引入了StereoCrafter-Zero,这是一个用于零样本立体视频生成的新框架,它利用视频扩散先验,而无需配对训练数据。关键创新包括用于初始化立体感知潜在表示的噪声重启策略和迭代细化过程,该过程逐步协调潜在空间,解决了诸如时间闪烁和视图不一致等问题。包括定量指标和用户研究在内的综合评估表明,即使深度估计不完美,StereoCrafter-Zero也能生成具有更高深度一致性和时间平滑度的高质量立体视频。我们的框架在各种扩散模型中都具有鲁棒性和适应性,为零样本立体视频生成设定了新的基准,并实现了更具沉浸感的视觉体验。我们的代码可以在https://github.com/shijianjian/StereoCrafter-Zero找到。  
2024-11-21 Efficient Aspect-Based Summarization of Climate Change Reports with Small Language Models link 自然语言处理 (NLP) 用于辅助决策者采取气候变化行动,最近被强调为与更广泛的 NLP 技术促进社会公益的驱动相一致的用例。在此背景下,提取和总结相关信息的基于方面的情感摘要 (ABS) 系统特别有用,因为它们为利益相关者提供了在专家策划的报告中查找相关信息的便捷方式。在这项工作中,我们发布了一个用于气候变化报告 ABS 的新数据集,并采用不同的大型语言模型 (LLM) 和所谓的小型语言模型 (SLM) 以无监督的方式解决这个问题。考虑到手头的问题,我们还展示了 SLM 如何在问题上没有显著恶化的同时减少碳足迹;我们通过首次将一个同时考虑能源效率和任务性能的现有框架应用于 ABS 零样本生成模型的评估来做到这一点。总体而言,我们的结果表明,无论是大型还是小型现代语言模型都可以有效地处理气候变化报告的 ABS,但当我们将问题构建为检索增强生成 (RAG) 问题时,需要进行更多研究,我们的工作和数据集将有助于促进这方面的努力。  
2024-11-21 Guided MRI Reconstruction via Schrödinger Bridge null 磁共振成像 (MRI) 是一种多对比度成像技术,其中不同的对比度图像共享相似的结构信息。然而,传统的扩散模型难以有效利用这种结构相似性。最近,薛定谔桥 (SB),作为扩散模型的非线性扩展,被提出用于在任意分布之间建立扩散路径,从而允许结合引导先验。本研究提出了一种基于SB的多对比度图像引导重建框架,在引导图像和目标图像分布之间建立扩散桥。通过在采样过程中使用引导图像以及数据一致性,可以更准确地重建目标图像。为了更好地解决图像之间的结构差异,我们引入了图像编辑领域的一种反演策略,称为 $\mathbf{I}^2$SB-inversion。在配对的T1和T2-FLAIR数据集上的实验表明,$\mathbf{I}^2$ SB-inversion 实现了高达14.4倍的加速,并在重建精度和稳定性方面优于现有方法。  
2024-11-21 TaQ-DiT: Time-aware Quantization for Diffusion Transformers null 基于Transformer的扩散模型,被称为扩散Transformer(DiT),在图像和视频生成任务中取得了最先进的性能。然而,它们庞大的模型规模和缓慢的推理速度限制了它们的实际应用,需要模型压缩方法,例如量化。不幸的是,现有的DiT量化方法忽略了(1)重建的影响和(2)不同层之间不同的量化敏感性,这阻碍了它们可实现的性能。为了解决这些问题,我们提出了创新的DiT时间感知量化(TaQ-DiT)。具体来说,(1)我们观察到在量化期间分别重建权重和激活时存在不收敛问题,并引入了一种联合重建方法来解决这个问题。(2)我们发现,Post-GELU激活对量化特别敏感,因为它们在不同的去噪步骤中存在显著的可变性,并且在每个步骤内也存在极端的不对称性和变化。为了解决这个问题,我们提出了时间方差感知变换,以促进更有效的量化。实验结果表明,当将DiT的权重量化为4位,激活量化为8位(W4A8)时,我们的方法显著优于先前的量化方法。  
2024-11-21 RestorerID: Towards Tuning-Free Face Restoration with ID Preservation link 盲人脸修复在生成高质量和逼真图像方面取得了巨大进展。然而,保留身份信息仍然具有挑战性,尤其是在图像退化严重的情况下。当前的参考引导人脸修复方法要么需要人脸对齐,要么需要个性化的测试微调,这些方法要么不忠实于原始图像,要么耗时。在本文中,我们提出了一种名为 RestorerID 的免微调方法,该方法在人脸修复过程中结合了身份信息保留。RestorerID 是一种基于扩散模型的方法,它使用单个参考图像来恢复具有不同退化程度的低质量图像。为此,我们提出了一个统一框架,将身份信息注入与基础盲人脸修复模型相结合。此外,我们设计了一种新颖的人脸身份再平衡适配器(FIR-Adapter),以解决由低质量输入和参考图像之间的信息冲突引起的内容不一致和轮廓未对齐问题。此外,通过采用自适应身份比例调整策略,RestorerID 可以针对各种退化程度生成高质量的修复图像。在 Celeb-Ref 数据集和真实场景上的实验结果表明,RestorerID 可以有效地实现高质量的人脸修复并保留身份信息,与测试微调方法和其他参考引导方法相比,实现了优越的性能。RestorerID 的代码可在 \url{https://github.com/YingJiacheng/RestorerID} 获取。  
2024-11-21 Point Cloud Resampling with Learnable Heat Diffusion null 生成式扩散模型在点云重采样方面已取得了经验上的成功,通过逐步将噪声细化为结构,从稀疏或嘈杂的3D点云生成更密集、更均匀的点分布。然而,现有的扩散模型采用手动预定义的方案,由于几何退化的刚性和破坏性,这些方案通常无法恢复底层点云结构。为了解决这个问题,我们提出了一种新的用于点云重采样的可学习热扩散框架,该框架通过学习时变热核的自适应热扩散计划和局部滤波尺度,直接参数化正向过程的边缘分布,从而为反向过程生成自适应条件先验。与先前具有固定先验的扩散模型不同,自适应条件先验通过最小化改进的变分下界来选择性地保留点云的几何特征,引导点在反向过程中向底层表面演化。大量的实验结果表明,所提出的点云重采样方法在包括点云去噪和上采样在内的代表性重建任务中实现了最先进的性能。  
2024-11-19 Auto-Evaluation with Few Labels through Post-hoc Regression null Continually evaluating large generative models provides a unique challenge. Often, human annotations are necessary to evaluate high-level properties of these models (e.g. in text or images). However, collecting human annotations of samples can be resource intensive, and using other machine learning systems to provide the annotations, or automatic evaluation, can introduce systematic errors into the evaluation. The Prediction Powered Inference (PPI) framework provides a way of leveraging both the statistical power of automatic evaluation and a small pool of labelled data to produce a low-variance, unbiased estimate of the quantity being evaluated for. However, most work on PPI considers a relatively sizable set of labelled samples, which is not always practical to obtain. To this end, we present two new PPI-based techniques that leverage robust regressors to produce even lower variance estimators in the few-label regime.  
2024-11-19 PoM: Efficient Image and Video Generation with the Polynomial Mixer link Diffusion models based on Multi-Head Attention (MHA) have become ubiquitous to generate high quality images and videos. However, encoding an image or a video as a sequence of patches results in costly attention patterns, as the requirements both in terms of memory and compute grow quadratically. To alleviate this problem, we propose a drop-in replacement for MHA called the Polynomial Mixer (PoM) that has the benefit of encoding the entire sequence into an explicit state. PoM has a linear complexity with respect to the number of tokens. This explicit state also allows us to generate frames in a sequential fashion, minimizing memory and compute requirement, while still being able to train in parallel. We show the Polynomial Mixer is a universal sequence-to-sequence approximator, just like regular MHA. We adapt several Diffusion Transformers (DiT) for generating images and videos with PoM replacing MHA, and we obtain high quality samples while using less computational resources. The code is available at https://github.com/davidpicard/HoMM.  
2024-11-19 Improving Controllability and Editability for Pretrained Text-to-Music Generation Models null The field of AI-assisted music creation has made significant strides, yet existing systems often struggle to meet the demands of iterative and nuanced music production. These challenges include providing sufficient control over the generated content and allowing for flexible, precise edits. This thesis tackles these issues by introducing a series of advancements that progressively build upon each other, enhancing the controllability and editability of text-to-music generation models. First, we introduce Loop Copilot, a system that tries to address the need for iterative refinement in music creation. Loop Copilot leverages a large language model (LLM) to coordinate multiple specialised AI models, enabling users to generate and refine music interactively through a conversational interface. Central to this system is the Global Attribute Table, which records and maintains key musical attributes throughout the iterative process, ensuring that modifications at any stage preserve the overall coherence of the music. While Loop Copilot excels in orchestrating the music creation process, it does not directly address the need for detailed edits to the generated content. To overcome this limitation, MusicMagus is presented as a further solution for editing AI-generated music. MusicMagus introduces a zero-shot text-to-music editing approach that allows for the modification of specific musical attributes, such as genre, mood, and instrumentation, without the need for retraining. By manipulating the latent space within pre-trained diffusion models, MusicMagus ensures that these edits are stylistically coherent and that non-targeted attributes remain unchanged. This system is particularly effective in maintaining the structural integrity of the music during edits, but it encounters challenges with more complex and real-world audio scenarios. …  
2024-11-19 Data Pruning in Generative Diffusion Models null Data pruning is the problem of identifying a core subset that is most beneficial to training and discarding the remainder. While pruning strategies are well studied for discriminative models like those used in classification, little research has gone into their application to generative models. Generative models aim to estimate the underlying distribution of the data, so presumably they should benefit from larger datasets. In this work we aim to shed light on the accuracy of this statement, specifically answer the question of whether data pruning for generative diffusion models could have a positive impact. Contrary to intuition, we show that eliminating redundant or noisy data in large datasets is beneficial particularly when done strategically. We experiment with several pruning methods including recent-state-of-art methods, and evaluate over CelebA-HQ and ImageNet datasets. We demonstrate that a simple clustering method outperforms other sophisticated and computationally demanding methods. We further exhibit how we can leverage clustering to balance skewed datasets in an unsupervised manner to allow fair sampling for underrepresented populations in the data distribution, which is a crucial problem in generative models.  
2024-11-19 Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models – A review and challenges for practice null Synthetic data generators, when trained using privacy-preserving techniques like differential privacy, promise to produce synthetic data with formal privacy guarantees, facilitating the sharing of sensitive data. However, it is crucial to empirically assess the privacy risks associated with the generated synthetic data before deploying generative technologies. This paper outlines the key concepts and assumptions underlying empirical privacy evaluation in machine learning-based generative and predictive models. Then, this paper explores the practical challenges for privacy evaluations of generative models for use cases with millions of training records, such as data from statistical agencies and healthcare providers. Our findings indicate that methods designed to verify the correct operation of the training algorithm are effective for large datasets, but they often assume an adversary that is unrealistic in many scenarios. Based on the findings, we highlight a crucial trade-off between the computational feasibility of the evaluation and the level of realism of the assumed threat model. Finally, we conclude with ideas and suggestions for future research.  
2024-11-19 Frequency-Aware Guidance for Blind Image Restoration via Diffusion Models null Blind image restoration remains a significant challenge in low-level vision tasks. Recently, denoising diffusion models have shown remarkable performance in image synthesis. Guided diffusion models, leveraging the potent generative priors of pre-trained models along with a differential guidance loss, have achieved promising results in blind image restoration. However, these models typically consider data consistency solely in the spatial domain, often resulting in distorted image content. In this paper, we propose a novel frequency-aware guidance loss that can be integrated into various diffusion models in a plug-and-play manner. Our proposed guidance loss, based on 2D discrete wavelet transform, simultaneously enforces content consistency in both the spatial and frequency domains. Experimental results demonstrate the effectiveness of our method in three blind restoration tasks: blind image deblurring, imaging through turbulence, and blind restoration for multiple degradations. Notably, our method achieves a significant improvement in PSNR score, with a remarkable enhancement of 3.72\,dB in image deblurring. Moreover, our method exhibits superior capability in generating images with rich details and reduced distortion, leading to the best visual quality.  
2024-11-19 A general modeling and simulation framework for dynamic vehicle routing link In dynamic vehicle routing problems (DVRPs), some part of the information is revealed or changed on the fly, and the decision maker has the opportunity to re-plan the vehicle routes during their execution, reflecting on the changes. Accordingly, the solution to a DVRP is a flexible policy rather than a set of fixed routes. A policy is basically a problem-specific algorithm that is invoked at various decision points in the planning horizon and returns a decision according to the current state. Since DVRPs involve dynamic decision making, a simulator is an essential tool for dynamically testing and evaluating the policies. Despite this, there are few tools available that are specifically designed for this purpose. To fill this gap, we have developed a simulation framework that is suitable for a wide range of dynamic vehicle routing problems and allows to dynamically test different policies for the given problem. In this paper, we present the background of this simulation tool, for which we proposed a general modeling framework suitable for formalizing DVRPs independently of simulation purposes. Our open source simulation tool is already available, easy to use, and easily customizable, making it a useful tool for the research community.  
2024-11-19 Combinational Backdoor Attack against Customized Text-to-Image Models null Recently, Text-to-Image (T2I) synthesis technology has made tremendous strides. Numerous representative T2I models have emerged and achieved promising application outcomes, such as DALL-E, Stable Diffusion, Imagen, etc. In practice, it has become increasingly popular for model developers to selectively adopt various pre-trained text encoders and conditional diffusion models from third-party platforms, integrating them to build customized (personalized) T2I models. However, such an adoption approach is vulnerable to backdoor attacks. In this work, we propose a Combinational Backdoor Attack against Customized T2I models (CBACT2I) targeting this application scenario. Different from previous backdoor attacks against T2I models, CBACT2I embeds the backdoor into the text encoder and the conditional diffusion model separately. The customized T2I model exhibits backdoor behaviors only when the backdoor text encoder is used in combination with the backdoor conditional diffusion model. These properties make CBACT2I more stealthy and flexible than prior backdoor attacks against T2I models. Extensive experiments demonstrate the effectiveness of CBACT2I with different backdoor triggers and different backdoor targets on the open-sourced Stable Diffusion model. This work reveals the backdoor vulnerabilities of customized T2I models and urges countermeasures to mitigate backdoor threats in this scenario.  
2024-11-19 Scalable and Effective Negative Sample Generation for Hyperedge Prediction null Hyperedge prediction is crucial in hypergraph analysis for understanding complex multi-entity interactions in various web-based applications, including social networks and e-commerce systems. Traditional methods often face difficulties in generating high-quality negative samples due to the imbalance between positive and negative instances. To address this, we present the Scalable and Effective Negative Sample Generation for Hyperedge Prediction (SEHP) framework, which utilizes diffusion models to tackle these challenges. SEHP employs a boundary-aware loss function that iteratively refines negative samples, moving them closer to decision boundaries to improve classification performance. SEHP samples positive instances to form sub-hypergraphs for scalable batch processing. By using structural information from sub-hypergraphs as conditions within the diffusion process, SEHP effectively captures global patterns. To enhance efficiency, our approach operates directly in latent space, avoiding the need for discrete ID generation and resulting in significant speed improvements while preserving accuracy. Extensive experiments show that SEHP outperforms existing methods in accuracy, efficiency, and scalability, representing a substantial advancement in hyperedge prediction techniques. Our code is available here.  
2024-11-19 Diffusion Product Quantization null In this work, we explore the quantization of diffusion models in extreme compression regimes to reduce model size while maintaining performance. We begin by investigating classical vector quantization but find that diffusion models are particularly susceptible to quantization error, with the codebook size limiting generation quality. To address this, we introduce product quantization, which offers improved reconstruction precision and larger capacity – crucial for preserving the generative capabilities of diffusion models. Furthermore, we propose a method to compress the codebook by evaluating the importance of each vector and removing redundancy, ensuring the model size remaining within the desired range. We also introduce an end-to-end calibration approach that adjusts assignments during the forward pass and optimizes the codebook using the DDPM loss. By compressing the model to as low as 1 bit (resulting in over 24 times reduction in model size), we achieve a balance between compression and quality. We apply our compression method to the DiT model on ImageNet and consistently outperform other quantization approaches, demonstrating competitive generative performance.  
2024-11-15 M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation link 计算机视觉领域最近出现了一种名为VAR的新型自回归图像生成范式。与传统的逐像素预测不同,VAR将图像生成从结构上重新表述为从粗到精的逐尺度预测。本文展示了这种尺度自回归框架可以有效地解耦为尺度内建模和尺度间建模,前者捕捉每个尺度内的局部空间依赖性,后者则逐步建立从粗到精尺度之间的跨尺度关系。这种解耦结构允许以更高效的方式重建VAR。具体而言,对于生成高保真图像至关重要的尺度内建模,我们保留了原始的双向自注意力设计,以确保全面建模;对于语义连接不同尺度但计算密集的尺度间建模,我们应用了Mamba等线性复杂度机制,以大幅降低计算开销。我们将此新框架称为M-VAR。大量实验表明,我们的方法在图像质量和生成速度方面均优于现有模型。例如,我们的1.5B模型,参数更少且推理速度更快,性能却优于最大的VAR-d30-2B模型。此外,我们最大的模型M-VAR-d32在ImageNet 256×256上令人印象深刻地达到了1.78的FID值,分别优于先前最先进的自回归模型LlamaGen/VAR 0.4/0.19和流行的扩散模型LDM/DiT 1.82/0.49。代码可在\url{https://github.com/OliverRensu/MVAR}获取。  
2024-11-15 Mitigating Parameter Degeneracy using Joint Conditional Diffusion Model for WECC Composite Load Model in Power Systems null 数据驱动动态系统建模近年来受到广泛关注。其逆向公式,参数估计,旨在从观测数据中推断出固有的模型参数。然而,参数退化,即不同的参数组合产生相同的可观测输出,对准确且唯一地识别模型参数构成了关键障碍。在电力系统WECC复合负荷模型(CLM)的背景下,公用事业从业者观察到,针对某一故障事件精心选择的CLM参数在另一故障事件中可能无法令人满意地执行。在此,我们创新了一种基于联合条件扩散模型的逆问题求解器(JCDI),它结合了联合条件架构,同时输入多事件观测数据,以提高参数的泛化能力。对WECC CLM的仿真研究表明,所提出的JCDI有效地减少了退化参数的不确定性,从而使参数估计误差相比单事件学习方案降低了42.1%。这使得该模型能够高精度地预测不同故障事件(包括电子负载跳闸和电机堵转)下的功率轨迹,优于标准的深度强化学习和监督学习方法。我们预计这项工作将有助于缓解系统动力学中的参数退化问题,为各个科学领域提供一个通用的参数估计框架。  
2024-11-15 Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion null 最近基于扩散的单图像3D人像生成方法通常采用2D扩散模型来提供多视角知识,然后将其提取到3D表示中。然而,这些方法通常难以生成高保真3D模型,经常产生过度模糊的纹理。我们将这个问题归因于在扩散过程中对跨视角一致性考虑不足,导致不同视角之间存在显著差异,最终导致3D表示模糊。在本文中,我们通过在条件和扩散过程中全面利用多视角先验来解决这个问题,以生成一致的、细节丰富的人像。从条件的角度来看,我们提出了一个混合先验扩散模型,它显式地和隐式地结合了多视角先验作为条件,以增强生成的多视角人像的状态一致性。从扩散的角度来看,考虑到扩散噪声分布对细节纹理生成的显著影响,我们提出了一种多视角噪声重采样策略,该策略集成在优化过程中,利用跨视角先验来增强表示一致性。大量实验表明,我们的方法可以从单个图像生成具有精确几何形状和丰富细节的3D人像。项目页面位于\url{https://haoran-wei.github.io/Portrait-Diffusion}。  
2024-11-15 Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding null 近年来,文本到图像 (T2I) 生成模型在生成与文本描述一致的高质量图像方面取得了显著进展。然而,这些模型也面临着不安全生成的风险,可能会产生违反使用策略的有害内容,例如色情内容。现有的安全生成方法通常侧重于通过从视觉表示中消除不良概念来抑制不当内容,而忽略了对文本表示的净化。虽然这些方法在一定程度上降低了滥用的风险,但在应对对抗性攻击时,它们的鲁棒性仍然不足。鉴于输入文本和输出图像之间的语义一致性是 T2I 模型的基本要求,我们发现文本表示(即提示嵌入)可能是不安全生成的主要来源。为此,我们提出了一个与视觉无关的安全生成框架,嵌入净化器 (ES),它专注于从提示嵌入中消除不当概念,并使用净化后的嵌入来指导模型进行安全生成。ES 作为即插即用模块应用于文本编码器的输出,可以与不同的 T2I 模型以及其他安全措施无缝集成。此外,ES 独特的评分机制为提示中的每个标记分配一个分数,以指示其潜在危害,并动态调整净化强度以平衡防御性能和生成质量。通过对五个提示基准的广泛评估,与九种基线方法相比,我们的方法通过净化不安全生成的源头(提示嵌入)实现了最先进的鲁棒性。它在可解释性和可控性方面显着优于现有的安全措施,同时保持了生成质量。  
2024-11-15 Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting link 当前图像拼接方法在诸如色调不均匀和大视差等挑战性场景下经常会产生明显的接缝。为了解决这个问题,我们提出了参考驱动型修复拼接器 (RDIStitcher),它将图像融合和矩形化重新表述为一个基于参考的修复模型,并结合了比以往方法更大的修改融合区域和更强的修改强度。此外,我们引入了一种自监督模型训练方法,通过微调文本到图像 (T2I) 扩散模型,无需标记数据即可实现 RDIStitcher。认识到评估拼接图像质量的困难,我们提出了基于多模态大型语言模型 (MLLM) 的指标,为评估拼接图像质量提供了新的视角。与最先进 (SOTA) 方法相比,大量实验表明,我们的方法显著增强了拼接图像的内容连贯性和无缝过渡。特别是在零样本实验中,我们的方法展现出强大的泛化能力。代码:https://github.com/yayoyo66/RDIStitcher  
2024-11-15 The Unreasonable Effectiveness of Guidance for Diffusion Models null 引导是一种纠错技术,用于提高扩散模型生成图像的感知质量。通常,这种纠正是通过线性外推法实现的,使用的是性能低于主模型的辅助扩散模型。通过一个二维玩具示例,我们展示了当辅助模型表现出与主模型相似但更强的错误时,这种方法非常有效。我们在更高维度上验证了这一发现,并表明当辅助模型与主模型的区别仅在于更强的权重正则化时,可以实现与最先进的引导方法相媲美的生成性能。作为一项独立的贡献,我们研究了提升长程空间依赖性是否能提高视觉保真度。研究成果是一种新颖的引导方法,我们称之为滑动窗口引导(SWG),它通过约束主模型的感受野来引导自身。有趣的是,SWG比最先进的引导方法更符合人类的偏好,而且既不需要训练,也不需要修改架构或类别条件。代码将被发布。  
2024-11-15 Smooth transport map via diffusion process null 我们将经典的最优传输正则性理论扩展到由高斯测度扰动的热流生成的非最优传输映射。考虑 $\mathbb{R}^d$上形式为$ d\mu(x) = \exp\left(-\frac{ x
2024-11-15 ColorEdit: Training-free Image-Guided Color editing with diffusion model null Text-to-image (T2I) diffusion models, with their impressive generative capabilities, have been adopted for image editing tasks, demonstrating remarkable efficacy. However, due to attention leakage and collision between the cross-attention map of the object and the new color attribute from the text prompt, text-guided image editing methods may fail to change the color of an object, resulting in a misalignment between the resulting image and the text prompt. In this paper, we conduct an in-depth analysis on the process of text-guided image synthesizing and what semantic information different cross-attention blocks have learned. We observe that the visual representation of an object is determined in the up-block of the diffusion model in the early stage of the denoising process, and color adjustment can be achieved through value matrices alignment in the cross-attention layer. Based on our findings, we propose a straightforward, yet stable, and effective image-guided method to modify the color of an object without requiring any additional fine-tuning or training. Lastly, we present a benchmark dataset called COLORBENCH, the first benchmark to evaluate the performance of color change methods. Extensive experiments validate the effectiveness of our method in object-level color editing and surpass the performance of popular text-guided image editing approaches in both synthesized and real images.  
2024-11-15 Evaluating Text-to-Image Diffusion Models for Texturing Synthetic Data link Building generic robotic manipulation systems often requires large amounts of real-world data, which can be dificult to collect. Synthetic data generation offers a promising alternative, but limiting the sim-to-real gap requires significant engineering efforts. To reduce this engineering effort, we investigate the use of pretrained text-to-image diffusion models for texturing synthetic images and compare this approach with using random textures, a common domain randomization technique in synthetic data generation. We focus on generating object-centric representations, such as keypoints and segmentation masks, which are important for robotic manipulation and require precise annotations. We evaluate the efficacy of the texturing methods by training models on the synthetic data and measuring their performance on real-world datasets for three object categories: shoes, T-shirts, and mugs. Surprisingly, we find that texturing using a diffusion model performs on par with random textures, despite generating seemingly more realistic images. Our results suggest that, for now, using diffusion models for texturing does not benefit synthetic data generation for robotics. The code, data and trained models are available at \url{https://github.com/tlpss/diffusing-synthetic-data.git}.  
2024-11-15 Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning null The stylization of 3D scenes is an increasingly attractive topic in 3D vision. Although image style transfer has been extensively researched with promising results, directly applying 2D style transfer methods to 3D scenes often fails to preserve the structural and multi-view properties of 3D environments, resulting in unpleasant distortions in images from different viewpoints. To address these issues, we leverage the remarkable generative prior of diffusion-based models and propose a novel style transfer method, OSDiffST, based on a pre-trained one-step diffusion model (i.e., SD-Turbo) for rendering diverse styles in multi-view images of 3D scenes. To efficiently adapt the pre-trained model for multi-view style transfer on small datasets, we introduce a vision condition module to extract style information from the reference style image to serve as conditional input for the diffusion model and employ LoRA in diffusion model for adaptation. Additionally, we consider color distribution alignment and structural similarity between the stylized and content images using two specific loss functions. As a result, our method effectively preserves the structural information and multi-view consistency in stylized images without any 3D information. Experiments show that our method surpasses other promising style transfer methods in synthesizing various styles for multi-view images of 3D scenes. Stylized images from different viewpoints generated by our method achieve superior visual quality, with better structural integrity and less distortion. The source code is available at https://github.com/YushenZuo/OSDiffST.  
2024-11-14 A Bayesian Optimization Approach to Machine Translation Reranking null 使用外部评分模型对机器翻译系统的候选列表进行重新排序并返回得分最高的候选仍然是提高整体输出质量的一种简单有效的方法。翻译评分模型的规模持续增长,最佳模型的规模已与生成模型相当。因此,重新排序可能会给翻译流程增加大量的计算成本。在这项工作中,我们将重新排序视为贝叶斯优化(BayesOpt)问题。通过基于探索和利用之间的平衡策略性地选择要评分的候选,我们证明了在仅对候选列表的一小部分进行评分时,找到得分最高的候选是可行的。例如,我们的方法仅使用70次评分评估就达到了与基线系统使用180次评估相同的CometKiwi得分。我们提出了一种用于BayesOpt的多保真度设置,其中候选首先使用更便宜但噪声更大的代理评分模型进行评分,这在使用更小但训练良好的蒸馏代理评分器时,可以进一步改善成本-性能的权衡。  
2024-11-14 Golden Noise for Diffusion Models: A Learning Framework null 文转图扩散模型是一种流行的范式,它通过提供文本提示和随机高斯噪声来合成个性化图像。虽然人们观察到某些噪声是“黄金噪声”,可以实现比其他噪声更好的文本-图像对齐和更高的人类偏好,但我们仍然缺乏一个机器学习框架来获取这些黄金噪声。为了学习用于扩散采样的黄金噪声,我们在本文中主要做了三点贡献。首先,我们提出了一个名为“噪声提示”的新概念,旨在通过添加从文本提示中导出的小的理想扰动,将随机高斯噪声转化为黄金噪声。遵循这一概念,我们首先制定了“噪声提示学习”框架,该框架系统地学习与文本提示相关的用于扩散模型的“提示”黄金噪声。其次,我们设计了一个噪声提示数据收集管道,并收集了一个包含10万对随机噪声和黄金噪声及其相关文本提示的大规模“噪声提示数据集”(NPD)。利用准备好的NPD作为训练数据集,我们训练了一个小型“噪声提示网络”(NPNet),可以直接学习将随机噪声转换为黄金噪声。学习到的黄金噪声扰动可以被认为是一种噪声提示,因为它富含语义信息并且针对给定的文本提示进行了定制。第三,我们广泛的实验表明,NPNet在改进各种扩散模型(包括SDXL、DreamShaper-xl-v2-turbo和Hunyuan-DiT)的合成图像质量方面具有令人印象深刻的有效性和泛化性。此外,NPNet是一个小型高效的控制器,它作为一个即插即用模块,只需很小的额外推理和计算成本,因为它只是提供黄金噪声而不是随机噪声,而无需访问原始管道。  
2024-11-14 Sparse Bayesian Generative Modeling for Compressive Sensing link 这项工作通过引入一种新型的正则化生成先验,解决了压缩感知 (CS) 中的基本线性逆问题。我们提出的方法利用了基于经典字典的压缩感知的思想,特别是稀疏贝叶斯学习 (SBL),以整合对稀疏解的强正则化。同时,通过利用条件高斯性的概念,它还结合了生成模型对训练数据的适应性。然而,与大多数最先进的生成模型不同,它能够从少量压缩的噪声数据样本中学习,并且不需要优化算法来解决逆问题。此外,与狄利克雷先验网络类似,我们的模型参数化了一个共轭先验,使其能够应用于不确定性量化。我们通过变分推理的概念在理论上支持我们的方法,并使用不同类型的可压缩信号进行经验验证。  
2024-11-14 DiffRoad: Realistic and Diverse Road Scenario Generation for Autonomous Vehicle Testing null 生成逼真且多样化的道路场景对于自动驾驶汽车的测试和验证至关重要。然而,由于现实世界道路环境的复杂性和多变性,为智能驾驶测试创建真实且多样的场景具有挑战性。在本文中,我们提出了DiffRoad,一种旨在生成可控且高保真度3D道路场景的新型扩散模型。DiffRoad利用扩散模型的生成能力,通过逆去噪过程从白噪声合成道路布局,保留真实世界的空间特征。为了提高生成场景的质量,我们设计了Road-UNet架构,优化了主干网络和跳跃连接之间的平衡,以生成高真实感的场景。此外,我们引入了一个道路场景评估模块,使用两个关键指标(道路连续性和道路合理性)筛选用于智能驾驶测试的适当且合理的场景。在多个真实世界数据集上的实验结果表明,DiffRoad能够生成逼真且平滑的道路结构,同时保持原始分布。此外,生成的场景可以完全自动化转换为OpenDRIVE格式,方便通用的自动驾驶汽车仿真测试。DiffRoad为大规模自动驾驶汽车测试提供了丰富多样的场景库,并为未来更适合自动驾驶汽车的基础设施设计提供了宝贵的见解。  
2024-11-14 Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models null 扩散模型为图像生成领域注入了新的活力,在学术研究和艺术表达中都发挥着至关重要的作用。随着新的扩散模型的出现,评估文本到图像模型的性能变得越来越重要。目前的指标侧重于将输入文本与生成的图像直接匹配,但由于跨模态信息的不对称性,这会导致评估结果不可靠或不完整。基于此,我们在本研究中引入了图像再生任务,通过要求文本到图像模型根据参考图像生成图像来评估文本到图像模型。我们使用GPT4V来弥合参考图像和文本到图像模型的文本输入之间的差距,使文本到图像模型能够理解图像内容。由于生成的图像和参考图像之间的比较非常直接,因此该评估过程得到了简化。我们引入了两个涵盖内容多样性和风格多样性的再生数据集,用于评估目前领先的扩散模型。此外,我们提出了ImageRepainter框架,通过MLLM引导的迭代生成和修正来提高内容理解,从而增强生成图像的质量。我们全面的实验展示了该框架在评估模型生成能力方面的有效性。通过利用MLLM,我们证明了一个强大的文本到图像模型可以生成更接近参考图像的图像。  
2024-11-14 A survey of probabilistic generative frameworks for molecular simulations link 生成式人工智能现在是分子科学中广泛使用的工具。尽管概率生成模型很受欢迎,但缺乏对其在分子数据上性能进行基准测试的数值实验。在这项工作中,我们介绍并解释了几类生成模型,大致分为两类:基于流的模型和扩散模型。我们选择了三个具有代表性的模型:神经样条流(Neural Spline Flows)、条件流匹配(Conditional Flow Matching)和去噪扩散概率模型(Denoising Diffusion Probabilistic Models),并检查了它们在具有可调维度、复杂性和模态不对称性的数据集上的准确性、计算成本和生成速度。我们的研究结果各不相同,没有一个框架对所有目的都是最佳的。简而言之,(i) 神经样条流最擅长捕捉低维数据中存在的模态不对称性,(ii) 条件流匹配在低复杂度的高维数据上优于其他模型,(iii) 去噪扩散概率模型似乎最适合高复杂度的低维数据。我们的数据集包括一个高斯混合模型和通过分子动力学模拟生成的Aib₉肽的二面角扭角分布。我们希望我们的概率生成框架分类和数值结果可以指导各种分子任务的模型选择。  
2024-11-14 Multi-scale Generative Modeling for Fast Sampling null 虽然在空间域工作会由于幂律衰减导致病态分数,但基于扩散的生成模型的最新进展表明,过渡到小波域提供了一种很有前景的替代方案。然而,在小波域内,我们面临着独特的挑战,特别是高频系数的稀疏表示,这与扩散过程中的高斯假设存在显著偏差。为此,我们提出了一种在小波域中的多尺度生成模型,该模型采用不同的策略来处理低频和高频带。在小波域中,我们对低频带应用具有良好条件分数的基于分数的生成模型,同时对高频带利用多尺度生成对抗学习。理论分析和实验结果表明,我们的模型显著提高了性能,并减少了可训练参数的数量、采样步骤和时间。  
2024-11-14 ParaLBench: A Large-Scale Benchmark for Computational Paralinguistics over Acoustic Foundation Models null 计算副语言学 (ComParal) 旨在开发算法和模型,以自动检测、分析和解释语音交际中的非语言信息,例如情绪、健康状况、年龄和性别。尽管发展迅速,但它严重依赖于针对特定副语言任务设计的复杂模型。因此,ComParal 模型的异质性和多样性在很大程度上阻碍了其在实际中的应用。近年来,随着自监督学习的兴起和声学基础模型的出现,开发能够有效感知大量副语言信息的更通用的模型已成为语音处理中的一个活跃话题。然而,它缺乏一个统一的评估框架来进行公平和一致的性能比较。为了弥合这一差距,我们开展了一个名为 ParaLBench 的大规模基准测试,该基准测试致力于标准化各种副语言任务的评估流程,包括情感计算的关键方面,如情绪识别和情绪维度预测,并涵盖不同的声学基础模型。此基准测试包含十个数据集和十三个不同的副语言任务,涵盖短期、中期和长期特征。每个任务都在 14 个声学基础模型上使用统一的评估框架进行,从而实现无偏见的方法比较,并为 ComParal 社区提供可靠的参考。基于从 ParaLBench 获得的见解,我们还指出了潜在的研究方向,例如跨语料库的泛化性,以推动 ComParal 未来研究的发展。这项研究相关的代码将公开,以提高这项工作的透明度和可重复性,造福后来的研究人员。  
2024-11-14 Approximate Probabilistic Inference forTime-Series Data A Robust Latent Gaussian Model With Temporal Awareness null 针对高度变化的非平稳时间序列数据开发鲁棒的生成模型是一个复杂且重要的课题。传统的用于时间序列数据预测的模型,例如长短期记忆网络(LSTM),效率低且泛化能力差,因为它们无法捕捉复杂的时间关系。在本文中,我们提出了一种概率生成模型,可以训练它来捕捉时间信息,并且对数据错误具有鲁棒性。我们称之为时间深度潜高斯模型(tDLGM)。其新颖的架构受到深度潜高斯模型(DLGM)的启发。我们的模型通过最小化基于负对数似然的损失函数进行训练。时间深度潜高斯模型(tDLGM)鲁棒性的一个促成因素是我们的正则化项,它考虑了数据趋势。进行的实验表明,tDLGM能够重建和生成复杂的时间序列数据,并且对噪声和错误数据具有鲁棒性。  
2024-11-14 LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space null 现有的单样本说话头像生成模型在粗粒度情绪编辑方面取得了进展,但仍然缺乏具有高可解释性的细粒度情绪编辑模型。我们认为,要使一种方法被认为是细粒度的,它需要提供清晰的定义和足够详细的区分。我们提出了LES-Talker,一种具有高可解释性的新型单样本说话头像生成模型,以实现跨情绪类型、情绪级别和面部单元的细粒度情绪编辑。我们提出了一种基于面部动作单元的线性情绪空间(LES)定义,将情绪转换表征为向量转换。我们设计了跨维度注意力网络(CDAN)来深入挖掘LES表示和3D模型表示之间的相关性。通过挖掘不同特征和结构维度之间的多重关系,我们使LES表示能够引导3D模型的可控变形。为了使具有偏差的多模态数据适应LES并增强视觉质量,我们利用了专门的网络设计和训练策略。实验表明,我们的方法提供了高视觉质量以及多层次且可解释的细粒度情绪编辑,优于主流方法。  
2024-11-12 Scaling Properties of Diffusion Models for Perceptual Tasks null 在本文中,我们认为基于扩散模型的迭代计算不仅为生成任务,也为视觉感知任务提供了一个强大的范式。我们将深度估计、光流和分割等任务统一在图像到图像的转换框架下,并展示了扩散模型如何从训练和测试时计算规模的扩展中受益。通过仔细分析这些缩放行为,我们提出了各种有效训练用于视觉感知任务的扩散模型的技术。我们的模型在显著减少数据和计算量的情况下,实现了与最先进方法相当或更优的性能。使用我们的代码和模型,请访问https://scaling-diffusion-perception.github.io。  
2024-11-12 GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation null 虽然3D内容生成技术已经取得了显著进展,但现有方法仍然面临着输入格式、潜在空间设计和输出表示方面的挑战。本文介绍了一种新颖的3D生成框架,解决了这些挑战,并通过交互式点云结构的潜在空间,实现了可扩展的高质量3D生成。我们的框架采用了一种变分自动编码器(VAE),其输入为多视角姿态RGB-D(深度)-N(法线)渲染,并使用独特的潜在空间设计来保留3D形状信息,同时结合了级联潜在扩散模型以改进形状与纹理的解耦。所提出的方法GaussianAnything支持多模态条件3D生成,允许点云、文本描述和单/多视角图像作为输入。值得注意的是,新提出的潜在空间天然支持几何与纹理的解耦,从而实现了3D感知的编辑。实验结果证明了我们的方法在多个数据集上的有效性,在文本和图像条件的3D生成方面均优于现有方法。  
2024-11-12 Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings link 大型3D生成模型需要大量的计算资源,但通常难以在高分辨率下捕捉精细的细节和复杂的几何形状。我们将此限制归因于当前表示方法的低效性,它们缺乏有效建模生成模型所需的紧凑性。为了解决这个问题,我们引入了一种名为小波潜在扩散(WaLa)的新方法,它将3D形状编码为基于小波的紧凑潜在编码。具体来说,我们将一个 $256^3$的符号距离场压缩成一个$12^3 \times 4$的潜在网格,实现了惊人的2427倍压缩率,且细节损失极小。这种高压缩率使我们的方法能够有效地训练大规模生成网络,而不会增加推理时间。我们的模型(包括有条件和无条件的)包含大约10亿个参数,并成功地在$256^3$ 分辨率下生成高质量的3D形状。此外,WaLa提供快速推理,尽管模型规模很大,但根据条件的不同,可在两到四秒内生成形状。我们在多个数据集上展示了最先进的性能,在生成质量、多样性和计算效率方面都有显著提高。我们开源了代码,并且据我们所知,发布了跨不同模态的最大预训练3D生成模型。  
2024-11-12 JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation link 我们提出了JanusFlow,这是一个强大的框架,它将图像理解和生成统一在一个单一模型中。JanusFlow引入了一个极简的架构,它集成了自回归语言模型和校正流,后者是生成模型中最先进的方法。我们的主要发现表明,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构修改。为了进一步提高我们统一模型的性能,我们采用了两个关键策略:(i)解耦理解编码器和生成编码器,以及(ii)在统一训练期间对齐它们的表示。大量实验表明,JanusFlow在其各自领域实现了与专用模型相当或更优的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。  
2024-11-12 Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules null 人类擅长从有限样本中发现规律性结构,并将推断出的规则应用于新的环境。我们研究了现代生成模型是否同样可以从有限样本中学习潜在规则,并通过条件采样进行推理。受瑞文推理测验的启发,我们设计了GenRAVEN数据集,其中每个样本包含三行,并且40个关系规则之一(控制对象位置、数量或属性)适用于所有行。我们将样本编码为整数数组,以专注于规则学习,并训练生成模型来学习数据分布。我们比较了两个生成模型系列:扩散模型(EDM、DiT、SiT)和自回归模型(GPT2、Mamba)。我们评估了它们生成结构一致样本的能力,并通过无条件和条件采样进行面板补全。我们发现扩散模型在无条件生成方面表现出色,可以从头开始生成更多新颖且一致的样本,并且记忆更少,但在面板补全方面表现较差,即使使用高级条件采样方法也是如此。相反,自回归模型擅长以符合规则的方式补全缺失面板,但无条件生成的样本一致性较低。我们观察到不同的数据规模效应:对于这两个模型系列,规则学习都出现在特定的数据集大小——大约每个规则1000个示例左右。随着训练数据的增加,扩散模型的无条件和条件生成能力都有所提高。然而,对于自回归模型,虽然面板补全随着训练数据的增加而改进,但无条件生成的一致性却下降。我们的研究结果突出了扩散模型和自回归模型在规则学习和推理任务中的互补能力和局限性,为进一步研究其机制和类人推理的潜力提供了方向。  
2024-11-12 Novel View Synthesis with Pixel-Space Diffusion Models null 从单张输入图像合成新视角是一项具有挑战性的任务。传统上,这项任务通过估计场景深度、扭曲和修复来完成,机器学习模型支持了部分流程。最近,生成模型越来越多地用于新视角合成(NVS),通常涵盖整个端到端系统。在这项工作中,我们调整了一个现代的扩散模型架构,用于像素空间中的端到端NVS,其性能大大超过了之前的最先进(SOTA)技术。我们探索了将几何信息编码到网络中的不同方法。我们的实验表明,虽然这些方法可以提高性能,但与利用改进的生成模型相比,它们的影响很小。此外,我们引入了一种新的NVS训练方案,该方案利用单视图数据集,充分利用了它们相对于多视图数据集的相对丰富性。这使得模型对域外内容场景的泛化能力得到提升。  
2024-11-12 Nanosecond nanothermometry in an electron microscope null 纳米结构中的热传输在现代科技中扮演着至关重要的角色。随着器件尺寸的缩小,能够在纳米和纳秒尺度测量热学性质的技术越来越需要,以捕捉瞬态的非平衡现象。我们提出了一种在扫描透射电子显微镜(STEM)中使用的新型泵浦-探测光子-电子方法,以绘制具有前所未有的空间和时间分辨率的温度动态图。通过结合聚焦激光诱导加热和同步时间分辨单色电子能量损失谱(EELS),我们跟踪了各种材料(包括氮化硅、铝薄膜和过渡金属二硫化物)中的声子、激子和等离子体激元信号。我们的结果证明了该技术能够跟踪纳米和纳秒尺度的温度变化。实验数据与理论热扩散模型紧密匹配,证实了该方法的有效性。这种方法为研究纳米级材料中的瞬态热现象开辟了新的机会,为热电器件和纳米电子学中的应用提供了宝贵的见解。  
2024-11-12 LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution null 近年来,多模态数据融合已被广泛研究,并应用于机器人、手势识别和自动导航等各种应用。事实上,高质量的视觉传感器价格昂贵,而消费级传感器的图像分辨率较低。研究人员开发了将RGB彩色图像与非视觉数据(例如热图像)相结合的方法,以克服这一限制并提高分辨率。融合多种模态以生成视觉上吸引人的高分辨率图像通常需要具有数百万参数的密集模型和大量的计算负荷,这通常归因于模型的复杂架构。我们提出了LapGSR,一种结合了拉普拉斯图像金字塔的多模态轻量级生成模型,用于引导热图像超分辨率。这种方法在RGB彩色图像上使用拉普拉斯金字塔来提取重要的边缘信息,然后将其与像素损失和对抗损失相结合,以绕过模型较高层中的繁重特征图计算。LapGSR在保持图像的空间和结构细节的同时,还具有高效和紧凑的特点。这使得模型的参数数量明显少于其他最先进的模型,同时在两个跨域数据集(即ULB17-VT和VGTSR数据集)上展现出优异的结果。  
2024-11-12 Evaluating the Generation of Spatial Relations in Text and Image Generative Models null 理解空间关系对于人类和人工智能来说都是一项至关重要的认知能力。虽然目前的研究主要集中在文本到图像 (T2I) 模型的基准测试上,但我们提出了一个更全面的评估方法,包括 T2I 模型和大型语言模型 (LLM)。由于空间关系在视觉空间上的理解更为自然,我们开发了一种将 LLM 输出转换为图像的方法,从而使我们能够以视觉方式评估 T2I 模型和 LLM。我们基于一组 10 个常用介词,检验了 8 个 prominent 生成模型(3 个 T2I 模型和 5 个 LLM)对空间关系的理解,并评估了自动评估方法的可行性。令人惊讶的是,我们发现尽管 T2I 模型具有一般的图像生成能力,但在空间关系理解方面表现不佳。更令人惊讶的是,我们的结果表明,尽管主要是在文本数据上进行训练,但 LLM 在生成空间关系方面比 T2I 模型准确得多。我们研究了模型失败的原因,并强调了可以填补的差距,以便生成更符合空间关系的图像。  
2024-11-12 Leveraging Previous Steps: A Training-free Fast Solver for Flow Diffusion null 流扩散模型(FDM)最近在生成任务中展现出潜力,这归功于其高质量的生成能力。然而,目前用于FDM的常微分方程(ODE)求解器,例如欧拉求解器,由于ODE求解器需要大量的函数评估(NFE)来维持高质量的生成,因此仍然存在生成速度慢的问题。在本文中,我们提出了一种新颖的免训练流求解器,以在保持高质量生成的同时减少NFE。该流求解器的关键在于利用先前的步骤来减少NFE,其中创建一个缓存来复用先前步骤的结果。具体来说,首先使用泰勒展开来逼近ODE。为了计算泰勒展开的高阶导数,该流求解器建议使用先前的步骤和多项式插值来逼近它,其中我们可以逼近的阶数等于我们缓存的先前步骤的数量。我们还证明了该流求解器具有更小的逼近误差和更快的生成速度。在CIFAR-10、CelebA-HQ、LSUN-Bedroom、LSUN-Church、ImageNet和真实文本到图像生成的实验结果证明了该流求解器的效率。具体来说,在CIFAR-10和LSUN-Church上,当NFE=10时,该流求解器将FID-30K分别从13.79提高到6.75,从46.64提高到19.49。  
2024-11-08 StdGEN: Semantic-Decomposed 3D Character Generation from Single Images null 我们提出了StdGEN,这是一个创新的流水线,用于从单张图像生成语义分解的高质量3D角色,使其可在虚拟现实、游戏和电影制作等领域得到广泛应用。与以往那些在分解能力有限、质量不令人满意以及优化时间过长等方面存在不足的方法不同,StdGEN具有可分解性、有效性和高效性;也就是说,它可以在三分钟内生成具有单独语义组件(如身体、衣服和头发)的细节复杂的3D角色。StdGEN的核心是我们提出的语义感知大型重建模型(S-LRM),这是一个基于Transformer的通用模型,它以前馈方式从多视图图像中联合重建几何形状、颜色和语义信息。我们引入了一种可微分的多分层语义表面提取方案,用于从S-LRM重建的混合隐式场中获取网格。此外,该流水线还集成了一个专门的高效多视图扩散模型和一个迭代多分层表面细化模块,以促进高质量、可分解的3D角色生成。大量实验表明,我们在3D动漫角色生成方面达到了最先进的性能,在几何形状、纹理和可分解性方面显著超越了现有基线。StdGEN提供可直接使用的语义分解3D角色,并支持灵活的定制,适用于各种应用。项目页面:https://stdgen.github.io  
2024-11-08 Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models null 评估自动生成的图像描述的质量是一项复杂的任务,需要能够捕捉各种维度的指标,例如语法性、覆盖率、准确性和真实性。虽然人工评估可以提供有价值的见解,但其成本高昂且耗时,存在局限性。现有的自动化指标,如 BLEU、ROUGE、METEOR 和 CIDEr 试图填补这一空白,但它们与人类判断的相关性通常较弱。为了应对这一挑战,我们提出了一个名为 Image2Text2Image 的新型评估框架,它利用 Stable Diffusion 或 DALL-E 等扩散模型进行文本到图像的生成。在 Image2Text2Image 框架中,首先使用选定的图像描述模型(即待评估模型)处理输入图像,以生成文本描述。然后,使用该生成的描述,通过扩散模型创建新图像。通过比较从原始图像和生成图像中提取的特征,我们使用指定的相似性度量来衡量它们的相似性。高相似性得分表明该模型生成了忠实的文本描述,而低得分则突显了差异,揭示了模型性能的潜在弱点。值得注意的是,我们的框架不依赖于人工标注的参考描述,使其成为评估图像描述模型的宝贵工具。大量的实验和人工评估验证了我们提出的 Image2Text2Image 评估框架的有效性。代码和数据集将被公开发布,以支持社区的进一步研究。  
2024-11-08 Improving Molecular Graph Generation with Flow Matching and Optimal Transport null 生成分子图在药物设计和发现中至关重要,但由于节点和边之间复杂的相互依赖性,这仍然是一项挑战。虽然扩散模型已证明其在分子图设计中的潜力,但它们经常面临训练不稳定和采样效率低下的问题。为了提高生成性能和训练稳定性,我们提出了GGFlow,这是一种结合了最优传输的离散流匹配生成模型,用于分子图生成,它包含一个边增强的图变换器,以实现化学键之间的直接通信。此外,GGFlow引入了一种新的目标引导生成框架来控制模型的生成轨迹,旨在设计具有所需属性的新型分子结构。GGFlow在无条件和条件分子生成任务上均表现出优异的性能,超过了现有的基线模型,突出了其有效性和更广泛应用的潜力。  
2024-11-08 Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion null 文本到图像扩散模型的终身小样本定制旨在以最少的数据持续泛化现有模型以适应新任务,同时保留旧知识。当前的定制扩散模型在小样本任务中表现出色,但在终身生成中却面临灾难性遗忘问题。在本研究中,我们将灾难性遗忘问题识别并归类为两方面:相关概念遗忘和先前概念遗忘。为了应对这些挑战,我们首先设计了一种无数据知识蒸馏策略来解决相关概念遗忘问题。与依赖额外真实数据或离线回放原始概念数据的现有方法不同,我们的方法支持动态知识蒸馏,在学习新概念的同时保留先前概念,而无需访问任何先前数据。其次,我们开发了一种上下文生成(ICGen)范式,允许扩散模型以输入视觉上下文为条件,这有助于小样本生成并缓解先前概念遗忘问题。大量实验表明,所提出的终身小样本扩散(LFS-Diffusion)方法可以生成高质量和准确的图像,同时保持先前学习的知识。  
2024-11-08 Improving image synthesis with diffusion-negative sampling null 对于使用扩散模型(DM)生成图像,可以使用负面提示词n来补充文本提示词p,帮助定义合成图像中不需要的属性。虽然这提高了提示词的依附性和图像质量,但是找到好的负面提示词是具有挑战性的。我们认为这是由于人类和DM之间存在语义差距,这使得对DM有效的负面提示词对人类来说显得不直观。为了弥合这一差距,我们提出了一种新的扩散负面提示(DNP)策略。DNP基于一种新的程序,用于在DM的分布下采样最不符合p的图像,表示为扩散负面采样(DNS)。给定p,将采样一个这样的图像,然后由用户或字幕模型将其转换为自然语言,以生成负面提示词n。最终使用(p, n)对来提示DM。DNS易于实现,并且不需要训练。实验和人工评估表明,DNP在定量和定性方面都表现良好,并且可以轻松地与几种DM变体结合使用。  
2024-11-08 Bridging the Gap between Learning and Inference for Diffusion-Based Molecule Generation link 扩散模型在生成各种数据模态(包括图像、文本和视频)方面的有效性,促使人们对其在分子生成中的效用进行探究,并在该领域取得了显著进展。然而,使用扩散模型进行分子生成的过程涉及在有限时间范围内进行多个自回归步骤,这固有地导致了曝光偏差问题。为了解决曝光偏差问题,我们提出了一个名为 GapDiff 的训练框架。GapDiff 的核心思想是在训练过程中概率性地利用模型预测的构象作为真实值,旨在减轻训练和推理之间的数据分布差异,从而增强生成分子的亲和力。我们使用 CrossDocked2020 数据集上的 3D 分子生成模型进行了实验,vina 能量和多样性证明了我们框架的效力及其生成的分子具有更优的亲和力。GapDiff 的代码可在 \url{https://github.com/HUGHNew/gapdiff} 获取。  
2024-11-08 IntellBot: Retrieval Augmented LLM Chatbot for Cyber Threat Knowledge Delivery null 在快速发展的网络安全领域,智能聊天机器人正日益受到重视。人工智能、机器学习和自然语言处理使这些聊天机器人能够处理用户查询并提供威胁情报。这有助于网络安全知识易于为专业人士和公众所获得。传统的基于规则的聊天机器人通常缺乏灵活性,难以适应用户交互。相比之下,基于大型语言模型的聊天机器人可以跨多个领域提供上下文相关的信息,并适应不断变化的对话上下文。在这项工作中,我们开发了IntellBot,一个构建于大型语言模型和Langchain等前沿技术之上的高级网络安全聊天机器人,并结合了检索增强生成模型以提供卓越的功能。该聊天机器人从不同的数据源收集信息,以创建一个涵盖已知漏洞、近期网络攻击和新兴威胁的综合知识库。它提供定制的响应,充当网络安全洞察的主要枢纽。通过提供对相关信息和资源的即时访问,IntellBot增强了威胁情报、事件响应和整体安全态势,从而节省时间并使用户掌握网络安全最佳实践的知识。此外,我们使用两阶段评估策略分析了我们助手的性能。我们通过间接方法获得了高于0.8的BERT分数,以及0.8到1的余弦相似度分数,这证实了我们助手的准确性。此外,我们利用RAGAS评估RAG模型,所有评估指标都持续得到高于0.77的分数,突出了我们系统的有效性。  
2024-11-08 RED: Residual Estimation Diffusion for Low-Dose PET Sinogram Reconstruction null 扩散模型近年来在各领域的生成任务中展现出卓越的性能。在正电子发射断层扫描(PET)中,减少示踪剂剂量会导致正弦图信息丢失。使用扩散模型重建缺失信息可以提高成像质量。传统的扩散模型有效地利用高斯噪声进行图像重建。然而,在低剂量PET重建中,高斯噪声会通过引入伪影和不一致性而恶化原本就稀疏的数据。为了解决这个问题,我们提出了一种名为残差估计扩散(RED)的扩散模型。从扩散机制的角度来看,RED使用正弦图之间的残差代替扩散过程中的高斯噪声,分别将低剂量和全剂量正弦图设置为重建的起点和终点。这种机制有助于保留低剂量正弦图中的原始信息,从而提高重建的可靠性。从数据一致性的角度来看,RED引入了漂移校正策略,以减少反向过程中累积的预测误差。校准反向迭代的中间结果有助于保持数据一致性并增强重建过程的稳定性。实验结果表明,RED有效地提高了低剂量正弦图以及重建结果的质量。代码可在 https://github.com/yqx7150/RED 获取。  
2024-11-08 Social balance in directed networks null 社交网络天生就展现出复杂的关系,这些关系可以是正向或负向的,也可以是有方向性的。理解这些网络中的平衡对于揭示社会动态至关重要,但传统理论难以纳入有向交互。本文提出了一个理解有向符号网络中平衡的综合路线图,扩展了传统的平衡理论以解释有向交互。平衡是由与适当的零模型相比更高阶模式(如三元组)的富集来指示的,其中网络被随机化,并保留了一些关键方面。即使不考虑方向性,寻找合适的零模型也是一项具有挑战性的任务,而方向性在很大程度上扩展了潜在零模型的空间。最近,研究表明,在无向情况下,网络拓扑和符号度都是需要保留的关键因素。因此,我们引入了一个最大约束的零模型,它保留了有向拓扑以及由符号单向度、互惠度和冲突度给出的节点级特征。我们的零模型基于最大熵原理,并揭示了大规模社交网络中一致的模式。我们还考虑了平衡理论的有向推广,发现观察到的模式与两个提出的有向强平衡概念非常吻合。我们的方法不仅揭示了有向符号网络中的平衡,还可以作为有向符号社交网络生成模型的起点,从而推进我们对复杂社会系统及其动态的理解。  
2024-11-08 Differentiable Calibration of Inexact Stochastic Simulation Models via Kernel Score Minimization null 随机仿真模型是模拟复杂系统以辅助决策的生成模型。这些模型的可靠性很大程度上取决于经过良好校准的输入模型参数。然而,在许多实际场景中,只有输出级数据可用于学习输入模型参数,由于随机仿真模型的似然函数通常难以处理,这带来了挑战。此外,随机仿真模型经常是不精确的,模型与目标系统之间存在差异。现有的方法都无法有效地仅使用输出级数据来学习和量化输入参数的不确定性。在本文中,我们提出使用输出级数据,通过核得分最小化和随机梯度下降来学习随机仿真模型的可微输入参数。我们使用基于新的渐近正态性结果的频率置信集程序来量化学习到的输入参数的不确定性,该结果考虑了模型的不精确性。所提出的方法在精确和不精确的G/G/1排队模型上进行了评估。  
2024-11-07 SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models link 扩散模型已被证明在生成高质量图像方面非常有效。然而,随着这些模型规模的增大,它们需要更多的内存,并且延迟更高,这对部署提出了重大挑战。在这项工作中,我们的目标是通过将权重和激活量化到4位来加速扩散模型。在如此激进的量化级别下,权重和激活都高度敏感,此时针对大型语言模型的传统训练后量化方法(如平滑化)变得不足。为了克服这一限制,我们提出了SVDQuant,一种新的4位量化范式。与在权重和激活之间重新分配异常值的平滑化不同,我们的方法使用低秩分支吸收这些异常值。我们首先将异常值从激活转移到权重,从而整合它们,然后采用高精度低秩分支通过奇异值分解(SVD)处理权重异常值。此过程简化了双方的量化。然而,简单地独立运行低秩分支会由于激活的额外数据移动而导致巨大的开销,从而抵消了量化带来的速度提升。为了解决这个问题,我们共同设计了一个推理引擎Nunchaku,它将低秩分支的内核融合到低位分支的内核中,以减少冗余内存访问。它还可以无缝支持现成的低秩适配器(LoRA),而无需重新量化。在SDXL、PixArt- $\Sigma$ 和FLUX.1上的大量实验验证了SVDQuant在保持图像质量方面的有效性。我们将12B FLUX.1模型的内存使用量减少了3.5倍,在16GB笔记本电脑4090 GPU上实现了比仅4位权重量化的基线3.0倍的加速,为在PC上实现更具交互性的应用铺平了道路。我们的量化库和推理引擎已开源。  
2024-11-07 ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing null 本文提出了一种名为ProEdit的简单而高效的3D场景编辑框架,该框架以一种新颖的渐进式方式利用扩散蒸馏进行引导。受到多视图不一致性源于扩散模型巨大的可行输出空间(FOS)这一关键观察的启发,我们的框架通过将整体编辑任务分解成若干个子任务,然后在场景上逐步执行这些子任务,从而控制FOS的大小并减少不一致性。在此框架内,我们设计了一个难度感知的子任务分解调度器和一个自适应3D高斯 splatting(3DGS)训练策略,以确保高质量且高效地执行每个子任务。大量评估表明,ProEdit在各种场景和具有挑战性的编辑任务中均取得了最先进的结果,所有这些都通过一个简单的框架实现,无需任何昂贵或复杂的附加组件,如蒸馏损失、组件或训练程序。值得注意的是,ProEdit还提供了一种在编辑过程中控制、预览和选择编辑操作“强度”的新方法。  
2024-11-07 Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models null 除了高保真图像合成之外,扩散模型最近在密集视觉感知任务中展现出 promising 的结果。然而,大多数现有工作将扩散模型视为感知任务的独立组件,仅将其用于现成的数据增强或仅仅作为特征提取器。与这些孤立的、因此并非最佳的尝试相反,我们引入了一个统一的、多功能的、基于扩散的框架,Diff-2-in-1,它可以通过独特地利用扩散去噪过程,同时处理多模态数据生成和密集视觉感知。在这个框架内,我们通过利用去噪网络创建反映原始训练集分布的多模态数据,进一步增强了基于多模态生成的判别性视觉感知。重要的是,Diff-2-in-1 通过利用一种新颖的自我改进学习机制,优化了所创建的多样化且真实的数据的利用。全面的实验评估验证了我们框架的有效性,展示了跨各种判别性骨干网络的一致性能提升,以及高质量的多模态数据生成,其特点是兼具真实性和实用性。  
2024-11-07 ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning null 近来,视频建模的突破使得在生成视频中控制相机轨迹成为可能。然而,这些方法不能直接应用于用户提供的、非视频模型生成的视频。在本文中,我们提出了ReCapture,一种从用户提供的单个视频生成具有新颖相机轨迹的新视频的方法。我们的方法允许我们重新生成参考视频,包括其所有现有的场景运动,并从截然不同的角度和电影级的相机运动进行呈现。值得注意的是,使用我们的方法,我们还可以合理地推断出参考视频中不可观察到的场景部分。我们的方法的工作原理是:(1)使用多视角扩散模型或基于深度的点云渲染生成具有新相机轨迹的噪声锚定视频,然后(2)使用我们提出的掩蔽视频微调技术将锚定视频重新生成为清晰且时间一致的重新角度视频。  
2024-11-07 SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation null 图像到视频生成方法已经实现了令人印象深刻的逼真质量。然而,调整生成视频中的特定元素(例如物体运动或相机运动)通常是一个繁琐的反复试验过程,例如,涉及使用不同的随机种子重新生成视频。最近的技术通过微调预训练模型以遵循条件信号(例如边界框或点轨迹)来解决这个问题。然而,这种微调过程的计算成本可能很高,并且需要带有注释对象运动的数据集,而这些数据集可能难以获得。在这项工作中,我们引入了SG-I2V,这是一个用于可控图像到视频生成的框架,它是自引导的——通过仅依赖预训练的图像到视频扩散模型中存在的知识来提供零样本控制,而无需微调或外部知识。我们的零样本方法在视觉质量和运动保真度方面优于无监督基线,同时与监督模型相比具有竞争力。  
2024-11-07 Few-Shot Task Learning through Inverse Generative Modeling null 学习智能体的意图,即由其目标或运动风格定义的意图,通常仅凭少量示例极具挑战性。我们将此问题称为任务概念学习,并提出了我们的方法:通过逆生成建模进行少样本任务学习 (FTL-IGM),该方法利用可逆神经生成模型学习新的任务概念。其核心思想是在一组基本概念及其演示上预训练一个生成模型。然后,给定一个新概念(例如一个新目标或一个新动作)的少量演示,由于生成模型的可逆性,我们的方法无需更新模型权重即可通过反向传播学习底层概念。我们在五个领域评估了我们的方法——对象重排、目标导向导航、人类动作的运动描述、自动驾驶和真实世界的桌面操作。我们的实验结果表明,通过预训练的生成模型,我们成功地学习了新概念,并在以下情况下生成了与这些概念相对应的智能体计划或运动:(1) 未见过的环境;(2) 与训练概念的组合。  
2024-11-07 Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification null 潜扩散视频模型因其生成的图像质量和时间一致性,很容易欺骗普通观察者和领域专家。除了娱乐之外,这为完全合成数据集的安全数据共享创造了机会,这在医疗保健以及其他依赖敏感个人信息的领域至关重要。然而,这种方法的隐私问题尚未得到完全解决,并且针对特定下游任务在合成数据上训练的模型的性能仍然不如在真实数据上训练的模型。这种差异可能部分是由于采样空间是训练视频的子空间,有效地减少了下游模型的训练数据大小。此外,生成长视频时时间一致性的降低也可能是一个促成因素。在本文中,我们首先展示了在潜在空间中训练隐私保护模型的计算效率更高,泛化能力更好。此外,为了研究下游性能下降的因素,我们建议使用一种先前用作隐私保护过滤器的重新识别模型。我们证明了在视频生成器的潜在空间上训练该模型就足够了。随后,我们使用这些模型来评估合成视频数据集覆盖的子空间,从而引入了一种衡量生成式机器学习模型保真度的新方法。我们专注于医疗保健超声心动图中的一个特定应用,以说明我们新方法的有效性。我们的研究结果表明,潜扩散视频模型仅学习了多达 30.8% 的训练视频,这可以解释在下游任务使用合成数据训练时缺乏性能的原因。  
2024-11-07 DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion null 本文介绍了DimensionX,这是一个旨在仅通过单个图像和视频扩散技术生成逼真3D和4D场景的框架。我们的方法始于一个洞察,即3D场景的空间结构和4D场景的时间演化都可以通过视频帧序列有效地表示。虽然最近的视频扩散模型在生成生动的视觉效果方面取得了显著成功,但由于在生成过程中空间和时间可控性有限,它们在直接恢复3D/4D场景方面面临局限性。为了克服这个问题,我们提出了ST-Director,它通过从维度变化数据中学习维度感知的LoRA,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确地操纵空间结构和时间动态,使我们能够结合空间和时间维度从连续帧中重建3D和4D表示。此外,为了弥合生成视频与真实场景之间的差距,我们引入了用于3D生成的轨迹感知机制和用于4D生成的identity-preserving去噪策略。在各种真实世界和合成数据集上进行的大量实验表明,与以前的方法相比,DimensionX在可控视频生成以及3D和4D场景生成方面取得了优异的结果。  
2024-11-07 Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion link 视觉模仿学习方法表现出很强的性能,但当面对视觉输入扰动(包括光照和纹理的变化)时,它们缺乏泛化能力,阻碍了其在现实世界的应用。我们提出了Stem-OB,它利用预训练的图像扩散模型来抑制低层视觉差异,同时保持高层场景结构。这种图像逆推过程类似于将观察结果转换为共享表示,其他观察结果均源于此表示,并去除无关的细节。Stem-OB与数据增强方法不同,因为它对各种未指定的 apariencia 变化具有鲁棒性,而无需额外的训练。我们的方法是一个简单但高效的即插即用解决方案。实验结果证实了我们的方法在模拟任务中的有效性,并在现实应用中显示出非常显著的改进,与最佳基线相比,平均成功率提高了22.2%。更多信息请访问https://hukz18.github.io/Stem-Ob/。  
2024-11-07 GASE: Generatively Augmented Sentence Encoding null We propose an approach to enhance sentence embeddings by applying generative text models for data augmentation at inference time. Unlike conventional data augmentation that utilises synthetic training data, our approach does not require access to model parameters or the computational resources typically required for fine-tuning state-of-the-art models. Generatively Augmented Sentence Encoding uses diverse linguistic synthetic variants of input texts generated by paraphrasing, summarising, or extracting keywords, followed by pooling the original and synthetic embeddings. Experimental results on the Massive Text Embedding Benchmark for Semantic Textual Similarity (STS) demonstrate performance improvements across a range of embedding models using different generative models for augmentation. We find that generative augmentation leads to larger performance improvements for embedding models with lower baseline performance. These findings suggest that integrating generative augmentation at inference time adds semantic diversity and can enhance the robustness and generalizability of sentence embeddings for embedding models. Our results show that the degree to which generative augmentation can improve STS performance depends not only on the embedding model but also on the dataset. From a broader perspective, the approach allows trading training for inference compute.  
2024-11-05 DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models null 大型语言模型 (LLM) 近期的进展显著增强了它们的知识和生成能力,引发了人们对利用 LLM 合成高质量数据的浓厚兴趣。然而,通过提示 LLM 生成合成数据仍然具有挑战性,因为 LLM 对目标数据分布的理解有限,并且提示工程的复杂性较高,尤其是对于结构化格式的数据。为了解决这些问题,我们引入了 DiffLM,这是一个基于变分自编码器 (VAE) 的可控数据合成框架,它进一步 (1) 利用扩散模型在学习的潜在分布中保留更多原始分布和格式结构的信息,并且 (2) 通过即插即用的潜在特征注入模块将目标分布知识的学习与 LLM 的生成目标解耦。由于我们观察到 VAE 的潜在表示与真实数据分布之间存在显著差异,因此在我们的框架中引入了潜在扩散模块来学习完全表达的潜在分布。在七个具有结构化格式数据(即表格、代码和工具数据)的真实世界数据集上的评估表明,DiffLM 生成了高质量的数据,在某些情况下,下游任务的性能比真实数据高 2-7 个百分点。数据和代码将在内部审查完成后公开发布。  
2024-11-05 On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models null 大规模训练潜在扩散模型 (LDM) 使图像生成质量达到了前所未有的水平。然而,性能最佳的 LDM 训练方法的关键组成部分通常不对研究界开放,这阻碍了同类比较并妨碍了该领域进展的验证。在这项工作中,我们对 LDM 训练方法进行了深入研究,重点关注模型的性能及其训练效率。为了确保同类比较,我们重新实现了五个先前发布的模型及其相应的训练方法。通过我们的研究,我们探讨了 (i) 用于控制生成模型对语义信息(例如,文本提示)和控制元数据(例如,裁剪大小、随机翻转标志等)的条件机制对模型性能的影响,以及 (ii) 在较小和较低分辨率数据集上学习的表示迁移到较大数据集上对训练效率和模型性能的影响。然后,我们提出了一种新的条件机制,它将语义和控制元数据条件分离,并在 ImageNet-1k 数据集上的类条件生成方面树立了新的最先进水平——256 和 512 分辨率的 FID 分别提高了 7% 和 8%——以及在 CC12M 数据集上的文本到图像生成方面——256 和 512 分辨率的 FID 分别提高了 8% 和 23%。  
2024-11-05 Unleashing the power of novel conditional generative approaches for new materials discovery link 长期以来,新材料设计的计算方法依赖于寻找候选材料并对其性质进行建模的迭代过程。人工智能在这方面发挥了至关重要的作用,通过先进的计算方法和数据驱动的方法,帮助加速了晶体性质和结构的发现和优化。为了解决新材料设计问题并加快新材料的搜索过程,我们将最新的生成方法应用于晶体结构设计问题,试图解决逆问题:在给定性质的情况下生成满足这些性质的结构,而无需利用超级计算机的能力。在我们的工作中,我们提出了两种方法:1)条件结构修改:利用能量上最有利的结构与其所有不太稳定的多晶型物之间的能量差来优化任意原子构型的稳定性;2)条件结构生成。我们使用了包含以下信息的材料表示:晶格、原子坐标、原子类型、化学特征、空间群和结构的形成能。损失函数经过优化,以考虑晶体结构的周期性边界条件。我们应用了扩散模型方法、流匹配、普通的自动编码器(AE),并比较了模型和方法的结果。作为研究的度量标准,我们使用了物理PyMatGen匹配器:我们使用默认容差比较目标结构和生成的结构。到目前为止,我们的修改器和生成器分别以41%和82%的准确率生成了具有所需性质的结构。为了证明所提出的方法的有效性,我们进行了推断,得到了一些形成能低于AFLOW衍生凸包的潜在新结构。  
2024-11-05 Local Lesion Generation is Effective for Capsule Endoscopy Image Data Augmentation in a Limited Data Setting null 有限的医学影像数据集通过增加过拟合和泛化能力降低的风险来挑战深度学习模型,尤其是在生成对抗网络 (GAN) 中,判别器可能过拟合,导致训练发散。这种限制也损害了在小数据集上训练的分类模型。生成数据增强 (GDA) 通过使用合成数据扩展训练数据集来解决这个问题,尽管它需要训练一个生成模型。我们提出并评估了两种局部病灶生成方法,以应对增强小型医学图像数据集的挑战。第一种方法采用泊松图像编辑算法(一种经典的图像处理技术)来创建逼真的图像合成物,其性能优于当前最先进的方法。第二种方法引入了一种新的生成方法,利用微调的图像修复 GAN 在真实训练图像的指定区域内合成逼真的病灶。对这两种方法的全面比较表明,在数据受限的环境下有效的局部病灶生成能够在胶囊内窥镜病灶分类中达到新的最先进的结果。结合我们的技术,在高度不平衡的 Kvasir 胶囊数据集(胶囊内窥镜的基准)上实现了 33.07% 的宏观 F1 分数,比之前的最佳结果高出 7.84 个百分点。据我们所知,这项工作是第一个将微调的图像修复 GAN 应用于医学影像中的 GDA 的工作,证明了图像条件 GAN 可以有效地适应有限的数据集以生成高质量的样本,从而促进有效的数据增强。此外,我们还表明,将这种基于 GAN 的方法与经典图像处理技术相结合可以进一步增强结果。  
2024-11-05 Gradient-Guided Conditional Diffusion Models for Private Image Reconstruction: Analyzing Adversarial Impacts of Differential Privacy and Denoising null 我们研究了用于重建隐私图像的梯度引导条件扩散模型的构建方法,重点关注差分隐私噪声与扩散模型去噪能力之间的对抗性相互作用。当前基于梯度的重建方法由于计算复杂度和先验知识要求的限制,难以处理高分辨率图像,而我们提出了两种新方法,它们只需对扩散模型的生成过程进行少量修改,并且无需先验知识。我们的方法利用扩散模型强大的图像生成能力,即使在梯度中添加了少量差分隐私噪声的情况下,也能从随机生成的噪声开始重建隐私图像。我们还对差分隐私噪声对重建图像质量的影响进行了全面的理论分析,揭示了噪声幅度、受攻击模型的架构以及攻击者的重建能力之间的关系。此外,大量的实验验证了我们提出的方法的有效性和我们理论发现的准确性,为使用条件扩散模型进行隐私风险审计提出了新的方向。  
2024-11-05 GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details null 神经隐式函数为从多张甚至单张图像进行 clothed human digitization 带来了显著的进步。然而,尽管取得了进展,目前的技术仍然难以泛化到具有复杂布料变形和身体姿势的未见过图像。在这项工作中,我们提出了 GarVerseLOD,一个新的数据集和框架,为实现从单张不受约束的图像进行高保真 3D 服装重建的 unprecedented robustness 铺平了道路。受大型生成模型近期成功的启发,我们认为解决泛化挑战的关键在于 3D 服装数据的数量和质量。为此,GarVerseLOD 收集了 6,000 个高质量的布料模型,这些模型具有由专业艺术家手动创建的精细几何细节。除了训练数据的规模外,我们观察到,拥有 disentangled granularities 的几何细节可以在提升学习模型的泛化能力和推理精度方面发挥重要作用。因此,我们将 GarVerseLOD 设计为具有不同细节级别 (LOD) 的分层数据集,从无细节的程式化形状到具有像素对齐细节的姿势混合服装。这使我们能够通过将推理分解成更简单的任务来处理这个高度欠约束的问题,每个任务都缩小了搜索空间。为了确保 GarVerseLOD 能够很好地泛化到自然图像,我们提出了一种基于条件扩散模型的新颖标注范式,为每个服装模型生成大量具有高逼真度的配对图像。我们在大量自然图像上评估了我们的方法。实验结果表明,GarVerseLOD 可以生成独立的服装,其质量明显优于先前的方法。项目页面:https://garverselod.github.io/  
2024-11-05 IMUDiffusion: A Diffusion Model for Multivariate Time Series Synthetisation for Inertial Motion Capturing Systems null 由于运动传感器易于使用且不受空间限制(这与基于视频的动作捕捉系统不同),它们常用于分析体育和日常活动中的运动行为。然而,运动数据的生成,尤其是针对特定活动的标记,可能既耗时又昂贵。此外,许多模型难以处理有限的数据,这限制了它们识别复杂运动模式的性能。为了解决这些问题,生成合成数据有助于扩展数据的多样性和可变性。在这项工作中,我们提出了 IMUDiffusion,这是一种专门为多元时间序列生成设计的概率扩散模型。我们的方法能够生成高质量的时间序列,准确地捕捉人类活动的动态。此外,通过将我们的数据集与合成数据结合,我们显著提高了基线人类活动分类器的性能。在某些情况下,我们能够将宏观 F1 分数提高近 30%。IMUDiffusion 为生成逼真的人类活动运动提供了一个宝贵的工具,并增强了模型在训练数据有限的情况下的鲁棒性。  
2024-11-05 LDPM: Towards undersampled MRI reconstruction with MR-VAE and Latent Diffusion Prior null 扩散模型作为一种强大的生成模型,已在包括MRI重建在内的广泛领域得到应用。然而,大多数现有的基于扩散模型的MRI重建方法直接在像素空间中进行操作,这使得它们的优化和推理在计算上非常昂贵。潜在扩散模型的引入是为了解决自然图像处理中的这个问题,但将其直接应用于MRI重建仍然面临许多挑战,包括对生成结果缺乏控制、变分自动编码器 (VAE) 对MRI的适应性以及潜在空间中适用数据一致性的探索。为了应对这些挑战,本文提出了一种基于潜在扩散先验的欠采样MRI重建方法(LDPM)。该方法利用了一个草图模块来提供适当的控制,并平衡重建MRI图像的质量和保真度。本文还探索了一种适用于MRI任务的VAE(MR-VAE),它可以作为未来MRI相关任务的基础。此外,本文提出了一种DDIM采样器的变体,称为双阶段采样器,以在潜在空间中实现高保真重建。所提出的方法在fastMRI数据集上取得了具有竞争力的结果,并且消融实验也证明了每个模块的有效性。  
2024-11-05 Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey null 世界模型和视频生成是自动驾驶领域的关键技术,它们在增强自主系统的稳健性和可靠性方面发挥着至关重要的作用。世界模型模拟现实环境的动态,而视频生成模型则生成逼真的视频序列,二者正日益融合以提高自动驾驶汽车的态势感知和决策能力。本文研究了这两种技术之间的关系,重点关注它们在结构上的相似性(尤其是在基于扩散的模型中)如何促进对驾驶场景进行更准确、更一致的模拟。我们考察了JEPA、Genie和Sora等前沿工作,它们代表了世界模型设计的不同方法,从而突出了目前缺乏对世界模型普遍接受的定义。这些不同的解释强调了该领域对如何针对各种自动驾驶任务优化世界模型的理解仍在不断发展。此外,本文还讨论了该领域采用的关键评估指标,例如用于3D场景重建的Chamfer距离和用于评估生成视频内容质量的Fr'echet初始距离 (FID)。通过分析视频生成和世界模型之间的相互作用,本综述指出了关键挑战和未来研究方向,强调了这些技术在共同提升自动驾驶系统性能方面的潜力。本文提出的研究结果旨在全面了解视频生成和世界模型的融合如何推动更安全、更可靠的自动驾驶汽车的创新发展。  
2024-11-05 ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate link Adam is one of the most popular optimization algorithms in deep learning. However, it is known that Adam does not converge in theory unless choosing a hyperparameter, i.e., $\beta_2$, in a problem-dependent manner. There have been many attempts to fix the non-convergence (e.g., AMSGrad), but they require an impractical assumption that the gradient noise is uniformly bounded. In this paper, we propose a new adaptive gradient method named ADOPT, which achieves the optimal convergence rate of $\mathcal{O} ( 1 / \sqrt{T} )$ with any choice of $\beta_2$ without depending on the bounded noise assumption. ADOPT addresses the non-convergence issue of Adam by removing the current gradient from the second moment estimate and changing the order of the momentum update and the normalization by the second moment estimate. We also conduct intensive numerical experiments, and verify that our ADOPT achieves superior results compared to Adam and its variants across a wide range of tasks, including image classification, generative modeling, natural language processing, and deep reinforcement learning. The implementation is available at https://github.com/iShohei220/adopt.  
2024-10-31 Bridging Geometric States via Geometric Diffusion Bridge null 在复杂的系统中准确预测几何状态演化对于推进量子化学和材料建模等科学领域至关重要。传统的实验和计算方法在环境限制和计算需求方面面临挑战,而目前的深度学习方法在精度和普适性方面仍然不足。在这项工作中,我们引入了几何扩散桥 (GDB),这是一个新颖的生成建模框架,可以准确地连接初始和目标几何状态。GDB 利用概率方法来演化几何状态分布,采用由修改版的 Doob $h$ -变换导出的等变扩散桥来连接几何状态。这个定制的扩散过程以初始和目标几何状态作为固定端点,并由等变转移核控制。此外,通过使用一系列等变扩散桥,轨迹数据可以无缝地融入我们的 GDB 框架中,从而提供更详细、更准确的演化动力学表征。理论上,我们进行了全面的检验,以确认我们的框架能够保持几何状态的联合分布,并能够以可忽略的误差对轨迹分布进行完整建模。跨各种实际场景的实验评估表明,GDB 超越了现有的最先进方法,为精确连接几何状态和以更高的精度和适用性应对关键科学挑战开辟了一条新途径。  
2024-10-31 Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning link 尽管文本到视频 (T2V) 生成技术取得了进步,但生成具有逼真运动的视频仍然具有挑战性。目前的模型通常产生静态或极少动态的输出,无法捕捉文本描述的复杂运动。这个问题源于文本编码中忽略运动的内部偏差,以及T2V生成模型中不充分的条件机制。为了解决这个问题,我们提出了一个名为分解运动 (DEMO) 的新框架,它通过将文本编码和条件机制分解为内容和运动组件来增强T2V生成中的运动合成。我们的方法包括用于静态元素的内容编码器和用于时间动态的运动编码器,以及单独的内容和运动条件机制。至关重要的是,我们引入了文本-运动和视频-运动监督来提高模型对运动的理解和生成能力。在MSR-VTT、UCF-101、WebVid-10M、EvalCrafter和VBench等基准上的评估表明,DEMO能够生成具有增强运动动态且保持高视觉质量的视频。我们的方法通过直接从文本描述中集成全面的运动理解,显著推进了T2V生成技术。项目页面:https://PR-Ryan.github.io/DEMO-project/  
2024-10-31 DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion link 基于扩散的方法在2D图像或3D物体生成方面取得了显著成就,然而,3D场景乃至360度图像的生成仍然受到限制,这归因于场景数据集数量有限、3D场景本身的复杂性以及生成一致多视角图像的难度。为了解决这些问题,我们首先建立了一个大规模的全景视频-文本数据集,其中包含数百万个连续的全景关键帧以及相应的全景深度、相机姿态和文本描述。然后,我们提出了一种新的文本驱动的全景生成框架,称为DiffPano,以实现可扩展、一致且多样化的全景场景生成。具体而言,得益于稳定扩散强大的生成能力,我们在已建立的全景视频-文本数据集上使用LoRA微调了一个单视角文本到全景的扩散模型。我们进一步设计了一个球面极线感知的多视角扩散模型,以确保生成的全景图像的多视角一致性。大量实验表明,DiffPano可以根据给定的未见文本描述和相机姿态生成可扩展、一致且多样化的全景图像。  
2024-10-31 Multi-Attribute Linguistic Tuning for Controlled Paraphrase Generation null 我们提出了一种新颖的复述生成方法,可以精确控制和微调英语的40个语言属性。我们的模型采用编码器-解码器架构,输入源语句和所需的语言属性,并生成满足所需属性的源语句复述。为了保证推理时的高质量输出,我们的方法配备了质量控制机制,逐步调整语言属性的嵌入,以找到用于复述生成的最近且最可实现的所需属性配置。我们通过将其与最近的可控生成模型进行比较来评估我们方法的有效性。实验结果表明,所提出的模型在生成满足所需语言属性的复述方面优于基线模型。  
2024-10-31 AR-Pro: Counterfactual Explanations for Anomaly Repair with Formal Properties null 异常检测被广泛用于识别关键错误和可疑行为,但目前的方法缺乏可解释性。我们利用现有方法的共同特性和生成模型的最新进展,为异常检测引入了反事实解释。给定一个输入,我们生成其反事实解释,作为基于扩散的修复,展示非异常版本应该是什么样子。这种方法的一个关键优势是它支持对可解释性需求进行领域无关的正式规范,从而为生成和评估解释提供了一个统一的框架。我们在视觉(MVTec、VisA)和时间序列(SWaT、WADI、HAI)异常数据集上证明了我们的异常可解释性框架AR-Pro的有效性。实验代码可在以下网址访问:https://github.com/xjiae/arpro。  
2024-10-31 [Redefining in Dictionary: Towards a Enhanced Semantic Understanding of Creative Generation](http://arxiv.org/abs/2410.24160) null 创造力,无论是在人类还是在扩散模型中,本质上都是一个抽象的概念;因此,简单地在提示词中添加“creative”并不能保证模型能够可靠地识别其语义。在这项工作中,我们通过TP2O任务将“创造性”这一抽象概念具体化,该任务旨在融合两个不相关的概念,并引入了CreTok,将“创造性”重新定义为标记。这种重新定义为概念融合提供了一种更具体、更普遍适应的表示方法。这一重新定义过程是连续进行的,包括反复随机抽取具有不同概念的文本对,并优化目标提示词和常量提示词之间的余弦相似度。这种方法使能够学习一种创造性概念融合的方法。大量实验表明,带来的创造能力大大超越了最近的SOTA扩散模型,并实现了更优越的创造性生成。CreTok展现出更大的灵活性和更低的时间开销,因为可以作为任何概念的通用标记,从而无需重新训练即可促进创造性生成。  
2024-10-31 Scaling Concept With Text-Guided Diffusion Models null 文本引导的扩散模型通过根据文本描述生成高保真内容,彻底改变了生成任务。它们还实现了一种编辑范式,可以通过文本条件替换概念(例如,将狗替换为老虎)。在这项工作中,我们探索了一种新颖的方法:我们能否增强或抑制概念本身,而不是替换概念?通过实证研究,我们发现了一个趋势,即在文本引导的扩散模型中,概念可以被分解。利用这一见解,我们引入了 ScalingConcept,这是一种简单而有效的方法,可以在不引入新元素的情况下放大或缩小真实输入中分解的概念。为了系统地评估我们的方法,我们提出了 WeakConcept-10 数据集,其中概念不完善,需要增强。更重要的是,ScalingConcept 能够在图像和音频领域实现各种新颖的零样本应用,包括诸如规范姿态生成和生成声音突出显示或移除等任务。  
2024-10-31 Understanding Generalizability of Diffusion Models Requires Rethinking the Hidden Gaussian Structure link In this work, we study the generalizability of diffusion models by looking into the hidden properties of the learned score functions, which are essentially a series of deep denoisers trained on various noise levels. We observe that as diffusion models transition from memorization to generalization, their corresponding nonlinear diffusion denoisers exhibit increasing linearity. This discovery leads us to investigate the linear counterparts of the nonlinear diffusion models, which are a series of linear models trained to match the function mappings of the nonlinear diffusion denoisers. Surprisingly, these linear denoisers are approximately the optimal denoisers for a multivariate Gaussian distribution characterized by the empirical mean and covariance of the training dataset. This finding implies that diffusion models have the inductive bias towards capturing and utilizing the Gaussian structure (covariance information) of the training dataset for data generation. We empirically demonstrate that this inductive bias is a unique property of diffusion models in the generalization regime, which becomes increasingly evident when the model’s capacity is relatively small compared to the training dataset size. In the case that the model is highly overparameterized, this inductive bias emerges during the initial training phases before the model fully memorizes its training data. Our study provides crucial insights into understanding the notable strong generalization phenomenon recently observed in real-world diffusion models.  
2024-10-31 TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation null Human image animation aims to generate a human motion video from the inputs of a reference human image and a target motion video. Current diffusion-based image animation systems exhibit high precision in transferring human identity into targeted motion, yet they still exhibit irregular quality in their outputs. Their optimal precision is achieved only when the physical compositions (i.e., scale and rotation) of the human shapes in the reference image and target pose frame are aligned. In the absence of such alignment, there is a noticeable decline in fidelity and consistency. Especially, in real-world environments, this compositional misalignment commonly occurs, posing significant challenges to the practical usage of current systems. To this end, we propose Test-time Procrustes Calibration (TPC), which enhances the robustness of diffusion-based image animation systems by maintaining optimal performance even when faced with compositional misalignment, effectively addressing real-world scenarios. The TPC provides a calibrated reference image for the diffusion model, enhancing its capability to understand the correspondence between human shapes in the reference and target images. Our method is simple and can be applied to any diffusion-based image animation system in a model-agnostic manner, improving the effectiveness at test time without additional training.  
2024-10-31 Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities null 合成数据生成在不同的计算机视觉应用中越来越受欢迎。现有的最先进的人脸识别模型使用大规模人脸数据集进行训练,这些数据集是从互联网上抓取的,引发了隐私和伦理方面的担忧。为了解决这些担忧,一些工作提出了生成合成人脸数据集来训练人脸识别模型。然而,这些方法依赖于生成模型,而这些模型是在真实人脸图像上训练的。在这项工作中,我们设计了一种简单而有效的成员推理攻击,系统地研究了任何现有的合成人脸识别数据集是否泄露了用于训练生成器模型的真实数据中的任何信息。我们对6个最先进的合成人脸识别数据集进行了广泛的研究,并表明在所有这些合成数据集中,原始真实数据集中的几个样本都被泄露了。据我们所知,本文是第一个展示生成器模型的训练数据泄露到生成的合成人脸识别数据集中的工作。我们的研究揭示了合成人脸识别数据集中的隐私陷阱,并为未来关于生成负责任的合成人脸数据集的研究铺平了道路。  
2024-10-29 A Gaussian Process Generative Model for QCD Equation of State null 我们利用高斯过程回归方法开发了一个零净重子密度下核物质状态方程的生成模型。我们分别在高温和低温区域施加了来自格点量子色动力学和强子共振气体的第一性原理理论约束。通过允许训练后的高斯过程回归模型在相变区域附近自由变化,我们生成了具有不同声速的随机平滑交叉状态方程,而不依赖于特定的参数化。我们探索了大量实验可观测量与生成的状态方程之间的依赖关系,这为未来使用相对论重离子碰撞的实验测量来约束核物质状态方程的贝叶斯推断研究奠定了基础。  
2024-10-29 Capacity Control is an Effective Memorization Mitigation Mechanism in Text-Conditional Diffusion Models link 在这项工作中,我们提出了令人信服的证据,表明在微调过程中控制模型容量可以有效地减轻扩散模型中的记忆效应。具体来说,我们证明了在预训练-微调范式中采用参数高效微调(PEFT)与传统的完整微调方法相比,可以显著减少记忆效应。我们的实验使用了MIMIC数据集,该数据集包含胸部X光图像及其相应报告的图像-文本对。通过一系列记忆效应和生成质量指标评估的结果表明,PEFT不仅减少了记忆效应,还提高了下游生成质量。此外,PEFT方法可以与现有的记忆效应缓解技术无缝结合,以进一步改进。我们的实验代码可在以下网址获取:https://github.com/Raman1121/Diffusion_Memorization_HPO  
2024-10-29 AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts null 虽然大型语言模型 (LLM) 通常对齐良好,但它们仍然容易受到精心设计的自然语言提示或奇怪的对抗性后缀的攻击。然而,尽管乱码标记在攻击对齐的 LLM 方面取得了成功,但它们受到的关注相对较少。最近的研究 AmpleGCG~\citep{liao2024amplegcg} 表明,生成模型可以针对任何有害查询快速生成大量可定制的乱码对抗性后缀,从而暴露分布外 (OOD) 语言空间中的一系列对齐差距。为了引起更多人关注这一领域,我们推出了 AmpleGCG-Plus,这是一个增强版本,可在更少的尝试次数下获得更好的性能。通过一系列探索性实验,我们确定了几种改进乱码后缀学习的训练策略。我们在严格的评估设置下验证的结果表明,它在开放权重和闭源模型上的性能均优于 AmpleGCG,在针对 Llama-2-7B-chat 的白盒设置中,攻击成功率 (ASR) 提升高达 17%,在针对 GPT-4 的黑盒设置中,ASR 提升了三倍以上。值得注意的是,AmpleGCG-Plus 以与 GPT-4 相似的比率攻击了较新的 GPT-4o 系列模型,并发现了针对最近提出的断路器防御的漏洞。我们公开发布了 AmpleGCG-Plus 以及我们收集的训练数据集。  
2024-10-29 Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench link 像大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 这样的生成模型,在海量网络语料库上训练后,可能会记住并泄露个人的机密和隐私数据,引发法律和伦理方面的担忧。虽然之前的许多工作已经通过机器遗忘技术解决了 LLM 中的这个问题,但在 MLLM 中,这仍然是一个很大程度上未被探索的领域。为了应对这一挑战,我们引入了多模态大型语言模型遗忘基准 (MLLMU-Bench),这是一个旨在提升对多模态机器遗忘理解的新型基准。MLLMU-Bench 包含 500 个虚构人物和 153 个公众人物的个人资料,每个资料都包含超过 14 个定制的问答对,并从多模态(图像+文本)和单模态(文本)两个角度进行评估。该基准测试分为四组,用于评估遗忘算法的有效性、泛化能力和模型效用。最后,我们使用现有的生成模型遗忘算法提供了基线结果。令人惊讶的是,我们的实验表明,单模态遗忘算法在生成和完形填空任务中表现出色,而多模态遗忘方法在使用多模态输入的分类任务中表现更好。  
2024-10-29 Variational inference for pile-up removal at hadron colliders with diffusion models null 本文提出了一种使用扩散模型的变分推理方法来去除pp相互作用中的堆积效应,称为Vipr。该方法并非使用分类方法来识别哪些粒子来自主碰撞,而是训练一个生成模型来预测去除堆积效应后的硬散射粒子射流的成分。这将得到对硬散射射流成分的完整后验估计,这在去除堆积效应的背景下尚未被探索。我们在模拟 tt¯ 事件样本中评估了 Vipr 的性能,该样本叠加了堆积污染。在各种堆积场景下,Vipr 在预测硬散射射流的子结构方面优于 SoftDrop。  
2024-10-29 PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement null 场景重排,例如整理桌子,由于预测不同物体排列的复杂性,在机器人操作中是一项具有挑战性的任务。网络规模训练的生成模型,例如 Stable Diffusion,可以通过生成自然场景作为目标来提供帮助。为了便于机器人执行,必须提取对象级表示,以便将真实场景与生成的目标匹配,并计算对象姿态变换。目前的方法通常采用多步骤设计,涉及用于生成、分割和特征编码的单独模型,这可能由于误差累积而导致低成功率。此外,它们缺乏对生成目标视角的控制,将任务限制在 3 自由度设置中。在本文中,我们提出了 PACA,一个用于场景重排的零样本流水线,它利用从 Stable Diffusion 派生的透视感知交叉注意力表示。具体来说,我们开发了一种将生成、分割和特征编码集成到单个步骤中以生成对象级表示的表示方法。此外,我们引入了视角控制,从而能够匹配 6 自由度相机视角,并扩展了过去局限于 3 自由度俯视视角的方法。我们的方法的有效性通过其在各种场景的真实机器人实验中的零样本性能得到证明,分别实现了 87% 的平均匹配精度和 67% 的执行成功率。  
2024-10-29 Dual Conditional Diffusion Models for Sequential Recommendation null 扩散模型的最新进展在序列推荐(SR)中展现出可喜的成果。然而,当前基于扩散的方法仍然存在两个关键限制。首先,它们隐式地对目标项目嵌入而不是离散的目标项目本身进行建模,导致推荐过程中的不一致性。其次,现有方法依赖于隐式或显式条件扩散模型,限制了它们充分捕捉用户行为上下文的能力,并导致目标项目嵌入的鲁棒性较差。在本文中,我们提出了用于序列推荐的双条件扩散模型(DCRec),引入了一个离散到连续的序列推荐扩散框架。我们的框架引入了一个完整的马尔可夫链来模拟从反向目标项目表示到离散项目索引的转换,连接了扩散模型的离散和连续项目空间,并确保了与扩散框架的一致性。在此框架的基础上,我们提出了双条件扩散变换器(DCDT),它结合了基于扩散的SR的隐式条件和显式条件。在公共基准数据集上的大量实验表明,DCRec 的性能优于最先进的方法。  
2024-10-29 PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference null 在本文中,我们首次尝试通过强化学习框架将图像修复的扩散模型与人类审美标准对齐,从而显著提高修复图像的质量和视觉吸引力。具体来说,我们没有直接测量与配对图像的差异,而是使用我们构建的数据集训练了一个奖励模型,该数据集包含近51,000张带有注释人类偏好的图像。然后,我们采用强化学习过程微调预训练的图像修复扩散模型的分布,使其朝着更高奖励的方向发展。此外,我们从理论上推导了奖励模型的误差上限,这说明了在整个强化对齐过程中奖励估计的潜在置信度,从而促进了准确的正则化。在修复比较和下游任务(例如图像扩展和3D重建)上的大量实验,证明了我们方法的有效性,与最先进的方法相比,修复图像与人类偏好的对齐度显著提高。这项研究不仅推进了图像修复领域,还提供了一个框架,将人类偏好纳入基于建模奖励精度的生成模型的迭代改进中,对视觉驱动AI应用的设计具有广泛的意义。我们的代码和数据集已公开发布在https://prefpaint.github.io。  
2024-10-29 CT to PET Translation: A Large-scale Dataset and Domain-Knowledge-Guided Diffusion Approach link 正电子发射断层扫描(PET)和计算机断层扫描(CT)对于诊断、分期和监测各种疾病(尤其是癌症)至关重要。尽管它们很重要,但PET/CT系统的使用受到放射性物质的必要性、PET扫描仪的稀缺性以及PET成像相关高成本的限制。相比之下,CT扫描仪更容易获得且成本低得多。为了应对这些挑战,我们的研究解决了从CT图像生成PET图像的问题,旨在降低医疗检查成本和患者的相关健康风险。我们的贡献有两个方面:首先,我们引入了一个名为CPDM的条件扩散模型,据我们所知,这是首次尝试使用扩散模型将CT图像转换为PET图像。其次,我们提供了迄今为止最大的CT-PET数据集,包含2,028,628对配对CT-PET图像,这有助于CT到PET转换模型的训练和评估。对于CPDM模型,我们结合领域知识开发了两个条件图:注意力图和衰减图。前者帮助扩散过程聚焦于感兴趣区域,而后者改进PET数据校正并确保准确的诊断信息。跨各种基准的实验评估表明,CPDM在生成高质量PET图像方面在多个指标上均优于现有方法。源代码和数据样本可在https://github.com/thanhhff/CPDM获取。  
2024-10-29 Guided Diffusion-based Counterfactual Augmentation for Robust Session-based Recommendation null 基于会话的推荐(SR)模型旨在根据用户在当前会话期间的行为向用户推荐top-K项目。文献中提出了几种SR模型,然而,人们对其易受训练数据(观察数据)中固有偏差(例如流行度偏差)的影响提出了担忧。在有偏差的训练数据上训练的SR模型在现实场景中可能会遇到分布外数据的性能挑战。减轻流行度偏差的一种方法是反事实数据增强。与先前依赖于使用SR模型生成数据的工作相比,我们专注于利用最先进的扩散模型来生成反事实数据。我们提出了一个用于SR的基于引导扩散的反事实增强框架。通过分别在真实世界和模拟数据集上进行的离线和在线实验的组合,我们表明我们的方法比基线SR模型和其他最先进的增强框架表现得更好。更重要的是,我们的框架在不太流行的目标项目上显示出显著的改进,在真实世界和模拟数据集上的召回率分别提高了20%,点击率提高了13%。  
2024-10-25 Model merging with SVD to tie the Knots link 最近的模型合并方法表明,专门针对不同任务的完全微调模型的参数可以合并到一个模型中,该模型能够在不进行重新训练的情况下解决所有任务。然而,当合并 LoRA 微调模型时,这种成功并没有很好地迁移。我们研究了这一现象,并观察到与完全微调模型相比,LoRA 微调模型的权重表现出较低的对齐程度。我们假设提高这种对齐性是获得更好 LoRA 模型合并的关键,并提出了 KnOTS 来解决这个问题。KnOTS 使用 SVD 将不同 LoRA 模型的权重联合转换到一个对齐的空间中,现有的合并方法可以在该空间中应用。此外,我们引入了一个新的基准测试,该基准测试明确评估合并模型是否为通用模型。值得注意的是,KnOTS 在多个视觉和语言基准测试中,包括我们的新设置,始终将 LoRA 合并提高了 4.3%。我们在以下位置发布我们的代码:https://github.com/gstoica27/KnOTS。  
2024-10-25 Adversarial Environment Design via Regret-Guided Diffusion Models null 在深度强化学习 (RL) 中,训练对环境变化具有鲁棒性的智能体仍然是一项重大挑战。无监督环境设计 (UED) 近期应运而生,旨在通过生成一组针对智能体能力量身定制的训练环境来解决这个问题。尽管先前的工作表明 UED 有可能学习到鲁棒的策略,但其性能受到环境生成能力的限制。为此,我们提出了一种新颖的 UED 算法,即通过遗憾引导扩散模型进行对抗性环境设计 (ADD)。所提出的方法利用智能体的遗憾来指导基于扩散的环境生成器,以生成对智能体具有挑战性但有利于进一步改进的环境。通过利用扩散模型的表示能力,ADD 可以直接生成对抗性环境,同时保持训练环境的多样性,从而使智能体能够有效地学习鲁棒的策略。我们的实验结果表明,所提出的方法成功地生成了一个具有指导意义的环境课程,在对新颖的、超出分布的环境的零样本泛化方面优于 UED 基线。项目页面:https://github.com/rllab-snu.github.io/projects/ADD  
2024-10-25 DiffGS: Functional Gaussian Splatting Diffusion null 三维高斯 splatting (3DGS) 在渲染速度和保真度方面表现出了令人信服的性能,但由于其离散性和非结构化性质,高斯 splatting 的生成仍然是一个挑战。在这项工作中,我们提出了 DiffGS,一个基于潜在扩散模型的通用高斯生成器。DiffGS 是一种强大且高效的 3D 生成模型,能够生成任意数量的高斯基元,用于光栅化的高保真渲染。其关键见解是通过三个新颖的函数以解耦的方式表示高斯 splatting,分别对高斯概率、颜色和变换进行建模。通过对 3DGS 的新颖解耦,我们使用连续的高斯 splatting 函数表示离散和非结构化的 3DGS,然后我们训练一个潜在扩散模型,目标是无条件和有条件地生成这些高斯 splatting 函数。同时,我们引入了一种离散化算法,通过八叉树引导采样和优化,从生成的函数中提取任意数量的高斯函数。我们探索了 DiffGS 的各种任务,包括无条件生成、从文本、图像和部分 3DGS 进行条件生成,以及点到高斯的生成。我们相信,DiffGS 为灵活建模和生成高斯 splatting 提供了一个新的方向。  
2024-10-25 Diffusion models for lattice gauge field simulations null 我们为格点规范理论开发了基于随机量子化概念的扩散模型。这个框架被应用于 $1+1$维的$U(1)$ 规范理论。我们证明,在一个小的逆耦合常数下训练的模型可以有效地迁移到更大的逆耦合常数,而不会遇到与拓扑冻结相关的问题,即该模型可以通过引入玻尔兹曼因子作为物理条件来生成对应于不同耦合常数的构型,同时保持正确的物理分布,而无需任何额外的训练。这证明了物理条件扩散模型在高效灵活的格点规范理论模拟方面的潜力。  
2024-10-25 Utilizing Image Transforms and Diffusion Models for Generative Modeling of Short and Long Time Series null 近年来,围绕时间序列数据的生成模型的兴趣激增。大多数现有方法要么设计用于处理短序列,要么处理长程序列。这种二分法可归因于循环网络的梯度问题、与 Transformer 相关的计算成本以及状态空间模型的表达能力有限。为了构建一个适用于不同长度时间序列的统一生成模型,我们在这项工作中建议将序列转换为图像。通过采用可逆变换(例如延迟嵌入和短时傅里叶变换),我们获得了三个主要优势:i)我们可以利用先进的扩散视觉模型;ii)我们可以在同一框架内显著地处理短程和长程输入;iii)我们可以利用时间序列到图像文献中提出的最新和已建立的工具。我们通过对多个任务(包括无条件生成、插值和外推)的综合评估来验证我们方法的有效性。我们表明,我们的方法在与强大的基线相比始终如一地实现了最先进的结果。在无条件生成任务中,我们展示了与之前的扩散模型相比,在短期判别分数上取得了 58.17% 的显着平均改进,在(超)长期分类分数上取得了 132.61% 的显着平均改进。代码位于 https://github.com/azencot-group/ImagenTime。  
2024-10-25 Ensemble Data Assimilation for Particle-based Methods null 本研究提出了一种新颖的方法,将数据同化技术应用于基于粒子的模拟中,并使用了集合卡尔曼滤波器。虽然数据同化方法已有效地应用于欧拉模拟,但其在拉格朗日解离散化中的应用尚未得到适当的探索。我们引入了两种具体的方法来弥补这一差距。第一种方法采用了一种中间欧拉变换,它结合了投影和重新网格化过程。第二种方法是一种纯粹的拉格朗日方案,适用于重新网格化不合适的情况。第二种方法是一种纯粹的拉格朗日方案,适用于重新网格化不适用的情况。这些方法使用具周期边界条件的一维对流扩散模型进行评估。针对基于网格的同化滤波器对一维场景进行了性能基准测试。随后,将同化方案应用于通过涡度-单元法求解的非线性二维不可压缩流动问题。结果证明了这些方法在更复杂场景中的适用性,突出了它们在一维和二维环境中的有效性。  
2024-10-25 Marked Temporal Bayesian Flow Point Processes null 带标记事件数据通过记录事件的连续值发生时间戳及其对应的离散值类型来捕获事件。它们出现在各种现实场景中,例如社交媒体、金融交易和医疗保健记录,并且已经通过带标记时间点过程 (MTPP) 模型得到有效建模。最近,由于其强大的生成能力和限制较少的函数形式,针对这些 MTPP 模型开发生成模型发展迅速。然而,现有的生成性 MTPP 模型通常在联合建模事件的时间戳和类型方面面临挑战,因为:(1) 主流方法仅设计时间戳的生成机制,不包括事件类型;(2) 时间戳和事件类型之间复杂的相互依赖关系被忽略了。在本文中,我们提出了一种新的生成性 MTPP 模型,称为 BMTPP。与现有的生成性 MTPP 模型不同,BMTPP 使用基于参数的方法灵活地对标记的时间联合分布进行建模。此外,通过向标记的时间数据空间添加联合噪声,BMTPP 可以有效地捕获并明确揭示时间戳和事件类型之间的相互依赖关系。大量实验验证了我们的方法优于其他最先进模型的优越性及其有效捕获标记时间相互依赖性的能力。  
2024-10-25 NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction link 利用非侵入性脑活动 fMRI 重建静态视觉刺激取得了巨大成功,这得益于诸如 CLIP 和 Stable Diffusion 等先进的深度学习模型。然而,由于解码对连续视觉体验的时空感知非常具有挑战性,因此关于 fMRI 到视频重建的研究仍然有限。我们认为,应对这些挑战的关键在于准确解码大脑对视频刺激所感知到的高级语义和低级感知流。为此,我们提出了 NeuroClips,这是一个从 fMRI 解码高保真、流畅视频的创新框架。NeuroClips 利用语义重建器来重建视频关键帧,指导语义准确性和一致性,并采用感知重建器来捕捉低级感知细节,确保视频流畅性。在推理过程中,它采用预先训练的 T2V 扩散模型,注入关键帧和低级感知流,用于视频重建。在公开可用的 fMRI 视频数据集上进行评估,NeuroClips 实现了高达 6 秒、8FPS 的流畅高保真视频重建,在各种指标上都比现有最佳模型取得了显著改进,例如,SSIM 提高了 128%,时空指标提高了 81%。我们的项目可在 https://github.com/gongzix/NeuroClips 获得。  
2024-10-25 Learned Reference-based Diffusion Sampling for multi-modal distributions null 在过去几年中,已经提出了一些利用基于分数的扩散方法从概率分布中采样的方法,即在无法获得精确样本的情况下,仅依靠对未归一化密度的评估。由此产生的采样器近似于噪声扩散过程的时间反转,将目标分布桥接到易于采样的基础分布。在实践中,这些方法的性能在很大程度上取决于关键的超参数,这些超参数需要真实样本才能进行精确调整。我们的工作旨在突出和解决这一基本问题,特别关注多模态分布,这对现有的采样方法提出了重大挑战。在现有方法的基础上,我们引入了基于学习参考的扩散采样器(LRDS),这是一种专门设计用于利用关于目标模态位置的先验知识的方法,以绕过超参数调整的障碍。LRDS 分两步进行:(i)学习位于高密度空间区域并针对多模态量身定制的样本上的参考扩散模型,以及(ii)使用该参考模型来促进基于扩散的采样器的训练。我们通过实验证明,在各种具有挑战性的分布上,与竞争算法相比,LRDS 最好地利用了目标分布的先验知识。  
2024-10-25 Generative Diffusion Models for Sequential Recommendations null 诸如变分自编码器 (VAE) 和生成对抗网络 (GAN) 等生成模型在序列推荐任务中已展现出前景。然而,它们也面临着挑战,包括后验坍缩和表示能力有限。Li 等人 (2023) 的工作引入了一种新颖的方法,利用扩散模型来应对这些挑战,将物品嵌入表示为分布而不是固定向量。这种方法允许更自适应地反映用户多样化的兴趣和物品的各个方面。在扩散阶段,模型通过添加噪声将目标物品嵌入转换为高斯分布,促进序列物品分布的表示并注入不确定性。然后,一个逼近器处理这个带有噪声的物品表示以重建目标物品。在反向阶段,模型利用用户的历史交互来逆转噪声,并通过舍入操作最终确定物品预测。这项研究对 DiffuRec 架构进行了增强,特别是在扩散过程中添加了偏移噪声以提高鲁棒性,并在逼近器中加入了交叉注意力机制以更好地捕获相关的用户-物品交互。这些贡献促成了一种名为 DiffuRecSys 的新模型的开发,该模型提高了性能。在三个公共基准数据集上进行的大量实验表明,这些改进增强了物品表示,有效地捕获了不同的用户偏好,并在序列推荐研究中优于现有基线。  
2024-10-24 MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms null 本研究深入探讨了人体动作生成的交互式编辑问题。以往的动作扩散模型缺乏对词级文本-动作对应关系的显式建模和良好的可解释性,从而限制了其细粒度的编辑能力。为了解决这个问题,我们提出了一个基于注意力的动作扩散模型,名为MotionCLR,它对注意力机制进行了清晰的建模(CLeaR)。从技术上讲,MotionCLR分别使用自注意力和交叉注意力机制对模态内和跨模态交互进行建模。更具体地说,自注意力机制旨在测量帧之间的序列相似性并影响运动特征的顺序。相比之下,交叉注意力机制致力于找到细粒度的词序列对应关系,并激活运动序列中相应的时刻。基于这些关键特性,我们开发了一套通用且简单有效的运动编辑方法,通过操纵注意力图来实现,例如运动(去)强调、原位运动替换和基于示例的动作生成等。为了进一步验证注意力机制的可解释性,我们还探索了通过注意力图进行动作计数和基于基础的动作生成的能力。我们的实验结果表明,我们的方法具有良好的生成和编辑能力以及良好的可解释性。  
2024-10-24 Unbounded: A Generative Infinite Game of Character Life Simulation null 我们引入了生成式无限游戏的概念,这是一种超越了有限的、硬编码的传统系统边界,使用生成模型的电子游戏。受James P. Carse的有限游戏和无限游戏区别的启发,我们利用生成式人工智能的最新进展创造了“无限”:一个完全封装在生成模型中的人物生活模拟游戏。“无限”从沙盒生活模拟游戏中汲取灵感,允许你通过喂养、玩耍和引导,与自主的虚拟角色在一个虚拟世界中互动——其开放式机制由大型语言模型生成,其中一些可能是涌现的。为了开发“无限”,我们提出了大型语言模型和视觉生成领域的技术创新。具体来说,我们提出了:(1)一个专门的、精简的大型语言模型(LLM),它可以实时动态地生成游戏机制、叙事和角色互动;(2)一个新的用于视觉模型的动态区域图像提示适配器(IP-Adapter),它确保了角色在多个环境中的视觉生成保持一致性和灵活性。我们通过定性和定量分析评估了我们的系统,结果表明,与传统的相关方法相比,在角色生活模拟、用户指令遵循、叙事连贯性以及角色和环境的视觉一致性方面都有显著改进。  
2024-10-24 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation link 多视角图像扩散模型显著推进了开放域三维物体生成。然而,大多数现有模型依赖于缺乏固有三维偏差的二维网络架构,导致几何一致性受损。为了应对这一挑战,我们引入了3D-Adapter,一个插件模块,旨在将三维几何感知融入预训练的图像扩散模型。我们方法的核心是三维反馈增强:对于采样循环中的每个去噪步骤,3D-Adapter将中间多视角特征解码为一致的三维表示,然后重新编码渲染的RGBD视图,通过特征添加来增强预训练的基础模型。我们研究了3D-Adapter的两种变体:一种基于高斯 splatting 的快速前馈版本和一种利用神经场和网格的多功能免训练版本。我们广泛的实验表明,3D-Adapter不仅极大地提高了诸如Instant3D和Zero123++等文本到多视角模型的几何质量,还能够使用普通的文本到图像模型Stable Diffusion进行高质量的三维生成。此外,我们通过在文本到三维、图像到三维、文本到纹理和文本到头像任务中呈现高质量结果,展示了3D-Adapter广泛的应用潜力。  
2024-10-24 On the Crucial Role of Initialization for Matrix Factorization null 这项工作重新审视了经典的低秩矩阵分解问题,并揭示了初始化在塑造这种非凸非光滑优化收敛速度中的关键作用。我们引入了Nystrom初始化,它显著提高了缩放梯度下降(ScaledGD)在对称和非对称矩阵分解任务中的全局收敛性。具体来说,我们证明了在以前只知道线性收敛速度的情况下,使用Nystrom初始化的ScaledGD可以实现二次收敛。此外,我们将此初始化扩展到通常用于微调基础模型的低秩适配器(LoRA)。我们的方法NoRA,即带有Nystrom初始化的LoRA,在各种下游任务和模型规模(从10亿到70亿个参数)的大语言模型和扩散模型中展现出优越的性能。  
2024-10-24 Stable Consistency Tuning: Understanding and Improving Consistency Models link 扩散模型实现了卓越的生成质量,但由于去噪的迭代性质,生成速度较慢。相比之下,一致性模型作为一种新的生成模型系列,以显著更快的采样速度实现了具有竞争力的性能。这些模型要么通过一致性蒸馏(利用预训练的扩散模型)进行训练,要么直接从原始数据进行一致性训练/微调。在这项工作中,我们提出了一个新的框架来理解一致性模型,我们将扩散模型的去噪过程建模为马尔可夫决策过程 (MDP),并将一致性模型训练框架化为通过时间差学习 (TD Learning) 进行的价值估计。更重要的是,该框架使我们能够分析当前一致性训练/微调策略的局限性。在轻松一致性微调 (ECT) 的基础上,我们提出了稳定一致性微调 (SCT),它结合了使用分数恒等式的方差减少学习。SCT 在 CIFAR-10 和 ImageNet-64 等基准测试中带来了显著的性能提升。在 ImageNet-64 上,SCT 实现了 1 步 FID 2.42 和 2 步 FID 1.55,这是当前一致性模型的最佳结果。  
2024-10-24 Generation of synthetic financial time series by diffusion models null 尽管实际意义重大,但生成逼真的合成金融时间序列仍然具有挑战性,这是由于其统计特性,即所谓的程式化事实,例如厚尾、波动率聚集和季节性模式。各种生成模型,包括生成对抗网络 (GAN) 和变分自编码器 (VAE),已被用于解决这一挑战,尽管目前还没有模型能够满足所有程式化事实。我们提出另一种方法,利用扩散模型,特别是去噪扩散概率模型 (DDPM),来生成合成金融时间序列。这种方法采用小波变换将多个时间序列(例如股票价格、交易量和价差)转换为图像。给定这些转换后的图像,该模型能够生成可以通过逆小波变换转换回逼真的时间序列的图像。我们证明了我们提出的方法满足程式化事实。  
2024-10-24 Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences null 一步文本到图像生成模型具有推理效率高、架构灵活以及最先进的生成性能等优势。本文首次研究了一步生成模型与人类偏好的对齐问题。受人类反馈强化学习 (RLHF) 的成功启发,我们将对齐问题表述为最大化预期人类奖励函数,同时添加一个积分 Kullback-Leibler 散度项以防止生成器偏离。通过克服技术挑战,我们引入了 Diff-Instruct++ (DI++),这是第一个快速收敛且无需图像数据的人类偏好对齐方法,适用于一步文本到图像生成器。我们还引入了新的理论见解,表明使用 CFG 进行扩散蒸馏实际上是在使用 DI++ 进行 RLHF。这一有趣的发现有助于理解和促进未来涉及 CFG 的研究。在实验部分,我们使用 DI++ 对齐了基于 UNet 和基于 DiT 的一步生成器,它们分别使用 Stable Diffusion 1.5 和 PixelArt- $\alpha$ 作为参考扩散过程。由此产生的基于 DiT 的一步文本到图像模型在 COCO 验证提示数据集上实现了 6.19 的高美学得分和 1.24 的图像奖励。它还实现了领先的人类偏好得分 (HPSv2.0) 28.48,优于其他开源模型,如 Stable Diffusion XL、DMD2、SD-Turbo 以及 PixelArt-$\alpha$ 。理论贡献和实证证据都表明,DI++ 是一种强大的人类偏好对齐方法,适用于一步文本到图像模型。  
2024-10-24 The Cat and Mouse Game: The Ongoing Arms Race Between Diffusion Models and Detection Methods null 扩散模型的出现改变了合成媒体生成领域,在内容创作方面提供了无与伦比的真实感和控制力。这些进步推动了艺术、设计和科学可视化等领域的创新。然而,它们也带来了重大的伦理和社会挑战,特别是通过创建超逼真图像,这些图像可能助长深度伪造、虚假信息和未经授权的版权材料复制。因此,对有效检测机制的需求变得日益迫切。本综述探讨了扩散模型发展与检测方法进步之间不断演变的对抗关系。我们对当代检测策略进行了全面分析,包括频域和空域技术、基于深度学习的方法以及结合多种方法的混合模型。我们还强调了多样化数据集和标准化评估指标在提高检测精度和泛化能力方面的重要性。我们的讨论探讨了这些检测系统在版权保护、虚假信息预防和取证分析中的实际应用,同时也探讨了合成媒体的伦理影响。最后,我们确定了关键的研究差距,并提出了未来发展方向,以增强检测方法的鲁棒性和适应性,使其与扩散模型的快速发展保持同步。本综述强调了在日益数字化的世界中,采取全面方法来降低与人工智能生成内容相关的风险的必要性。  
2024-10-24 From Efficiency to Equity: Measuring Fairness in Preference Learning null 随着人工智能系统,特别是生成模型,越来越多地影响决策,确保它们能够公平地代表不同的人类偏好变得至关重要。本文介绍了一个新的框架,用于评估偏好学习模型中的认知公平性,其灵感来自经济学中的不平等理论和罗尔斯主义的正义理论。我们提出了根据基尼系数、阿特金森指数和库兹涅茨比率改编的指标来量化这些模型的公平性。我们使用两个数据集验证了我们的方法:一个自定义的视觉偏好数据集 (AI-EDI-Space) 和 Jester Jokes 数据集。我们的分析揭示了模型性能在不同用户之间的差异,突出了潜在的认知不公正现象。我们探索了预处理和进程中技术来减轻这些不平等,证明了模型效率和公平性之间的复杂关系。这项工作通过提供一个评估和改进偏好学习模型中认知公平性的框架,为人工智能伦理做出了贡献,为在人类偏好多样性至关重要的环境中开发更具包容性的人工智能系统提供了见解。  
2024-10-24 Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation null Diffusion models have recently gained recognition for generating diverse and high-quality content, especially in the domain of image synthesis. These models excel not only in creating fixed-size images but also in producing panoramic images. However, existing methods often struggle with spatial layout consistency when producing high-resolution panoramas, due to the lack of guidance of the global image layout. In this paper, we introduce the Multi-Scale Diffusion (MSD) framework, a plug-and-play module that extends the existing panoramic image generation framework to multiple resolution levels. By utilizing gradient descent techniques, our method effectively incorporates structural information from low-resolution images into high-resolution outputs. A comprehensive evaluation of the proposed method was conducted, comparing it with the prior works in qualitative and quantitative dimensions. The evaluation results demonstrate that our method significantly outperforms others in generating coherent high-resolution panoramas.  
2024-10-22 Creativity in AI: Progresses and Challenges null 创造力是产生新颖、有用和令人惊讶的想法的能力,并且作为人类认知的一个重要方面已被广泛研究。另一方面,机器创造力一直是一项长期挑战。随着高级生成式人工智能的兴起,人们对人工智能的创造能力重新产生了兴趣和争论。因此,有必要重新审视人工智能创造力的现状,并确定关键进展和 remaining challenges。在这项工作中,我们调查了研究人工智能系统创造能力的主要工作,重点关注创造性问题解决、语言、艺术和科学创造力。我们的综述表明,虽然最新的人工智能模型在很大程度上能够生成具有语言和艺术创造力的输出,如诗歌、图像和音乐作品,但它们在需要创造性问题解决、抽象思维和组合性的任务中却步履维艰,而且它们的生成缺乏多样性、原创性、长期连贯性和幻觉。我们还讨论了与生成模型相关的版权和作者身份问题。此外,我们强调需要对创造力进行全面的评估,这种评估应以流程为导向,并考虑创造力的多个维度。最后,我们从认知科学和心理学中汲取灵感,提出了未来改进人工智能输出创造力的研究方向。  
2024-10-22 Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding link 蛋白质逆折叠,即预测折叠成所需 3D 结构的氨基酸序列,是基于结构的蛋白质设计中的一个重要问题。基于机器学习的逆折叠方法通常使用原始序列的恢复作为优化目标。然而,逆折叠是一个一对多问题,其中多个序列可以折叠成相同的结构。此外,对于许多实际应用来说,拥有多个折叠成目标结构的不同序列通常是可取的,因为它允许为下游优化提供更多候选序列。在这里,我们证明,尽管最近的逆折叠方法显示出更高的序列恢复率,但它们的“可折叠多样性”——即它们生成多个折叠成与目标一致的结构的非相似序列的能力——并没有提高。为了解决这个问题,我们提出了 RL-DIF,一种用于逆折叠的分类扩散模型,该模型在序列恢复上进行了预训练,并通过强化学习对结构一致性进行了调整。我们发现 RL-DIF 实现了与基准模型相当的序列恢复和结构一致性,但显示出更大的可折叠多样性:实验表明 RL-DIF 在 CATH 4.2 上可以实现 29% 的可折叠多样性,而使用相同数据集训练的模型为 23%。PyTorch 模型权重和采样代码可在 GitHub 上获取。  
2024-10-22 Hybrid Generative AI for De Novo Design of Co-Crystals with Enhanced Tabletability link 共晶化是控制有机晶体物理化学性质的一种便捷方法,在生物医学领域有着广泛的应用。本研究提出了一种名为“生成式共晶设计”(GEMCODE)的新型自动化共晶筛选流程,该流程基于深度生成模型和进化优化的混合,以更广泛地探索目标化学空间。GEMCODE能够快速地从头设计具有目标成片性的共晶,这对药物开发至关重要。通过一系列突出验证和发现案例的实验研究,我们证明了GEMCODE即使在现实的计算限制下也是有效的。此外,我们还探索了语言模型在生成共晶方面的潜力。最后,我们展示了GEMCODE预测的许多以前未知的共晶,并讨论了其在加速药物开发方面的潜力。  
2024-10-22 DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization null 扩散模型凭借其出色的能力在图像生成领域取得了显著进展。然而,由于推理过程中需要多步去噪,这些模型需要大量的计算资源。虽然传统的剪枝方法已被用于优化这些模型,但重新训练过程需要大规模的训练数据集和大量的计算成本才能保持泛化能力,这既不方便也不高效。最近的研究试图利用相邻去噪阶段特征的相似性,通过简单、静态的策略来降低计算成本。然而,这些策略不能充分利用相邻时间步中相似特征模式的潜力。在这项工作中,我们提出了一种新的剪枝方法,该方法通过更智能、可微分的剪枝器得到一个高效的扩散模型。我们的方法的核心是将模型剪枝过程转化为子网络搜索过程。具体来说,我们首先在标准扩散的基础上引入了一个超级网络,通过添加一些基于相似特征的备份连接。然后,我们构建了一个插件式的剪枝器网络,并设计了优化损失来识别冗余计算。最后,我们的方法可以通过少量的梯度优化和简单的后处理步骤来确定一个最优的子网络。我们在包括稳定扩散系列和 DiT 在内的各种扩散模型上进行了广泛的实验。我们的 DiP-GO 方法在不损失准确率的情况下,实现了 SD-1.5 的 4.4 倍加速,显著优于以往最先进的方法。  
2024-10-22 Hierarchical Clustering for Conditional Diffusion in Image Generation link 寻找具有相似特征的数据点簇并生成新的簇特定样本可以显著增强我们对复杂数据分布的理解。虽然已经使用变分自编码器对聚类进行了广泛的探索,但这些模型在现实世界的数据集中通常缺乏生成质量。本文通过引入 TreeDiffusion 来解决这一差距,TreeDiffusion 是一种深度生成模型,它将扩散模型 conditioning 在层次聚类上,以获得高质量的、特定于聚类的生成结果。所提出的流程包括两个步骤:一个基于 VAE 的聚类模型,学习数据的层次结构;以及一个条件扩散模型,为每个聚类生成逼真的图像。我们提出这个两阶段过程,以确保生成的样本保持其各自聚类的代表性,并将图像保真度提高到扩散模型的水平。我们方法的一个关键优势是它能够为每个聚类创建图像,通过定性结果证明,可以更好地可视化聚类模型学习到的表示。这种方法有效地解决了基于 VAE 的方法的生成限制,同时保留了它们的聚类性能。根据经验,我们证明了在层次聚类上 conditioning 扩散模型可以显著提高生成性能,从而推进了生成聚类模型的发展。  
2024-10-22 Bayes without Underfitting: Fully Correlated Deep Learning Posteriors via Alternating Projections null 贝叶斯深度学习经常出现欠拟合问题,导致贝叶斯预测的准确性低于简单的点估计。因此,不确定性量化是以牺牲准确性为代价的。对于线性化模型,广义高斯-牛顿矩阵的零空间对应于保留点估计的训练预测的参数。我们建议在这个零空间中构建贝叶斯近似,从而保证贝叶斯预测不会欠拟合。我们提出了一种用于投影到该零空间的无矩阵算法,该算法的规模与参数数量呈线性关系,与输出维度数量呈平方关系。为了使该方法适用于生成模型,我们进一步提出了一种仅与参数呈线性关系的近似方法。广泛的实证评估表明,该方法可扩展到大型模型,包括具有 2800 万个参数的视觉Transformer。  
2024-10-22 VistaDream: Sampling multiview consistent images for single-view scene reconstruction null 在本文中,我们提出了VistaDream,这是一个从单视图图像重建三维场景的新框架。最近的扩散模型能够从单视图输入图像生成高质量的新视图图像。大多数现有方法只专注于建立输入图像和生成图像之间的一致性,而忽略了生成图像之间的一致性。VistaDream 通过两阶段流水线解决了这个问题。在第一阶段,VistaDream 首先通过稍微缩小并绘制边界和估计深度图来构建全局粗糙三维框架。然后,在这个全局框架上,我们使用基于迭代扩散的RGB-D修复来生成新视图图像,以修复框架中的孔洞。在第二阶段,我们通过一种新的无需训练的多视图一致性采样(MCS)进一步增强了生成的新视图图像之间的一致性,该采样在扩散模型的反向采样过程中引入了多视图一致性约束。实验结果表明,在没有训练或微调现有扩散模型的情况下,VistaDream仅使用单视图图像就能实现一致且高质量的新视图合成,并且大幅度优于基线方法。代码、视频和交互式演示可在https://vistadream-project-page.github.io/获取。  
2024-10-22 CK4Gen: A Knowledge Distillation Framework for Generating High-Utility Synthetic Survival Datasets in Healthcare null 由于隐私法规的严格限制,获取真实的临床数据非常困难,这阻碍了医疗保健研究和教育的发展。这些限制减缓了新疗法和数据驱动型医疗解决方案的开发进程,同时也限制了学生接触真实世界数据集的机会,使他们缺乏必要的实践技能。因此,高实用性的合成数据集对于推进研究和提供有意义的培训材料至关重要。然而,当前的生成模型——例如变分自动编码器 (VAE) 和生成对抗网络 (GAN)——以牺牲医疗实用性为代价来产生表面上的真实感,混合不同的患者特征,并产生实际相关性有限的合成数据。为了克服这些限制,我们引入了 CK4Gen(Cox Knowledge for Generation),这是一种利用 Cox 比例风险 (CoxPH) 模型中的知识蒸馏来创建合成生存数据集的新框架,该框架保留了关键的临床特征,包括风险比和生存曲线。CK4Gen 通过维护不同的患者风险特征来避免 VAE 和 GAN 中出现的插值问题,确保为研究和教育用途提供真实可靠的输出。CK4Gen 在四个基准数据集(GBSG2、ACTG320、WHAS500 和 FLChain)中得到验证,通过更好地对齐真实数据和合成数据,通过数据增强提高了生存模型在区分和校准方面的性能,优于竞争技术。由于 CK4Gen 可扩展到各种临床条件,并且代码将公开可用,因此未来的研究人员可以将其应用于自己的数据集,以生成适合公开共享的合成版本。  
2024-10-22 MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model null 电影海报对于吸引观众、传达主题和推动电影行业的市场竞争至关重要。虽然传统的设计费时费力,但智能生成技术可以提高效率并改进设计。尽管图像生成取得了令人兴奋的进展,但目前的模型在生成令人满意的海报结果方面往往存在不足。主要问题在于缺乏用于模型训练的专门海报数据集。在这项工作中,我们提出了一个电影海报数据集(MPDS),专为文本到图像生成模型而设计,旨在彻底改变海报制作。作为致力于海报的数据集,据我们所知,MPDS 是第一个图像-文本对数据集,由 37.3 万多个图像-文本对和 8 千多张演员图像(涵盖 4 千多名演员)组成。详细的海报描述,如电影标题、类型、演员阵容和剧情梗概,都根据公开的电影梗概(也称为电影梗概提示)进行了精心组织和标准化。为了增强海报描述并减少与电影梗概的差异,我们利用大型视觉语言模型自动生成每个海报的视觉感知提示,然后进行手动校正并与电影梗概提示进行整合。此外,我们还引入了一个海报标题提示,以展示海报中的文本元素,如演员姓名和电影标题。对于电影海报生成,我们开发了一个多条件扩散框架,将海报提示、海报标题和演员图像(用于个性化)作为输入,通过学习扩散模型产生出色的结果。实验表明,我们提出的 MPDS 数据集在推进个性化电影海报生成方面发挥着重要作用。MPDS 可在 https://anonymous.4open.science/r/MPDS-373k-BD3B 获取。  
2024-10-22 Bridging Search and Recommendation in Generative Retrieval: Does One Task Help the Other? null 生成式检索作为一种用于搜索和推荐的新兴范式,为传统的依赖外部索引和最近邻搜索的检索方法提供了一种替代方案。生成式模型直接将输入与项目ID相关联。鉴于大型语言模型(LLM)的突破,这些生成式系统可以在集中各种信息检索(IR)任务方面发挥至关重要的作用,在一个模型中执行查询理解、检索、推荐、解释、重新排序和响应生成等任务。尽管人们对这种用于信息检索系统的统一生成方法越来越感兴趣,但在文献中,使用单一、多任务模型优于多个专用模型的优势尚未得到很好的证实。本文探讨了这种统一的方法是否以及何时能够在搜索和推荐的信息检索任务中胜过特定于任务的模型,这些任务广泛存在于多个工业在线平台中,如Spotify、YouTube和Netflix。先前的工作表明:(1)生成式推荐系统学习到的项目潜在表示偏向于流行度,以及(2)基于内容和基于协同过滤的信息可以改进项目的表示。受此启发,我们的研究以两个假设为指导:[H1]联合训练规范了每个项目流行度的估计,以及[H2]联合训练规范了项目的潜在表示,其中搜索捕获项目的基于内容的方面,推荐捕获基于协同过滤的方面。我们使用模拟数据和真实世界数据进行的大量实验都支持[H1]和[H2],认为它们是统一搜索和推荐生成模型相对于单任务方法所观察到的有效性改进的关键因素。  
2024-10-18 BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities link 我们介绍了一种名为 BiGR 的新型条件图像生成模型,它使用紧凑的二进制潜码进行生成训练,专注于增强生成和表示能力。BiGR 是第一个将生成和判别统一在同一框架内的条件生成模型。BiGR 具有二进制分词器、掩码建模机制和用于二进制代码预测的二进制转换器。此外,我们引入了一种新颖的熵排序采样方法,以实现高效的图像生成。大量实验验证了 BiGR 在生成质量(通过 FID-50k 衡量)和表示能力(通过线性探针精度证明)方面的优越性能。此外,BiGR 展示了跨各种视觉任务的零样本泛化能力,可在无需结构修改的情况下实现图像修复、扩展、编辑、插值和丰富等应用。我们的研究结果表明,BiGR 有效地统一了生成和判别任务,为该领域的进一步发展铺平了道路。  
2024-10-18 How Does Data Diversity Shape the Weight Landscape of Neural Networks? null 为了增强机器学习模型对未见数据的泛化能力,通常采用dropout、权重衰减( $L_2$ 正则化)和噪声增强等技术。正则化方法(即dropout和权重衰减)旨在调整模型参数以防止过拟合,而数据增强则增加了输入训练集的多样性,这是一种据称可以提高准确性和校准误差的方法。在本文中,我们研究了这些技术各自对神经网络参数空间的影响,目的是了解它们如何在迁移学习场景中改变权重情况。为此,我们采用随机矩阵理论分析了使用这些技术进行微调的预训练模型的特征值分布,这些模型使用不同级别的数据多样性,用于相同的下游任务。我们观察到,多样化数据对权重情况的影响与dropout类似。此外,我们将常用的数据增强方法与生成模型创建的合成数据进行了比较。我们得出结论,合成数据可以为真实输入数据带来更多样性,从而在分布外测试实例上获得更好的性能。  
2024-10-18 Bayesian Multi-wavelength Imaging of the LMC SN1987A with SRG/eROSITA null EDR和eRASS1数据已经揭示了大量未被发现的X射线源。利用贝叶斯推理和X射线成像的生成模型技术,我们的目标是通过对X射线天空进行去噪、反卷积和分解来提高这些观测的灵敏度和科学价值。利用信息场理论,我们可以利用天空不同物理成分的空间和光谱相关结构以及非参数先验来增强图像重建。通过将仪器效应纳入正演模型,我们为eROSITA指向观测开发了一种全面的贝叶斯成像算法。最后,我们将开发的算法应用于大麦哲伦星云SN1987A的EDR数据,融合了五个不同望远镜模块观测到的数据集。最终结果是一个去噪、去卷积和分解的大麦哲伦星云视图,它可以分析其精细结构,创建该区域的点源目录,并为未来的工作增强校准。  
2024-10-18 Neuro-Symbolic Traders: Assessing the Wisdom of AI Crowds in Markets null 深度生成模型正越来越多地被用作金融分析工具。然而,目前尚不清楚这些模型将如何影响金融市场,尤其是在它们以半自主的方式推断金融价值的情况下。在这项工作中,我们探讨了深度生成模型与市场动态之间的相互作用。我们开发了一种虚拟交易者,他们使用深度生成模型进行买卖决策,我们称之为神经符号交易者,并将其暴露在虚拟市场中。在我们的框架下,神经符号交易者是使用视觉语言模型来发现资产基本价值模型的代理。代理将此模型开发为随机微分方程,使用梯度下降校准市场数据。我们在合成数据和真实金融时间序列(包括股票、商品和外汇对)上测试了我们的神经符号交易者。然后,我们将几组神经符号交易者置于虚拟市场环境中。这种市场环境允许交易者对基础价值的信念与观察到的价格动态之间进行反馈。我们发现,与历史数据相比,这会导致价格抑制,突出了未来市场稳定的风险。我们的工作是量化深度生成代理对市场动态影响的第一步,并阐述了这种方法未来的一些潜在风险和收益。  
2024-10-18 Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior null SMPL (Skinned Multi-Person Linear) 模型在 3D 人体姿态估计中扮演着至关重要的角色,它提供了一种简化但有效的人体表示方法。然而,在诸如人体网格回归等任务中,确保 SMPL 配置的有效性仍然是一项重大挑战,这凸显了对能够辨别人体姿态真实性的鲁棒人体姿态先验的需求。为了解决这个问题,我们引入了 MOPED:\underline{M}ulti-m\underline{O}dal \underline{P}os\underline{E} \underline{D}iffuser。MOPED 是第一个利用新型多模态条件扩散模型作为 SMPL 姿态参数先验的方法。我们的方法提供了强大的无条件姿态生成能力,并能够以图像和文本等多模态输入作为条件。这种能力通过结合传统姿态先验中经常忽略的额外上下文信息,增强了我们方法的适用性。我们在姿态估计、姿态去噪和姿态补全这三个不同任务上的大量实验表明,我们基于多模态扩散模型的先验明显优于现有方法。这些结果表明,我们的模型捕获了更广泛的合理人体姿态。  
2024-10-18 LEAD: Latent Realignment for Human Motion Diffusion null 我们的目标是从自然语言生成逼真的人体动作。现代方法通常在模型表达能力和文本到动作的对齐之间进行权衡。一些方法对齐文本和动作的潜在空间,但牺牲了表达能力;另一些方法依赖于扩散模型,产生令人印象深刻的动作,但其潜在空间缺乏语义。这可能会损害真实性、多样性和适用性。在这里,我们通过将潜在扩散与重新对齐机制相结合来解决这个问题,产生一个新颖的、语义结构化的空间,该空间编码语言的语义。利用这种能力,我们引入了文本动作反演的任务,以从几个例子中捕捉新的动作概念。对于动作合成,我们在 HumanML3D 和 KIT-ML 上评估了 LEAD,并在真实性、多样性和文本-动作一致性方面表现出与最先进技术相当的性能。我们的定性分析和用户研究表明,与现代方法相比,我们合成的动作更清晰、更像人,并且更符合文本。对于动作文本反演,与传统的变分自编码器相比,我们的方法在捕捉分布外特征方面表现出更高的能力。  
2024-10-18 Reinforcement Learning in Non-Markov Market-Making null 我们开发了一个深度强化学习 (RL) 框架,用于解决最优做市 (MM) 交易问题,特别关注具有半马尔可夫和霍克斯跳跃扩散动力学的價格过程。我们首先讨论了 RL 的基础知识以及所使用的深度 RL 框架,其中我们部署了最先进的软行动者-评论家 (SAC) 算法进行深度学习部分。SAC 算法是一种离线策略熵最大化算法,更适合解决具有连续状态和动作空间的复杂、高维问题,例如最优做市 (MM)。我们介绍了所考虑的最优 MM 问题,详细说明了用于设置模拟此策略的环境的所有确定性和随机过程。在这里,我们还深入概述了使用的跳跃扩散定价动态、我们处理限价订单簿中逆向选择的方法,并重点介绍了优化问题的各个组成部分。接下来,我们讨论了训练和测试结果,并通过图表展示了重要的确定性和随机过程(例如买卖价差、交易执行、库存和奖励函数)是如何演变的。我们还讨论了这些结果的局限性,这些是大多数扩散模型在此设置中需要注意的重要点。  
2024-10-18 Data-driven topology design with persistent homology for enhancing population diversity null 本文提出了一种选择策略,用于增强数据驱动拓扑设计 (DDTD) 中的种群多样性,DDTD 是一种基于进化算法 (EA) 并使用深度生成模型的拓扑优化框架。虽然种群多样性对于 EA 的全局搜索至关重要,但由于设计变量空间的高维性和评估函数的强非线性,基于目标值保留多样性解决方案的传统选择算子仍可能导致拓扑优化问题中的种群多样性丧失。基于拓扑结构是材料分布之间固有多样性特征的理念,我们采用了一种称为持久同源性的拓扑数据分析方法。作为一项具体操作,在持久图之间引入了 Wasserstein 距离排序到选择算法中,以保持内在的种群多样性。我们将结合到 DDTD 中的所提出的选择操作应用于基于应力的拓扑优化问题作为数值示例。结果证实,可以使用持久同源性分析拓扑结构,并且所提出的选择操作显着提高了 DDTD 的搜索性能。  
2024-10-18 ANT: Adaptive Noise Schedule for Time Series Diffusion Models link 生成式人工智能中扩散模型的进步最近已经扩展到时间序列(TS)领域,在各种任务上展现出最先进的性能。然而,先前关于时间序列扩散模型的研究工作往往借鉴了其他领域现有工作的框架,而没有考虑时间序列数据的特点,导致性能欠佳。在本研究中,我们提出了时间序列扩散模型的自适应噪声调度(ANT),它可以根据给定时间序列数据集的非平稳性统计数据,自动预先确定合适的噪声调度方案。我们的直觉是,一个最优的噪声调度方案应该满足以下要求:1)线性降低时间序列数据的非平稳性,使所有扩散步骤都具有同等意义;2)在最后一步将数据破坏为随机噪声;3)步骤数量足够多。所提出的方法具有很强的实用性,因为它消除了寻找最佳噪声调度的必要性,只需额外计算给定数据集的统计数据即可,这可以在训练前离线完成。我们在不同领域的数据集上验证了我们方法在各种任务上的有效性,包括时间序列预测、细化和生成。代码可在以下存储库中找到:https://github.com/seunghan96/ANT。  
2024-10-18 CaTs and DAGs: Integrating Directed Acyclic Graphs with Transformers and Fully-Connected Neural Networks for Causally Constrained Predictions link 人工神经网络 (ANN),包括全连接网络和 Transformer,是高度灵活且强大的函数逼近器,广泛应用于计算机视觉和自然语言处理等领域。然而,它们无法 inherent 地遵循因果结构,这限制了它们的鲁棒性,使其容易受到协变量偏移的影响,并且难以解释。这对它们在现实应用中的可靠性构成了重大挑战。在本文中,我们介绍了因果全连接神经网络 (CFCN) 和因果 Transformer (CaT),这是两个通用的模型系列,旨在根据预定义的因果约束(由有向无环图 (DAG) 指定)进行操作。这些模型保留了传统神经网络强大的函数逼近能力,同时遵循底层结构约束,提高了推理时的鲁棒性、可靠性和可解释性。这种方法为在鲁棒性和可解释性至关重要的更苛刻的现实场景中部署神经网络开辟了新途径。  
2024-10-17 Diffusing States and Matching Scores: A New Framework for Imitation Learning link 对抗性模仿学习传统上被构建为学习器和对抗性选择的成本函数之间的两人零和博弈,因此可以被认为是生成对抗网络 (GAN) 的顺序泛化。这种框架的一个突出例子是生成对抗性模仿学习 (GAIL)。然而,近年来,扩散模型已成为 GAN 的非对抗性替代方案,它只需要通过回归训练一个评分函数,就能产生更高质量的生成结果。为此,我们研究了如何将扩散模型的见解提升到序列设置中。我们建议沿着扩散状态对状态进行扩散并执行分数匹配,以测量专家和学习者状态之间的差异。因此,我们的方法只需要训练评分函数以通过标准回归来预测噪声,这使得它比对抗性方法更容易训练且更稳定。理论上,我们证明了具有一阶和二阶实例依赖界限且水平线性缩放,证明了我们的方法避免了阻碍离线模仿学习方法的复合误差。根据经验,我们展示了我们的方法在各种连续控制问题上优于 GAN 风格的模仿学习基线,包括控制仿人机器人行走、坐下和爬行的复杂任务。  
2024-10-17 Influence Functions for Scalable Data Attribution in Diffusion Models null 扩散模型在生成式建模方面取得了显著进展。然而,它们的广泛应用对数据溯源和可解释性提出了挑战。在本文中,我们的目标是通过开发一个\textit{影响函数}框架来帮助解决扩散模型中的此类挑战。基于影响函数的数据溯源方法近似于如果删除某些训练数据,模型的输出将如何变化。在监督学习中,这通常用于预测特定样本的损失将如何变化。对于扩散模型,我们专注于通过几个代理指标来预测生成特定样本的概率变化。我们展示了如何为此类量制定影响函数,以及如何将先前提出的方法解释为我们框架中的特定设计选择。为了确保影响函数中Hessian计算的可扩展性,我们系统地开发了基于广义高斯-牛顿矩阵的K-FAC近似,专门针对扩散模型量身定制。我们将先前提出的方法重新定义为我们框架中的特定设计选择,并表明我们推荐的方法在常见评估中优于先前的数据溯源方法,例如线性数据建模分数(LDS)或不包括顶部影响的重新训练,而无需针对特定方法进行超参数调整。  
2024-10-17 VidPanos: Generative Panoramic Videos from Casual Panning Videos null 全景图像拼接提供了一种统一的广角场景视图,超越了相机的视野范围。将平移视频的帧拼接成全景照片对于静态场景来说是一个很好理解的问题,但是当物体移动时,静态全景图无法捕捉场景。我们提出了一种从随意拍摄的平移视频合成全景视频的方法,就好像原始视频是用广角相机拍摄的一样。我们将全景合成视为一个时空外推问题,目标是创建一个与输入视频长度相同的完整全景视频。时空体积的一致性完成需要对视频内容和运动进行强大而真实的先验,为此我们采用了生成式视频模型。然而,现有的生成式模型并不能立即扩展到全景补全,正如我们所展示的那样。相反,我们将视频生成作为全景合成系统的一个组成部分,并演示了如何在最大限度地减少其局限性的同时利用模型的优势。我们的系统可以为各种野外场景创建视频全景图,包括人、车辆和流动的水,以及静止的背景特征。  
2024-10-17 Deep Generative Models Unveil Patterns in Medical Images Through Vision-Language Conditioning link 深度生成模型通过增强数据集的大小和质量,极大地促进了医学图像分析的发展。除了单纯的数据增强之外,我们研究的重点在于深度生成模型的另一个重要能力:揭示和展示医学图像中的模式。我们采用了一种具有混合条件的生成结构,结合临床数据和分割掩码来指导图像合成过程。此外,我们创新地将表格化的临床数据转换为文本描述。这种方法简化了缺失值的处理,并使我们能够利用大型预训练的视觉语言模型,这些模型可以研究独立临床条目之间的关系,并理解性别和吸烟状况等一般术语。由于我们的临床信息与图像之间的视觉相关性较低,因此我们的方法不同于传统的医学报告指导的合成,并且提出了一项更具挑战性的任务。为了克服这个问题,我们引入了一种文本-视觉嵌入机制来加强条件,确保网络有效地利用所提供的信息。我们的流程可推广到基于 GAN 的模型和扩散模型。在胸部 CT 上进行的实验(特别关注吸烟状况)表明,肺部出现了一致的强度变化,这与临床观察结果一致,表明我们的方法可以有效地捕捉和可视化特定属性对医学图像模式的影响。我们的方法为利用深度生成模型早期检测和精确可视化复杂的临床状况开辟了新的途径。所有代码均可在 https://github.com/junzhin/DGM-VLC 获取。  
2024-10-17 ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution null Real-world image super-resolution (Real-ISR) aims at restoring high-quality (HQ) images from low-quality (LQ) inputs corrupted by unknown and complex degradations. In particular, pretrained text-to-image (T2I) diffusion models provide strong generative priors to reconstruct credible and intricate details. However, T2I generation focuses on semantic consistency while Real-ISR emphasizes pixel-level reconstruction, which hinders existing methods from fully exploiting diffusion priors. To address this challenge, we introduce ConsisSR to handle both semantic and pixel-level consistency. Specifically, compared to coarse-grained text prompts, we exploit the more powerful CLIP image embedding and effectively leverage both modalities through our Hybrid Prompt Adapter (HPA) for semantic guidance. Secondly, we introduce Time-aware Latent Augmentation (TALA) to mitigate the inherent gap between T2I generation and Real-ISR consistency requirements. By randomly mixing LQ and HQ latent inputs, our model not only handle timestep-specific diffusion noise but also refine the accumulated latent representations. Last but not least, our GAN-Embedding strategy employs the pretrained Real-ESRGAN model to refine the diffusion start point. This accelerates the inference process to 10 steps while preserving sampling quality, in a training-free manner.Our method demonstrates state-of-the-art performance among both full-scale and accelerated models. The code will be made publicly available.  
2024-10-17 Probing the Latent Hierarchical Structure of Data via Diffusion Models null High-dimensional data must be highly structured to be learnable. Although the compositional and hierarchical nature of data is often put forward to explain learnability, quantitative measurements establishing these properties are scarce. Likewise, accessing the latent variables underlying such a data structure remains a challenge. In this work, we show that forward-backward experiments in diffusion-based models, where data is noised and then denoised to generate new samples, are a promising tool to probe the latent structure of data. We predict in simple hierarchical models that, in this process, changes in data occur by correlated chunks, with a length scale that diverges at a noise level where a phase transition is known to take place. Remarkably, we confirm this prediction in both text and image datasets using state-of-the-art diffusion models. Our results show how latent variable changes manifest in the data and establish how to measure these effects in real data using diffusion models.  
2024-10-17 Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers null The denoising diffusion model has recently emerged as a powerful generative technique, capable of transforming noise into meaningful data. While theoretical convergence guarantees for diffusion models are well established when the target distribution aligns with the training distribution, practical scenarios often present mismatches. One common case is in zero-shot conditional diffusion sampling, where the target conditional distribution is different from the (unconditional) training distribution. These score-mismatched diffusion models remain largely unexplored from a theoretical perspective. In this paper, we present the first performance guarantee with explicit dimensional dependencies for general score-mismatched diffusion samplers, focusing on target distributions with finite second moments. We show that score mismatches result in an asymptotic distributional bias between the target and sampling distributions, proportional to the accumulated mismatch between the target and training distributions. This result can be directly applied to zero-shot conditional samplers for any conditional model, irrespective of measurement noise. Interestingly, the derived convergence upper bound offers useful guidance for designing a novel bias-optimal zero-shot sampler in linear conditional models that minimizes the asymptotic bias. For such bias-optimal samplers, we further establish convergence guarantees with explicit dependencies on dimension and conditioning, applied to several interesting target distributions, including those with bounded support and Gaussian mixtures. Our findings are supported by numerical studies.  
2024-10-17 Improved Convergence Rate for Diffusion Probabilistic Models null Score-based diffusion models have achieved remarkable empirical performance in the field of machine learning and artificial intelligence for their ability to generate high-quality new data instances from complex distributions. Improving our understanding of diffusion models, including mainly convergence analysis for such models, has attracted a lot of interests. Despite a lot of theoretical attempts, there still exists significant gap between theory and practice. Towards to close this gap, we establish an iteration complexity at the order of $d^{1/3}\varepsilon^{-2/3}$, which is better than $d^{5/12}\varepsilon^{-1}$, the best known complexity achieved before our work. This convergence analysis is based on a randomized midpoint method, which is first proposed for log-concave sampling (Shen and Lee, 2019), and then extended to diffusion models by Gupta et al. (2024). Our theory accommodates $\varepsilon$-accurate score estimates, and does not require log-concavity on the target distribution. Moreover, the algorithm can also be parallelized to run in only $O(\log^2(d/\varepsilon))$ parallel rounds in a similar way to prior works.  
2024-10-17 Optimizing Probabilistic Conformal Prediction with Vectorized Non-Conformity Scores null Generative models have shown significant promise in critical domains such as medical diagnosis, autonomous driving, and climate science, where reliable decision-making hinges on accurate uncertainty quantification. While probabilistic conformal prediction (PCP) offers a powerful framework for this purpose, its coverage efficiency – the size of the uncertainty set – is limited when dealing with complex underlying distributions and a finite number of generated samples. In this paper, we propose a novel PCP framework that enhances efficiency by first vectorizing the non-conformity scores with ranked samples and then optimizing the shape of the prediction set by varying the quantiles for samples at the same rank. Our method delivers valid coverage while producing discontinuous and more efficient prediction sets, making it particularly suited for high-stakes applications. We demonstrate the effectiveness of our approach through experiments on both synthetic and real-world datasets.  
2024-10-17 DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation link Talking head generation intends to produce vivid and realistic talking head videos from a single portrait and speech audio clip. Although significant progress has been made in diffusion-based talking head generation, almost all methods rely on autoregressive strategies, which suffer from limited context utilization beyond the current generation step, error accumulation, and slower generation speed. To address these challenges, we present DAWN (Dynamic frame Avatar With Non-autoregressive diffusion), a framework that enables all-at-once generation of dynamic-length video sequences. Specifically, it consists of two main components: (1) audio-driven holistic facial dynamics generation in the latent motion space, and (2) audio-driven head pose and blink generation. Extensive experiments demonstrate that our method generates authentic and vivid videos with precise lip motions, and natural pose/blink movements. Additionally, with a high generation speed, DAWN possesses strong extrapolation capabilities, ensuring the stable production of high-quality long videos. These results highlight the considerable promise and potential impact of DAWN in the field of talking head video generation. Furthermore, we hope that DAWN sparks further exploration of non-autoregressive approaches in diffusion models. Our code will be publicly at https://github.com/Hanbo-Cheng/DAWN-pytorch.  
2024-10-15 High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion null 尽管近期取得了进展,现有的帧插值方法在处理极高分辨率输入和处理重复纹理、细小物体和大运动等挑战性案例时仍然存在困难。为了解决这些问题,我们引入了一种基于补丁的级联像素扩散模型,用于帧插值,名为 HiFI,它在这些场景中表现出色,同时在标准基准测试中实现了具有竞争力的性能。级联模型可以生成一系列从低分辨率到高分辨率的图像,这有助于处理需要全局上下文以获得粗略解决方案以及需要详细上下文以获得高分辨率输出的大运动或复杂运动。然而,与先前在越来越大的分辨率上执行扩散的级联扩散模型工作相反,我们使用单个模型,该模型始终以相同的分辨率执行扩散,并通过处理输入和先前解决方案的补丁来进行上采样。我们表明,这种技术大大减少了推理时的内存使用量,并且还允许我们在测试时使用单个模型,同时解决帧插值和空间上采样问题,从而节省了训练成本。我们证明了 HiFI 对需要全局上下文的高分辨率和复杂重复纹理有很大帮助。HiFI 在多个基准测试(Vimeo、Xiph、X-Test、SEPE-8K)上展示了与最先进技术相当或更优的性能。在我们新引入的专注于特别具有挑战性的案例的数据集上,HiFI 在这些案例上的表现也明显优于其他基线模型。请访问我们的项目页面以获取视频结果:https://hifi-diffusion.github.io  
2024-10-15 On the Effectiveness of Dataset Alignment for Fake Image Detection null 随着潜在扩散模型 (LDM) 使图像生成能力大众化,对虚假图像检测的需求日益增长。一个好的检测器应该专注于生成模型的指纹,而忽略图像属性,如语义内容、分辨率、文件格式等。虚假图像检测器通常以数据驱动的方式构建,其中训练模型以区分真实图像和虚假图像。现有工作主要研究网络架构选择和训练方法。在这项工作中,我们认为除了这些算法选择之外,我们还需要一个良好对齐的真实/虚假图像数据集来训练鲁棒的检测器。对于 LDM 系列,我们提出了一种非常简单的方法来实现这一点:我们使用 LDM 自动编码器重建所有真实图像,无需任何去噪操作。然后,我们训练一个模型来将这些真实图像与其重建图像区分开来。以这种方式创建的虚假图像在几乎所有方面(例如,大小、纵横比、语义内容)都与真实图像极其相似,这迫使模型寻找 LDM 解码器的伪影。我们通过经验证明,这种创建对齐的真实/虚假数据集的方法(也绕过了计算量大的去噪过程)有助于构建一个较少关注虚假相关性的检测器,而现有的非常流行的方法很容易受到这种相关性的影响。最后,为了证明数据集中对齐的有效性,我们使用非自然对象的图像构建了一个检测器,并获得了可喜的结果。总的来说,我们的工作确定了在训练虚假图像检测器时出现的细微但重要的问题,并提出了一种简单且廉价的解决方案来解决这些问题。  
2024-10-15 Bayesian Experimental Design via Contrastive Diffusions link 贝叶斯最优实验设计 (BOED) 是一种强大的工具,可以降低运行一系列实验的成本。当基于预期信息增益 (EIG) 时,设计优化对应于最大化先验分布和后验分布之间某些难以处理的预期“对比”。由于 BOED 固有的计算复杂性,将这种最大化扩展到高维和复杂的环境一直是一个问题。在这项工作中,我们介绍了一种具有成本效益的采样特性的“预期后验”分布,并通过新的 EIG 梯度表达式提供了对 EIG 对比度最大化的易处理访问。基于扩散的采样器用于计算预期后验的动态,并且利用双层优化的思想来推导出高效的联合采样优化循环,而无需诉诸 EIG 的下界近似。由此产生的效率提升允许将 BOED 扩展到经过充分测试的扩散模型的生成能力。通过将生成模型纳入 BOED 框架,我们扩展了它的范围及其在以前不切实际的场景中的使用。数值实验和与最先进方法的比较显示了该方法的潜力。  
2024-10-15 KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities null 最近文本到图像生成技术的进步显著提高了合成图像的质量。尽管取得了这些进展,但评估主要集中在审美情趣或与文本提示的一致性上。因此,人们对这些模型是否能够准确地表示各种现实世界的视觉实体——一项需要现实世界知识的任务——知之甚少。为了弥合这一差距,我们提出了一个基准测试,重点评估现实世界实体的知识密集型图像生成(即 KITTEN)。我们使用 KITTEN 对文本到图像生成模型中的实体保真度进行了系统研究,重点关注它们生成各种现实世界视觉实体的能力,如地标建筑、飞机、植物和动物。我们使用自动指标和精心设计的人工评估来评估最新的文本到图像模型和检索增强定制模型,重点关注生成图像中实体的保真度。我们的研究结果表明,即使是最先进的文本到图像模型也常常无法生成具有准确视觉细节的实体。尽管检索增强模型可以通过在测试期间合并参考图像来增强实体的保真度,但它们往往过度依赖于这些参考,并且难以根据创意文本提示生成实体的新颖配置。  
2024-10-15 Improving Long-Text Alignment for Text-to-Image Diffusion Models link 文本到图像 (T2I) 扩散模型的快速发展使其能够根据给定文本生成前所未有的结果。然而,随着文本输入变长,像 CLIP 这样的现有编码方法面临局限性,并且使生成的图像与长文本对齐变得具有挑战性。为了解决这些问题,我们提出了 LongAlign,它包括用于处理长文本的分段级编码方法和用于有效对齐训练的分解偏好优化方法。对于分段级编码,长文本被分成多个段并分别处理。此方法克服了预训练编码模型的最大输入长度限制。对于偏好优化,我们提供基于 CLIP 的分解偏好模型来微调扩散模型。具体来说,为了利用基于 CLIP 的偏好模型进行 T2I 对齐,我们深入研究了它们的评分机制,发现偏好分数可以分解为两个部分:衡量 T2I 对齐的文本相关部分和评估人类偏好的其他视觉方面的文本无关部分。此外,我们发现文本无关部分会导致微调期间出现常见的过拟合问题。为了解决这个问题,我们提出了一种重新加权策略,为这两个部分分配不同的权重,从而减少过拟合并增强对齐。在我们使用该方法对 $512 \times 512$ Stable Diffusion (SD) v1.5 进行约 20 小时的微调后,微调后的 SD 在 T2I 对齐方面优于更强大的基础模型,例如 PixArt-$\alpha$ 和 Kandinsky v2.2。代码可在 https://github.com/luping-liu/LongAlign 获取。  
2024-10-15 SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing null 场景图提供了一种结构化的图像层次表示,其中节点和边分别代表对象及其之间的关系。它可以作为图像编辑的自然接口,极大地提高精度和灵活性。利用这一优势,我们引入了一个新的框架,将大型语言模型(LLM)与 Text2Image 生成模型相结合,用于基于场景图的图像编辑。这种集成可以在不影响整体图像完整性的情况下,实现对象级别的精确修改和场景的创造性重组。我们的方法包括两个主要阶段:1)利用 LLM 驱动的场景解析器,我们构建图像的场景图,捕获关键对象及其相互关系,并解析细粒度属性,如对象掩码和描述。这些注释有助于使用微调的扩散模型进行概念学习,用优化的标记和详细的描述提示来表示每个对象。2)在图像编辑阶段,LLM 编辑控制器引导编辑特定区域。然后,这些编辑由注意力调制的扩散编辑器执行,利用微调模型执行对象添加、删除、替换和调整。通过大量实验,我们证明了我们的框架在编辑精度和场景美学方面明显优于现有的图像编辑方法。  
2024-10-15 Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices null 作为近年来最受欢迎和最受追捧的生成模型之一,扩散模型凭借其扎实的理论基础和可靠的应用实践,引起了众多研究者的兴趣,并在图像合成、视频生成、分子设计、3D场景渲染和多模态生成等各种生成任务中展现出优异的性能。这些基于扩散模型的最新研究成果的显著成功很大程度上归功于渐进式设计原则以及高效的架构、训练、推理和部署方法。然而,目前尚缺乏全面深入的综述来总结这些原则和实践,以帮助快速理解和应用扩散模型。在本综述中,我们以效率为导向,对现有工作进行了新的视角审视,主要关注架构设计、模型训练、快速推理和可靠部署方面的深刻原理和高效实践,以通俗易懂的方式指导进一步的理论研究、算法迁移和模型应用到新的场景中。\url{https://github.com/ponyzym/Efficient-DMs-Survey}  
2024-10-15 Probabilistic Principles for Biophysics and Neuroscience: Entropy Production, Bayesian Mechanics & the Free-Energy Principle null 本论文重点研究生物系统的三个基本方面:即熵产生、贝叶斯力学和自由能原理。贡献有三方面:1) 我们计算了比以往更大类别系统的熵产生,包括几乎所有稳态扩散过程,例如驱动噪声不作用于系统所有坐标的退化扩散。重要的是,这类系统包含了由有色噪声驱动的随机微分方程的马尔可夫近似,这一点意义重大,因为宏观和中尺度生物系统通常会受到有色噪声的影响。2) 我们为与环境相互作用的生物和物理实体开发了一种贝叶斯力学,其中我们为事物的内部状态推断其外部状态提供了充分必要条件,这与统计学和理论神经科学中的变分贝叶斯推理一致。3) 我们改进了对贝叶斯力学的约束,以获得对生物系统更具体的描述,称为自由能原理。这表明生物系统的活动状态和内部状态是通过最小化称为自由能的量来展开的。这里提出的自由能原理的数学基础,通过在给定外部状态和感觉状态的生成模型的情况下最小化自由能,为神经生物学和人工智能中的行为建模和仿真提供了一种第一性原理方法。  
2024-10-15 Patch-Based Diffusion Models Beat Whole-Image Models for Mismatched Distribution Inverse Problems null 扩散模型由于能够学习强大的图像先验,在解决逆问题方面取得了优异的成功,但现有方法需要大量的图像训练数据集,这些图像应该来自与测试数据集相同的分布。当训练和测试分布不匹配时,由于先验不正确,重建图像中会出现伪影和幻觉。在这项工作中,我们系统地研究了分布外 (OOD) 问题,其中首先提供已知的训练分布。我们首先研究了仅从未知测试分布获得单次测量的情况。接下来,我们研究了属于测试分布的非常小的数据样本可用的情况,我们的目标仍然是从来自测试分布的测量中重建图像。在这两种情况下,我们都使用基于补丁的扩散先验,它仅从补丁中学习图像分布。此外,在第一种情况下,我们包含一个自监督损失,帮助网络输出保持与测量的Consistency。大量实验表明,在这两种情况下,基于补丁的方法都可以获得高质量的图像重建,其性能优于整幅图像模型,并且可以与可以使用大型分布内训练数据集的方法相媲美。此外,我们展示了整幅图像模型如何容易出现记忆和过拟合,从而导致重建中的伪影,而基于补丁的模型可以解决这些问题。  
2024-10-15 DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment link In recent years, imitation learning has made progress in the field of robotic manipulation. However, it still faces challenges when dealing with complex long-horizon deformable object tasks, such as high-dimensional state spaces, complex dynamics, and multimodal action distributions. Traditional imitation learning methods often require a large amount of data and encounter distributional shifts and accumulative errors in these tasks. To address these issues, we propose a data-efficient general learning framework (DeformPAM) based on preference learning and reward-guided action selection. DeformPAM decomposes long-horizon tasks into multiple action primitives, utilizes 3D point cloud inputs and diffusion models to model action distributions, and trains an implicit reward model using human preference data. During the inference phase, the reward model scores multiple candidate actions, selecting the optimal action for execution, thereby reducing the occurrence of anomalous actions and improving task completion quality. Experiments conducted on three challenging real-world long-horizon deformable object manipulation tasks demonstrate the effectiveness of this method. Results show that DeformPAM improves both task completion quality and efficiency compared to baseline methods even with limited data. Code and data will be available at https://deform-pam.robotflow.ai.  
2024-10-11 SceneCraft: Layout-Guided 3D Scene Generation link The creation of complex 3D scenes tailored to user specifications has been a tedious and challenging task with traditional 3D modeling tools. Although some pioneering methods have achieved automatic text-to-3D generation, they are generally limited to small-scale scenes with restricted control over the shape and texture. We introduce SceneCraft, a novel method for generating detailed indoor scenes that adhere to textual descriptions and spatial layout preferences provided by users. Central to our method is a rendering-based technique, which converts 3D semantic layouts into multi-view 2D proxy maps. Furthermore, we design a semantic and depth conditioned diffusion model to generate multi-view images, which are used to learn a neural radiance field (NeRF) as the final scene representation. Without the constraints of panorama image generation, we surpass previous methods in supporting complicated indoor space generation beyond a single room, even as complicated as a whole multi-bedroom apartment with irregular shapes and layouts. Through experimental analysis, we demonstrate that our method significantly outperforms existing approaches in complex indoor scene generation with diverse textures, consistent geometry, and realistic visual quality. Code and more results are available at: https://orangesodahub.github.io/SceneCraft  
2024-10-11 Linear Convergence of Diffusion Models Under the Manifold Hypothesis null Score-matching generative models have proven successful at sampling from complex high-dimensional data distributions. In many applications, this distribution is believed to concentrate on a much lower $d$-dimensional manifold embedded into $D$-dimensional space; this is known as the manifold hypothesis. The current best-known convergence guarantees are either linear in $D$ or polynomial (superlinear) in $d$. The latter exploits a novel integration scheme for the backward SDE. We take the best of both worlds and show that the number of steps diffusion models require in order to converge in Kullback-Leibler~(KL) divergence is linear (up to logarithmic terms) in the intrinsic dimension $d$ . Moreover, we show that this linear dependency is sharp.  
2024-10-11 Semantic Score Distillation Sampling for Compositional Text-to-3D Generation link Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D  
2024-10-11 WaveDiffusion: Exploring Full Waveform Inversion via Joint Diffusion in the Latent Space null Full Waveform Inversion (FWI) is a vital technique for reconstructing high-resolution subsurface velocity maps from seismic waveform data, governed by partial differential equations (PDEs) that model wave propagation. Traditional machine learning approaches typically map seismic data to velocity maps by encoding seismic waveforms into latent embeddings and decoding them into velocity maps. In this paper, we introduce a novel framework that reframes FWI as a joint diffusion process in a shared latent space, bridging seismic waveform data and velocity maps. Our approach has two key components: first, we merge the bottlenecks of two separate autoencoders-one for seismic data and one for velocity maps-into a unified latent space using vector quantization to establish a shared codebook. Second, we train a diffusion model in this latent space, enabling the simultaneous generation of seismic and velocity map pairs by sampling and denoising the latent representations, followed by decoding each modality with its respective decoder. Remarkably, our jointly generated seismic-velocity pairs approximately satisfy the governing PDE without any additional constraint, offering a new geometric interpretation of FWI. The diffusion process learns to score the latent space according to its deviation from the PDE, with higher scores representing smaller deviations from the true solutions. By following this diffusion process, the model traces a path from random initialization to a valid solution of the governing PDE. Our experiments on the OpenFWI dataset demonstrate that the generated seismic and velocity map pairs not only exhibit high fidelity and diversity but also adhere to the physical constraints imposed by the governing PDE.  
2024-10-11 Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory null Synthetic data has gained attention for training large language models, but poor-quality data can harm performance (see, e.g., Shumailov et al. (2023); Seddik et al. (2024)). A potential solution is data pruning, which retains only high-quality data based on a score function (human or machine feedback). Previous work Feng et al. (2024) analyzed models trained on synthetic data as sample size increases. We extend this by using random matrix theory to derive the performance of a binary classifier trained on a mix of real and pruned synthetic data in a high dimensional setting. Our findings identify conditions where synthetic data could improve performance, focusing on the quality of the generative model and verification strategy. We also show a smooth phase transition in synthetic label noise, contrasting with prior sharp behavior in infinite sample limits. Experiments with toy models and large language models validate our theoretical results.  
2024-10-11 DiffPO: A causal diffusion model for learning distributions of potential outcomes null Predicting potential outcomes of interventions from observational data is crucial for decision-making in medicine, but the task is challenging due to the fundamental problem of causal inference. Existing methods are largely limited to point estimates of potential outcomes with no uncertain quantification; thus, the full information about the distributions of potential outcomes is typically ignored. In this paper, we propose a novel causal diffusion model called DiffPO, which is carefully designed for reliable inferences in medicine by learning the distribution of potential outcomes. In our DiffPO, we leverage a tailored conditional denoising diffusion model to learn complex distributions, where we address the selection bias through a novel orthogonal diffusion loss. Another strength of our DiffPO method is that it is highly flexible (e.g., it can also be used to estimate different causal quantities such as CATE). Across a wide range of experiments, we show that our method achieves state-of-the-art performance.  
2024-10-11 Conditional Generative Models for Contrast-Enhanced Synthesis of T1w and T1 Maps in Brain MRI link Contrast enhancement by Gadolinium-based contrast agents (GBCAs) is a vital tool for tumor diagnosis in neuroradiology. Based on brain MRI scans of glioblastoma before and after Gadolinium administration, we address enhancement prediction by neural networks with two new contributions. Firstly, we study the potential of generative models, more precisely conditional diffusion and flow matching, for uncertainty quantification in virtual enhancement. Secondly, we examine the performance of T1 scans from quantitive MRI versus T1-weighted scans. In contrast to T1-weighted scans, these scans have the advantage of a physically meaningful and thereby comparable voxel range. To compare network prediction performance of these two modalities with incompatible gray-value scales, we propose to evaluate segmentations of contrast-enhanced regions of interest using Dice and Jaccard scores. Across models, we observe better segmentations with T1 scans than with T1-weighted scans.  
2024-10-11 On-Chip Learning via Transformer In-Context Learning null Autoregressive decoder-only transformers have become key components for scalable sequence processing and generation models. However, the transformer’s self-attention mechanism requires transferring prior token projections from the main memory at each time step (token), thus severely limiting their performance on conventional processors. Self-attention can be viewed as a dynamic feed-forward layer, whose matrix is input sequence-dependent similarly to the result of local synaptic plasticity. Using this insight, we present a neuromorphic decoder-only transformer model that utilizes an on-chip plasticity processor to compute self-attention. Interestingly, the training of transformers enables them to ``learn’’ the input context during inference. We demonstrate this in-context learning ability of transformers on the Loihi 2 processor by solving a few-shot classification problem. With this we emphasize the importance of pretrained models especially their ability to find simple, local, backpropagation free, learning rules enabling on-chip learning and adaptation in a hardware friendly manner.  
2024-10-11 Distillation of Discrete Diffusion through Dimensional Correlations null Diffusion models have demonstrated exceptional performances in various fields of generative modeling. While they often outperform competitors including VAEs and GANs in sample quality and diversity, they suffer from slow sampling speed due to their iterative nature. Recently, distillation techniques and consistency models are mitigating this issue in continuous domains, but discrete diffusion models have some specific challenges towards faster generation. Most notably, in the current literature, correlations between different dimensions (pixels, locations) are ignored, both by its modeling and loss functions, due to computational limitations. In this paper, we propose “mixture” models in discrete diffusion that are capable of treating dimensional correlations while remaining scalable, and we provide a set of loss functions for distilling the iterations of existing models. Two primary theoretical insights underpin our approach: first, that dimensionally independent models can well approximate the data distribution if they are allowed to conduct many sampling steps, and second, that our loss functions enables mixture models to distill such many-step conventional models into just a few steps by learning the dimensional correlations. We empirically demonstrate that our proposed method for discrete diffusions work in practice, by distilling a continuous-time discrete diffusion model pretrained on the CIFAR-10 dataset.  
2024-10-11 E-Motion: Future Motion Simulation via Event Sequence Diffusion link Forecasting a typical object’s future motion is a critical task for interpreting and interacting with dynamic environments in computer vision. Event-based sensors, which could capture changes in the scene with exceptional temporal granularity, may potentially offer a unique opportunity to predict future motion with a level of detail and precision previously unachievable. Inspired by that, we propose to integrate the strong learning capacity of the video diffusion model with the rich motion information of an event camera as a motion simulation framework. Specifically, we initially employ pre-trained stable video diffusion models to adapt the event sequence dataset. This process facilitates the transfer of extensive knowledge from RGB videos to an event-centric domain. Moreover, we introduce an alignment mechanism that utilizes reinforcement learning techniques to enhance the reverse generation trajectory of the diffusion model, ensuring improved performance and accuracy. Through extensive testing and validation, we demonstrate the effectiveness of our method in various complex scenarios, showcasing its potential to revolutionize motion flow prediction in computer vision applications such as autonomous vehicle guidance, robotic navigation, and interactive media. Our findings suggest a promising direction for future research in enhancing the interpretative power and predictive accuracy of computer vision systems.  
2024-10-10 DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models null 离散扩散模型在图像生成和掩码语言建模等任务中取得了成功,但在可控内容编辑方面面临局限性。我们引入了 DICE(用于可控编辑的离散逆推),这是第一个能够对离散扩散模型(包括多项式扩散和掩码生成模型)进行精确逆推的方法。通过在反向扩散过程中记录噪声序列和掩码模式,DICE 无需预定义掩码或注意力机制操作即可实现离散数据的准确重建和灵活编辑。我们在图像和文本领域证明了 DICE 的有效性,并在 VQ-Diffusion、Paella 和 RoBERTa 等模型上对其进行了评估。结果表明,DICE 在保持高数据保真度的同时增强了编辑能力,为离散空间中的细粒度内容操作提供了新的机会。项目网页请访问 https://hexiaoxiao-cs.github.io/DICE/。  
2024-10-10 HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation null 近年来,文本到图像扩散模型在使用文本提示进行创作方面取得了显著成果,但基于特定主题生成个性化实例(即主题驱动生成)仍然具有挑战性。为了解决这个问题,我们提出了一种名为 HybridBooth 的新型混合框架,它融合了基于优化和直接回归方法的优点。HybridBooth 分为两个阶段运行:词嵌入探测和词嵌入细化。词嵌入探测使用微调后的编码器生成稳健的初始词嵌入;词嵌入细化通过优化关键参数,进一步使编码器适应特定的主题图像。这种方法能够有效且快速地将视觉概念反转为文本嵌入,即使只有一个图像,同时还能保持模型的泛化能力。  
2024-10-10 DifFRelight: Diffusion-Based Facial Performance Relighting null 我们提出了一种基于扩散的图像到图像转换的新颖框架,用于自由视点的人脸表演重新照明。利用包含在各种照明条件下(包括平面照明和一次一灯 (OLAT) 场景)捕获的多种面部表情的特定主题数据集,我们训练了一个用于精确照明控制的扩散模型,能够从平面照明输入中生成高保真度的重新照明人脸图像。我们的框架包括空间对齐的平面照明捕获和随机噪声的调节,以及用于全局控制的集成照明信息,利用来自预训练的稳定扩散模型的先验知识。然后将此模型应用于在一致的平面照明环境中捕获的动态面部表演,并使用可扩展的动态 3D 高斯渲染方法重建以进行新颖视图合成,以保持重新照明结果的质量和一致性。此外,我们通过将新颖的区域照明表示与定向照明相结合,引入了统一的照明控制,允许对光照大小和方向进行联合调整。我们还支持使用多个定向光进行高动态范围成像 (HDRI) 合成,以在复杂的照明条件下生成动态序列。我们的评估证明了该模型在实现精确照明控制和泛化各种面部表情方面的效率,同时保留了皮肤纹理和头发等细节特征。该模型准确地再现了复杂的照明效果,例如眼睛反射、次表面散射、自阴影和半透明性,从而提高了我们框架内的照片真实感。  
2024-10-10 ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion null 我们提出了 ZeroComp,这是一种有效的零样本 3D 对象合成方法,在训练期间不需要成对的合成场景图像。我们的方法利用 ControlNet 从内蕴图像中进行条件控制,并将其与 Stable Diffusion 模型相结合,利用其场景先验,共同构成一个有效的渲染引擎。在训练过程中,ZeroComp 使用基于几何形状、反照率和遮罩阴影的内蕴图像,而不需要包含和不包含合成对象的场景的成对图像。训练完成后,它可以将虚拟 3D 对象无缝集成到场景中,调整阴影以创建逼真的合成图像。我们开发了一个高质量的评估数据集,并证明 ZeroComp 在定量和人类感知基准测试中优于使用显式光照估计和生成技术的其他方法。此外,ZeroComp 还可以扩展到真实和室外图像合成,即使仅在合成室内数据上进行训练,也展示了其在图像合成方面的有效性。  
2024-10-10 DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation null 扩散模型已成为视觉生成的主导方法。它们通过对马尔可夫过程进行去噪来训练,该过程逐渐向输入中添加噪声。我们认为,马尔可夫性质限制了模型充分利用生成轨迹的能力,导致训练和推理过程中的效率低下。在本文中,我们提出了 DART,一种基于 Transformer 的模型,它在非马尔可夫框架内统一了自回归 (AR) 和扩散。DART 使用与标准语言模型相同架构的自回归模型,在空间和频谱上迭代地对图像块进行去噪。DART 不依赖图像量化,从而能够在保持灵活性的同时实现更有效的图像建模。此外,DART 可以在统一模型中使用文本和图像数据进行无缝训练。我们的方法在类别条件和文本到图像生成任务上表现出具有竞争力的性能,为传统的扩散模型提供了一种可扩展、高效的替代方案。通过这种统一的框架,DART 为可扩展、高质量的图像合成树立了新的标杆。  
2024-10-10 Progressive Autoregressive Video Diffusion Models link 当前前沿的视频扩散模型在生成高质量视频方面已经展现出显著成果。然而,由于训练过程中的计算限制,它们只能生成通常约10秒或240帧的短视频片段。在这项工作中,我们展示了现有模型可以自然地扩展到自回归视频扩散模型,而无需改变架构。我们的关键思想是为潜在帧分配逐渐增加的噪声级别,而不是单一噪声级别,这允许潜在帧之间进行细粒度的条件化以及注意力窗口之间的大量重叠。这种渐进式视频去噪允许我们的模型自回归地生成视频帧,而不会出现质量下降或场景突变。我们在1分钟的长视频生成(24 FPS下1440帧)上呈现了最先进的结果。本文中的视频可在https://desaixie.github.io/pa-vdm/上获取。  
2024-10-10 Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction null 离散数据的生成模型是许多重要应用的基础,涵盖了从基于文本的智能体(如 ChatGPT)到蛋白质序列中生命基本构建块的设计。然而,应用领域需要通过引导生成过程(通常通过 RLHF)来控制生成的数据,以满足特定的属性、奖励或亲和度指标。在本文中,我们研究了引导掩码扩散模型 (MDM) 的问题,MDM 是一类新兴的离散扩散模型,为传统的自回归模型提供了一种引人注目的替代方案。我们引入了离散去噪后验预测 (DDPP),这是一个新的框架,通过学习从目标贝叶斯后验分布中采样,将引导预训练 MDM 的任务转化为概率推理问题。我们的 DDPP 框架产生了一系列三个新的目标函数,它们都是无需模拟的,因此具有可扩展性,同时适用于一般的不可微奖励函数。在实验中,我们通过引导 MDM 执行类别条件像素级图像建模、使用基于文本奖励的 MDM 的 RLHF 对齐,以及微调蛋白质语言模型以生成更多样化的二级结构和更短的蛋白质,实例化了 DDPP。我们通过湿实验室验证证实了我们的设计,观察到奖励优化蛋白质序列的瞬时表达。  
2024-10-10 Robust AI-Generated Text Detection by Restricted Embeddings link 人工智能生成文本的数量和质量不断提高,这使得检测此类内容变得更加困难。在大多数现实场景中,生成数据的领域(风格和主题)和生成器模型事先并不知道。在这项工作中,我们关注基于分类器的 AI 生成文本检测器的鲁棒性,即它们迁移到未知生成器或语义领域的能力。我们研究了基于 Transformer 的文本编码器嵌入空间的几何结构,并表明清除有害的线性子空间有助于训练鲁棒的分类器,忽略特定领域的虚假特征。我们研究了几种子空间分解和特征选择策略,并在跨领域和跨生成器迁移方面取得了优于现有技术的显著改进。我们针对词头和基于坐标的子空间去除的最佳方法分别将 RoBERTa 和 BERT 嵌入的平均失配分布 (OOD) 分类分数提高了高达 9% 和 14%。我们发布了代码和数据:https://github.com/SilverSolver/RobustATD  
2024-10-10 Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models null 文图生成扩散模型依赖于大规模网络数据集。从头开始训练这些模型计算成本高昂,因此开发者通常更喜欢对现有模型进行增量更新。这些更新通常包括微调步骤(学习新概念或提高模型性能)和“遗忘”步骤(“忘记”现有概念,例如受版权保护的作品或露骨内容)。在这项工作中,我们展示了这种范式中出现的一个关键且以前未知的漏洞:即使在良性、非对抗性条件下,在看似无关的图像上微调文图生成扩散模型也会导致其“重新学习”先前已“遗忘”的概念。我们通过一系列将“大规模概念擦除”(文图生成扩散模型中遗忘的当前技术水平(Lu et al., 2024))与随后对 Stable Diffusion v1.4 进行微调的实验,全面研究了这种现象的原因和范围,我们将这种现象称为概念复苏。我们的研究结果强调了组合增量模型更新的脆弱性,并对当前确保文图生成扩散模型的安全性和一致性的方法提出了新的严重担忧。  
2024-10-10 A Target-Aware Analysis of Data Augmentation for Hate Speech Detection null 仇恨言论是社交网络广泛使用带来的主要威胁之一,尽管人们努力限制它。尽管已经关注了这个问题,但缺乏以能力歧视或年龄歧视等鲜少出现的现象为中心的数据集和案例研究,可能导致仇恨言论检测系统在代表性不足的身份群体中表现不佳。鉴于大型语言模型 (LLM) 在生成高质量数据方面的空前能力,我们研究了使用生成式语言模型扩充现有数据的可能性,以减少目标不平衡。我们尝试使用 Measuring Hate Speech 语料库中的 1,000 个帖子进行扩充,这是一个标注了目标身份信息的英语数据集,使用简单的数据库增强方法和不同类型的生成模型添加了大约 30,000 个合成样本,比较了自回归和序列到序列的方法。我们发现传统的数据库增强方法通常比生成模型更可取,但两者结合往往会产生最好的结果。事实上,对于某些仇恨类别,例如出身、宗教和残疾,使用增强数据进行训练的仇恨言论分类比没有增强数据的基线提高了 10% 以上的 F1 值。这项工作有助于开发仇恨言论检测系统,这些系统不仅性能更好,而且对迄今为止被忽视的目标更公平、更具包容性。  
2024-10-07 DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control null 文本条件化人体动作生成允许用户通过自然语言进行交互,近年来备受欢迎。现有方法通常基于单个输入语句生成简短、孤立的动作。然而,人类动作是连续的,可以持续很长时间,并承载着丰富的语义。创造能够精确响应文本描述流的长期、复杂动作,特别是在在线和实时环境中,仍然是一项重大挑战。此外,将空间约束纳入文本条件化动作生成带来了额外的挑战,因为它需要将文本描述指定的动作语义与几何信息(例如目标位置和 3D 场景几何形状)对齐。为了解决这些限制,我们提出了 DART,一种基于扩散的自回归运动基元模型,用于实时文本驱动的运动控制。我们的模型 DART 使用潜在扩散模型,有效地学习了联合依赖于运动历史和文本输入的紧凑运动基元空间。通过根据先前历史和当前文本输入自回归地生成运动基元,DART 可以实现由自然语言描述驱动的实时、连续动作生成。此外,学习到的运动基元空间允许精确的空间运动控制,我们将其制定为潜在噪声优化问题或通过强化学习解决的马尔可夫决策过程。我们针对这两种方法提出了有效的算法,证明了我们的模型在各种运动合成任务中的多功能性和卓越性能。实验表明,我们的方法在运动真实感、效率和可控性方面优于现有的基线。视频结果可在项目页面上找到:https://zkf1997.github.io/DART/。  
2024-10-07 GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting null Diffusion-based 2D virtual try-on (VTON) techniques have recently demonstrated strong performance, while the development of 3D VTON has largely lagged behind. Despite recent advances in text-guided 3D scene editing, integrating 2D VTON into these pipelines to achieve vivid 3D VTON remains challenging. The reasons are twofold. First, text prompts cannot provide sufficient details in describing clothing. Second, 2D VTON results generated from different viewpoints of the same 3D scene lack coherence and spatial relationships, hence frequently leading to appearance inconsistencies and geometric distortions. To resolve these problems, we introduce an image-prompted 3D VTON method (dubbed GS-VTON) which, by leveraging 3D Gaussian Splatting (3DGS) as the 3D representation, enables the transfer of pre-trained knowledge from 2D VTON models to 3D while improving cross-view consistency. (1) Specifically, we propose a personalized diffusion model that utilizes low-rank adaptation (LoRA) fine-tuning to incorporate personalized information into pre-trained 2D VTON models. To achieve effective LoRA training, we introduce a reference-driven image editing approach that enables the simultaneous editing of multi-view images while ensuring consistency. (2) Furthermore, we propose a persona-aware 3DGS editing framework to facilitate effective editing while maintaining consistent cross-view appearance and high-quality 3D geometry. (3) Additionally, we have established a new 3D VTON benchmark, 3D-VTONBench, which facilitates comprehensive qualitative and quantitative 3D VTON evaluations. Through extensive experiments and comparative analyses with existing methods, the proposed \OM has demonstrated superior fidelity and advanced editing capabilities, affirming its effectiveness for 3D VTON.  
2024-10-07 SePPO: Semi-Policy Preference Optimization for Diffusion Alignment link Reinforcement learning from human feedback (RLHF) methods are emerging as a way to fine-tune diffusion models (DMs) for visual generation. However, commonly used on-policy strategies are limited by the generalization capability of the reward model, while off-policy approaches require large amounts of difficult-to-obtain paired human-annotated data, particularly in visual generation tasks. To address the limitations of both on- and off-policy RLHF, we propose a preference optimization method that aligns DMs with preferences without relying on reward models or paired human-annotated data. Specifically, we introduce a Semi-Policy Preference Optimization (SePPO) method. SePPO leverages previous checkpoints as reference models while using them to generate on-policy reference samples, which replace “losing images” in preference pairs. This approach allows us to optimize using only off-policy “winning images.” Furthermore, we design a strategy for reference model selection that expands the exploration in the policy space. Notably, we do not simply treat reference samples as negative examples for learning. Instead, we design an anchor-based criterion to assess whether the reference samples are likely to be winning or losing images, allowing the model to selectively learn from the generated reference samples. This approach mitigates performance degradation caused by the uncertainty in reference sample quality. We validate SePPO across both text-to-image and text-to-video benchmarks. SePPO surpasses all previous approaches on the text-to-image benchmarks and also demonstrates outstanding performance on the text-to-video benchmarks. Code will be released in https://github.com/DwanZhang-AI/SePPO.  
2024-10-07 DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration link Deformable image registration aims to precisely align medical images from different modalities or times. Traditional deep learning methods, while effective, often lack interpretability, real-time observability and adjustment capacity during registration inference. Denoising diffusion models present an alternative by reformulating registration as iterative image denoising. However, existing diffusion registration approaches do not fully harness capabilities, neglecting the critical sampling phase that enables continuous observability during the inference. Hence, we introduce DiffuseReg, an innovative diffusion-based method that denoises deformation fields instead of images for improved transparency. We also propose a novel denoising network upon Swin Transformer, which better integrates moving and fixed images with diffusion time step throughout the denoising process. Furthermore, we enhance control over the denoising registration process with a novel similarity consistency regularization. Experiments on ACDC datasets demonstrate DiffuseReg outperforms existing diffusion registration methods by 1.32 in Dice score. The sampling process in DiffuseReg enables real-time output observability and adjustment unmatched by previous deep models.  
2024-10-07 Avoiding Deadlocks via Weak Deadlock Sets null A deadlock occurs in a network when two or more items prevent each other from moving and are stalled. In a general model, items are stored at vertices and each vertex $v$ has a buffer with $b(v)$ slots. Given a route for each item toward its destination, the Deadlock Safety Problem asks whether the current state is safe, i.e., it is possible to deliver each item at its destination, or is bound to deadlock, i.e., any sequence of moves will end up with a set of items stalled. While when $b \geq 2$ the problem is solvable in polynomial time building upon a nice characterization of YES/NO-instances, it is NP-hard on quite simple graphs as grids when $b=1$ and on trees when $b\leq 3$. We improve on these results by means of two new tools, weak deadlock sets and wise states. We show that for general networks and $b$ a state that is wise and without weak deadlock sets – this can be recognized in polynomial time – is safe: this is indeed a strengthening of the result for $b\geq 2$ . We sharpen this result for trees, where we show that a wise state is safe if and only if it has no weak deadlock set. That is interesting in particular in the context of rail transportation where networks are often single-tracked and deadlock detection and avoidance focuses on local sub-networks, mostly with a tree-like structure. We pose some research questions for future investigations.  
2024-10-07 Presto! Distilling Steps and Layers for Accelerating Music Generation null Despite advances in diffusion-based text-to-music (TTM) methods, efficient, high-quality generation remains a challenge. We introduce Presto!, an approach to inference acceleration for score-based diffusion transformers via reducing both sampling steps and cost per step. To reduce steps, we develop a new score-based distribution matching distillation (DMD) method for the EDM-family of diffusion models, the first GAN-based distillation method for TTM. To reduce the cost per step, we develop a simple, but powerful improvement to a recent layer distillation method that improves learning via better preserving hidden state variance. Finally, we combine our step and layer distillation methods together for a dual-faceted approach. We evaluate our step and layer distillation methods independently and show each yield best-in-class performance. Our combined distillation method can generate high-quality outputs with improved diversity, accelerating our base model by 10-18x (230/435ms latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) – the fastest high-quality TTM to our knowledge. Sound examples can be found at https://presto-music.github.io/web/.  
2024-10-07 A Simulation-Free Deep Learning Approach to Stochastic Optimal Control null We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr"odinger-F"ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.  
2024-10-07 Leveraging Multimodal Diffusion Models to Accelerate Imaging with Side Information null Diffusion models have found phenomenal success as expressive priors for solving inverse problems, but their extension beyond natural images to more structured scientific domains remains limited. Motivated by applications in materials science, we aim to reduce the number of measurements required from an expensive imaging modality of interest, by leveraging side information from an auxiliary modality that is much cheaper to obtain. To deal with the non-differentiable and black-box nature of the forward model, we propose a framework to train a multimodal diffusion model over the joint modalities, turning inverse problems with black-box forward models into simple linear inpainting problems. Numerically, we demonstrate the feasibility of training diffusion models over materials imagery data, and show that our approach achieves superior image reconstruction by leveraging the available side information, requiring significantly less amount of data from the expensive microscopy modality.  
2024-10-07 Agnostic Smoothed Online Learning null Classical results in statistical learning typically consider two extreme data-generating models: i.i.d. instances from an unknown distribution, or fully adversarial instances, often much more challenging statistically. To bridge the gap between these models, recent work introduced the smoothed framework, in which at each iteration an adversary generates instances from a distribution constrained to have density bounded by $\sigma^{-1}$ compared to some fixed base measure $\mu$. This framework interpolates between the i.i.d. and adversarial cases, depending on the value of $\sigma$. For the classical online prediction problem, most prior results in smoothed online learning rely on the arguably strong assumption that the base measure $\mu$ is known to the learner, contrasting with standard settings in the PAC learning or consistency literature. We consider the general agnostic problem in which the base measure is unknown and values are arbitrary. Along this direction, Block et al. showed that empirical risk minimization has sublinear regret under the well-specified assumption. We propose an algorithm R-Cover based on recursive coverings which is the first to guarantee sublinear regret for agnostic smoothed online learning without prior knowledge of $\mu$. For classification, we prove that R-Cover has adaptive regret $\tilde O(\sqrt{dT/\sigma})$ for function classes with VC dimension $d$ , which is optimal up to logarithmic factors. For regression, we establish that R-Cover has sublinear oblivious regret for function classes with polynomial fat-shattering dimension growth.  
2024-10-07 Synthetic Generation of Dermatoscopic Images with GAN and Closed-Form Factorization null In the realm of dermatological diagnoses, where the analysis of dermatoscopic and microscopic skin lesion images is pivotal for the accurate and early detection of various medical conditions, the costs associated with creating diverse and high-quality annotated datasets have hampered the accuracy and generalizability of machine learning models. We propose an innovative unsupervised augmentation solution that harnesses Generative Adversarial Network (GAN) based models and associated techniques over their latent space to generate controlled semiautomatically-discovered semantic variations in dermatoscopic images. We created synthetic images to incorporate the semantic variations and augmented the training data with these images. With this approach, we were able to increase the performance of machine learning models and set a new benchmark amongst non-ensemble based models in skin lesion classification on the HAM10000 dataset; and used the observed analytics and generated models for detailed studies on model explainability, affirming the effectiveness of our solution.  
2024-10-04 Estimating Body and Hand Motion in an Ego-sensed World null 我们提出了EgoAllo,一个基于头戴式设备的人体动作估计系统。EgoAllo仅使用以自我为中心的SLAM姿态和图像,引导从条件扩散模型中采样,以估计捕捉佩戴者在场景的全局坐标系中的动作的3D身体姿态、身高和手部参数。为了实现这一点,我们的关键见解在于表示:我们提出了用于提高模型性能的空间和时间不变性标准,并由此推导出一种头部运动条件参数化,该参数化将估计精度提高了18%。我们还展示了我们系统估计的身体如何改进手部估计:与嘈杂的单目估计相比,由此产生的运动学和时间约束使手部估计误差降低了40%以上。项目页面:https://egoallo.github.io/  
2024-10-04 Geometric Representation Condition Improves Equivariant Molecule Generation null 近年来,分子生成模型的进步展现了其在加速科学发现方面的巨大潜力,特别是在药物设计领域。然而,这些模型在生成高质量分子方面经常面临挑战,尤其是在必须满足特定分子特性的条件生成场景下。在这项工作中,我们介绍了 GeoRCG,这是一个通过整合几何表示条件来增强分子生成模型性能的通用框架。我们将分子生成过程分解为两个阶段:首先,生成信息丰富的几何表示;其次,根据该表示生成分子。与直接生成分子相比,在第一阶段生成相对容易的表示,以更目标导向和更快的速度引导第二阶段生成高质量分子。利用 EDM 作为基础生成器,我们观察到在广泛使用的 QM9 和 GEOM-DRUG 数据集上的无条件分子生成质量有显著提高。更值得注意的是,在具有挑战性的条件分子生成任务中,我们的框架相对于最先进的方法实现了平均 31% 的性能提升,这凸显了以语义丰富的几何表示为条件优于先前方法中以单个属性值为条件的优越性。此外,我们还发现,在这种表示指导下,扩散步骤的数量可以减少到仅 100 步,同时保持比 1000 步更高的生成质量,从而显著加速了生成过程。  
2024-10-04 Real-World Benchmarks Make Membership Inference Attacks Fail on Diffusion Models link 扩散模型的成员推断攻击 (MIA) 已成为潜在证据,表明在训练预训练扩散模型中存在未经授权的数据使用。这些攻击旨在检测扩散模型训练数据集中是否存在特定图像。我们的研究深入评估了扩散模型中最先进的 MIA,并揭示了现有 MIA 评估中的严重缺陷和过于乐观的性能估计。我们介绍了 CopyMark,这是一个更现实的 MIA 基准测试,它通过支持预训练的扩散模型、无偏数据集和公平的评估管道来区分自己。通过广泛的实验,我们证明了当前 MIA 方法的有效性在这些更实际的条件下会显着降低。根据我们的结果,我们提醒,MIA 目前的状态并不是识别预训练扩散模型中未经授权数据使用的可靠方法。据我们所知,我们是第一个发现 MIA 对扩散模型的性能高估,并提出了一个统一的基准以进行更现实的评估。我们的代码可在 GitHub 上获取:\url{https://github.com/caradryanl/CopyMark}。  
2024-10-04 Conditional Enzyme Generation Using Protein Language Models with Adapters null 以期望的功能和/或特性为条件生成蛋白质是生成模型的关键目标。现有的基于语言模型提示的方法可以生成以目标功能(例如所需的酶家族)为条件的蛋白质。然而,这些方法仅限于简单的标记化条件,并且尚未显示出对未见功能的泛化能力。在本研究中,我们提出了 ProCALM(蛋白质条件自适应语言模型),这是一种使用适配器对蛋白质语言模型进行条件生成蛋白质的方法。我们对 ProCALM 的具体实现涉及微调 ProGen2,以结合酶功能和分类法的条件表示。ProCALM 在有条件地从目标酶家族生成序列方面与现有方法相匹配。令人印象深刻的是,它还可以在酶功能和分类法的联合分布内生成,并且可以泛化到稀有和未见过的酶家族和分类法。总的来说,ProCALM 是一种灵活且计算效率高的方法,我们预计它可以扩展到广泛的生成语言模型。  
2024-10-04 How Discrete and Continuous Diffusion Meet: Comprehensive Analysis of Discrete Diffusion Models via a Stochastic Integral Framework null 离散扩散模型因其能够对具有易于处理的采样和推理的复杂分布进行建模而受到越来越多的关注。然而,离散扩散模型的误差分析仍然缺乏深入的理解。在这项工作中,我们提出了一个基于 Lévy 型随机积分的离散扩散模型误差分析综合框架。通过将泊松随机测度推广到具有时间无关和状态相关强度的测度,我们严格建立了离散扩散模型的随机积分公式,并提供了相应的测度变化定理,这些定理与 Itô 积分和 Girsanov 定理及其连续对应物有着惊人的相似之处。我们的框架统一并加强了当前关于离散扩散模型的理论结果,并获得了 KL 散度中 τ-leaping 方案的第一个误差界。通过明确识别误差来源,我们的分析为离散扩散模型的数学性质提供了新的见解,并为设计用于现实世界离散扩散模型应用的高效和准确算法提供了指导。  
2024-10-04 Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features link 扩散模型最初是为图像生成而设计的。最近的研究表明,其主干内部的信号(称为激活)也可以作为密集特征,用于各种判别任务,例如语义分割。在众多激活中,选择一个有效的小子集是一个基本问题。为此,该领域的早期研究对激活的判别能力进行了大规模的定量比较。然而,我们发现许多潜在的激活还没有被评估,例如用于计算注意力分数的查询和键。此外,扩散架构的最新进展带来了许多新的激活,例如嵌入式 ViT 模块中的激活。两者结合在一起,激活选择仍然是一个尚未解决但被忽视的问题。为了解决这个问题,本文更进一步,评估了更广泛的激活。考虑到激活的显著增加,全面的定量比较已不再可行。相反,我们试图了解这些激活的属性,以便可以通过简单的定性评估预先过滤掉明显较差的激活。经过仔细分析,我们发现了扩散模型中普遍存在的三个属性,使这项研究能够超越特定的模型。在此基础上,我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后,跨多个判别任务的实验验证了我们的方法优于 SOTA 竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。  
2024-10-04 NRGBoost: Energy-Based Generative Boosted Trees null 尽管深度学习在非结构化数据领域占据主导地位,但基于树的方法,如随机森林(RF)和梯度提升决策树(GBDT),仍然是处理表格数据判别任务的主力军。我们探索了这些流行算法的生成式扩展,重点是对数据密度(直到归一化常数)进行显式建模,从而支持除采样之外的其他应用。作为我们的主要贡献,我们提出了一种基于能量的生成式提升算法,该算法类似于在 XGBoost 等流行软件包中实现的二阶提升。我们表明,尽管产生了一个能够处理任何输入变量的推理任务的生成模型,但我们提出的算法在许多真实世界的表格数据集上可以实现与 GBDT 相似的判别性能,优于其他生成方法。同时,我们也展示了它在采样方面也具有与基于神经网络的模型相媲美的竞争力。  
2024-10-04 Generative Artificial Intelligence for Navigating Synthesizable Chemical Space link 我们推出了 SynFormer,这是一个生成式建模框架,旨在有效地探索和导航可合成化学空间。与传统的分子生成方法不同,我们为分子生成合成路线,以确保设计具有合成可行性。通过结合可扩展的 Transformer 架构和用于构建块选择的扩散模块,SynFormer 在可合成分子设计方面超越了现有模型。我们通过两个关键应用展示了 SynFormer 的有效性:(1) 局部化学空间探索,其中模型生成参考分子的可合成类似物,以及 (2) 全局化学空间探索,其中模型旨在根据黑盒性质预测预言机识别最佳分子。此外,我们通过随着更多计算资源可用而提高性能来证明我们方法的可扩展性。通过公开我们的代码和训练模型,我们希望 SynFormer 能够在药物发现和材料科学的应用中得到应用。  
2024-10-04 Diffusion State-Guided Projected Gradient for Inverse Problems null 扩散模型的最新进展在学习用于解决反问题的先验数据方面非常有效。它们利用扩散采样步骤来引入数据先验,同时在每个步骤中使用测量引导梯度来施加数据一致性。对于一般的反问题,当使用无条件训练的扩散模型时,由于测量似然是难以处理的,因此需要进行近似,这会导致不准确的后验采样。换句话说,由于它们的近似性,这些方法无法在由扩散先验定义的数据流形上保留生成过程,从而导致图像恢复等应用中的伪影。为了提高扩散模型在解决反问题方面的性能和鲁棒性,我们提出了扩散状态引导投影梯度(DiffStateGrad),它将测量梯度投影到一个子空间上,该子空间是扩散过程中间状态的低秩近似。DiffStateGrad作为一个模块,可以添加到各种基于扩散的反求解器中,以改进对先验流形上扩散过程的保留,并滤除产生伪影的成分。我们强调,DiffStateGrad提高了扩散模型在测量引导步长和噪声选择方面的鲁棒性,同时提高了最坏情况下的性能。最后,我们证明了DiffStateGrad在线性和非线性图像恢复反问题上优于现有技术水平。  
2024-10-04 Generative Semantic Communication for Text-to-Speech Synthesis null 语义通信是一种很有前景的技术,它只传输源数据的语义信息,从而提高通信效率。然而,传统的语义通信方法主要集中在数据重建任务上,对于文本到语音(TTS)合成等新兴的生成任务来说,效率可能不高。为了解决这一局限性,本文利用生成式人工智能技术,开发了一种新的TTS合成生成式语义通信框架。首先,我们利用预先训练好的大型语音模型WavLM和残差矢量量化方法,分别在发送端和接收端构建了两个语义知识库(KB)。发送端的KB能够有效地提取语义,而接收端的KB则有助于逼真的语音合成。然后,我们采用Transformer编码器和扩散模型来实现高效的语义编码,而不会引入显著的通信开销。最后,数值结果表明,在加性高斯白噪声信道和瑞利衰落信道两种情况下,我们的框架在生成语音的保真度方面都比四种基线方法高得多。  
2024-10-03 Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models null 近年来,多模态模型的进步凸显了重写图像描述对于提高性能的价值,但关键挑战依然存在。例如,虽然合成图像描述通常能提供更高的质量和图文一致性,但尚不清楚它们是否可以完全替代替代文本:合成图像描述的作用以及它们在预训练中与原始网络爬取的替代文本的交互作用仍不清楚。此外,不同的多模态基础模型可能对特定的图像描述格式有独特的偏好,但识别每种模型最佳图像描述的工作仍然有限。在这项工作中,我们提出了一种新颖的、可控的、可扩展的图像描述生成流程,旨在生成针对各种多模态模型量身定制的不同图像描述格式。通过以短合成图像描述 (SSC) 和密集合成图像描述 (DSC+) 作为案例研究,我们系统地探索了它们对 CLIP、多模态大语言模型和扩散模型等模型的影响,以及它们与替代文本的交互作用。我们的研究结果表明,保留合成图像描述和替代文本的混合方法可以优于单独使用合成图像描述,从而提高一致性和性能,并且每个模型都表现出对特定图像描述格式的偏好。这种全面的分析为优化图像描述策略提供了宝贵的见解,从而促进了多模态基础模型的预训练。  
2024-10-03 A Photonic Parameter-shift Rule: Enabling Gradient Computation for Photonic Quantum Computers null 我们提出了一种在线性光量子计算平台上实现的量子算法中进行梯度计算的方法。虽然参数移位规则已成为基于量子比特门的量子计算中计算梯度的主要方法,但由于福克空间中微分相移算符的非幺正性,它们在光子平台上的直接应用受到了阻碍。我们引入了一种克服了这一限制的光子参数移位规则,为线性光量子处理器中的梯度计算提供了一个精确的公式。我们的方法与输入光子数呈线性比例,并且在每次评估中使用具有移位参数的相同参数化光子电路。这一进步弥合了光子量子计算中的一个关键差距,使得能够在近期光子量子处理器上对变分量子算法进行有效的基于梯度的优化。我们通过量子化学和生成模型任务中的数值模拟证明了我们方法的有效性,与其他基于梯度和无梯度的方法相比,该方法显示出优越的优化性能以及对有限采样和光子可分辨性噪声的鲁棒性。  
2024-10-03 SteerDiff: Steering towards Safe Text-to-Image Diffusion Models null 文本到图像 (T2I) 扩散模型因其能够生成具有精确文本对齐的高质量图像而备受关注。然而,这些模型也可能被滥用于制作不当内容。现有的安全措施通常依赖于文本分类器或类似 ControlNet 的方法,但往往不够充分。传统的文本分类器依赖于大规模标记数据集,并且很容易通过改写来绕过。随着扩散模型的不断扩展,微调这些安全措施变得越来越具有挑战性,并且缺乏灵活性。最近的红队攻击研究进一步强调了需要一种新的范式来防止生成不当内容。在本文中,我们介绍了 SteerDiff,这是一个轻量级的适配器模块,旨在充当用户输入和扩散模型之间的中介,确保生成的图像符合道德和安全标准,并且对可用性的影响微乎其微。SteerDiff 识别并操纵文本嵌入空间中的不当概念,以引导模型远离有害输出。我们进行了各种概念遗忘任务的广泛实验,以评估我们方法的有效性。此外,我们针对多种红队攻击策略对 SteerDiff 进行了基准测试,以评估其鲁棒性。最后,我们探讨了 SteerDiff 在概念遗忘任务中的潜力,展示了其在文本条件图像生成中的多功能性。  
2024-10-03 ControlAR: Controllable Image Generation with Autoregressive Models link 自回归 (AR) 模型将图像生成重新定义为下一个标记预测任务,展现出惊人的潜力,并逐渐成为扩散模型的有力竞争者。然而,类似于 ControlNet 的控制到图像生成在 AR 模型中仍然很大程度上未被探索。尽管受大型语言模型进步的启发,一种自然而然的方法是将控制图像标记化为标记,并在解码图像标记之前将它们预填充到自回归模型中,但与其 ControlNet 相比,这种方法在生成质量方面仍然不足,并且效率低下。为此,我们引入了 ControlAR,这是一个高效且有效的框架,用于将空间控制集成到自回归图像生成模型中。首先,我们探索了 AR 模型的控制编码,并提出了一种轻量级的控制编码器,将空间输入(例如,Canny 边缘或深度图)转换为控制标记。然后,ControlAR 利用条件解码方法,根据控制标记和图像标记之间的每个标记融合(类似于位置编码)生成下一个图像标记。与预填充标记相比,使用条件解码显着增强了 AR 模型的控制能力,同时保持了模型的效率。此外,令人惊讶的是,所提出的 ControlAR 通过条件解码和特定控制使 AR 模型能够生成任意分辨率的图像。大量实验表明,所提出的 ControlAR 能够在包括边缘、深度和分割掩码在内的不同输入上进行自回归控制到图像生成。此外,定量和定性结果都表明 ControlAR 超越了先前最先进的可控扩散模型,例如 ControlNet++。代码、模型和演示将很快在 https://github.com/hustvl/ControlAR 上提供。  
2024-10-03 GUD: Generation with Unified Diffusion null 扩散生成模型通过反转将噪声逐步添加到数据样本的过程,将噪声转换为数据。受物理学中重整化群概念的启发,该概念分析不同尺度的系统,我们通过探索三个关键设计方面来重新审视扩散模型:1)扩散过程在其上运行的表示的选择(例如,像素、PCA、傅里叶或小波基),2)数据在扩散过程中被转换成先验分布(例如,具有协方差 $\Sigma$ 的高斯分布),以及 3)应用于数据不同部分的噪声水平的调度,由组件级噪声调度捕获。结合这些选择的灵活性,我们为扩散生成模型开发了一个统一的框架,极大地增强了设计自由度。特别是,我们引入了软条件模型,可以在标准扩散模型和自回归模型(在任何基础上)之间平滑插值,从概念上连接了这两种方法。我们的框架开辟了一个广阔的设计空间,可以实现更高效的训练和数据生成,并为集成不同生成方法和生成任务的新颖架构铺平道路。  
2024-10-03 Grounded Answers for Multi-agent Decision-making Problem through Generative World Model null 生成模型的最新进展促进了图像生成和聊天机器人等许多领域的重大创新。尽管取得了成功,但这些模型在解决复杂的多智能体决策问题时,常常会产生粗略且误导性的解决方案,因为它们缺乏像人类一样的试错经验和推理能力。为了解决这一局限性,我们探索了一种将语言引导的模拟器集成到多智能体强化学习管道中的范式,以增强生成的答案质量。该模拟器是一个分别学习动力学和奖励的世界模型,其中动力学模型包括一个图像分词器和一个因果Transformer,用于自回归地生成交互转换,而奖励模型是一个双向Transformer,通过在语言指导下最大化专家演示中轨迹的可能性来学习。给定当前状态的图像和任务描述,我们使用世界模型来训练联合策略,并通过在动力学模型上运行收敛的策略来生成图像序列作为答案。实证结果表明,该框架可以通过在星际争霸多智能体挑战基准测试的训练和未见任务上表现出优异的性能,从而改进多智能体决策问题的答案。特别是,它可以生成一致的交互序列和交互状态下可解释的奖励函数,为未来训练生成模型开辟了道路。  
2024-10-03 Scalable Simulation-free Entropic Unbalanced Optimal Transport null 最优传输(OT)问题旨在寻找一个连接两个分布的传输映射,同时最小化给定的成本函数。寻找这样的传输映射在机器学习中有着广泛的应用,例如生成模型和图像到图像的转换。在本文中,我们介绍了一种可扩展且无需模拟的方法来解决熵非平衡最优传输(EUOT)问题。我们推导了该EUOT问题的动力学形式,它是薛定谔桥(SB)问题的推广。在此基础上,我们从随机最优控制的角度推导了EUOT问题的对偶形式和最优性条件。通过利用这些性质,我们提出了一种无需模拟的算法来求解EUOT,称为Simulation-free EUOT (SF-EUOT)。现有的SB模型在训练和评估过程中需要昂贵的模拟成本,而我们的模型利用互易性实现了无需模拟的训练和一步生成。与之前的SB方法相比,我们的模型在生成模型和图像到图像转换任务中显示出显著提高的可扩展性。  
2024-10-03 Measuring and Improving Persuasiveness of Generative Models null 大型语言模型 (LLM) 正越来越多地用于涉及生成人类消费内容(例如营销)以及直接与人类互动(例如通过聊天机器人)的工作流程中。开发能够生成可验证的说服性信息的此类系统,对社会来说既有机遇也有挑战。一方面,此类系统可以对广告和社会公益等领域产生积极影响,例如解决药物成瘾问题;另一方面,它们也可能被滥用于传播错误信息和塑造政治观点。为了引导 LLM 对社会的影响,我们需要开发系统来衡量和比较它们的 说服力。出于这种动机,我们推出了 PersuasionBench 和 PersuasionArena,这是第一个包含一系列任务的大型基准和竞技场,用于自动衡量生成模型的说服能力。我们调查了 LLM 在多大程度上了解和利用了可以帮助它们生成更有说服力的语言的语言模式。我们的研究结果表明,LLM 的说服力与其模型规模呈正相关,但较小的模型也可以比更大的模型具有更高的说服力。值得注意的是,使用合成数据集和自然数据集进行的目标训练显着增强了较小模型的说服能力,这对依赖规模的假设提出了挑战。我们的研究结果对模型开发者和政策制定者都具有重要意义。例如,虽然欧盟人工智能法案和加州的 SB-1047 旨在根据浮点运算次数来监管人工智能模型,但我们证明,仅凭此类简单指标无法完全捕捉人工智能的社会影响。我们邀请社区探索并贡献 PersuasionArena 和 PersuasionBench(网址为 https://bit.ly/measure-persuasion),以促进我们对人工智能驱动型说服及其社会影响的理解。  
2024-10-03 Beyond Squared Error: Exploring Loss Design for Enhanced Training of Generative Flow Networks null 生成流网络 (GFlowNets) 是一类新颖的生成模型,旨在从非规范化分布中采样,并在各种重要任务中得到应用,其训练算法引起了人们极大的研究兴趣。通常,GFlowNets 的训练是通过将采样的训练对象上的前向流与反向流进行拟合来实现的。先前的工作重点关注训练对象的选择、参数化、采样和重采样策略以及反向策略,旨在增强训练过程中的信用分配、探索或利用。然而,回归损失的选择却被忽视了,而它极大地影响了训练不足策略的探索和利用行为。由于缺乏对选择合适的回归损失的理论理解,大多数现有算法通过最小化对数空间中前向流和反向流的平方误差来训练流网络,即使用二次回归损失。在这项工作中,我们严格证明了不同的回归损失对应于特定的散度度量,这使我们能够根据相应散度度量的期望属性来设计和分析回归损失。具体来说,我们研究了两个关键属性:零强制和零避免,前者促进利用和更高的奖励,而后者鼓励探索并增强多样性。基于我们的理论框架,我们提出了三种新的回归损失,即 Shifted-Cosh、Linex(1/2) 和 Linex(1)。我们通过三个基准测试来评估它们:超网格、位序列生成和分子生成。我们提出的损失函数与大多数现有训练算法兼容,并在收敛速度、样本多样性和鲁棒性方面显著提高了算法的性能。  
2024-10-03 Local Flow Matching Generative Models null 流匹配(FM)是一种无需模拟的方法,用于学习连续且可逆的流,以在两个分布之间进行插值,特别是在生成建模中从噪声生成数据。在本文中,我们介绍了局部流匹配(LFM),它学习一系列 FM 子模型,每个子模型都匹配一个扩散过程,直到数据到噪声方向上的步长时间。在每个步骤中,子模型要插值的两个分布比数据与噪声更接近,这使得可以使用更小的模型进行更快的训练。LFM 的逐步结构 naturally lends itself to distillation,并且可以采用不同的蒸馏技术来加速生成。理论上,我们根据生成的和真实数据分布之间的 $\chi^2$ 散度证明了所提出的流模型的生成保证。在实验中,我们证明了 LFM 与 FM 相比,在表格数据和图像数据集的无条件生成以及机器人操作策略的条件生成方面,具有更高的训练效率和更具竞争力的生成性能。  
2024-09-30 SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes null 网格在视觉计算和模拟中无处不在,但大多数现有的机器学习技术只能间接地表示网格,例如,将其表示为标量场的水平集或模板的变形,或者表示为缺乏局部结构的无序三角形集合。这项工作提出了一种方案,可以直接生成具有复杂连接性的流形多边形网格作为神经网络的输出。我们的关键创新是在每个网格顶点定义一个连续的潜在连接空间,这意味着离散网格。特别是,我们的顶点嵌入在半边网格表示中生成循环邻居关系,这保证了边的流形性和表示一般多边形网格的能力。这种表示非常适合机器学习和随机优化,并且不受连通性或拓扑结构的限制。我们首先探索了这种表示的基本属性,然后使用它来拟合来自大型数据集的网格分布。生成的模型可以生成具有从数据集总体学习到的镶嵌结构的不同网格,并具有简洁的细节和高质量的网格元素。在应用中,这种方法不仅可以从生成模型中产生高质量的输出,还可以直接学习具有挑战性的几何处理任务,例如网格修复。  
2024-09-30 COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models null 我们提出了一个名为COLLAGE的新框架,用于生成协作式的“主体-客体-主体”交互,该框架利用了大型语言模型(LLM)和分层的、针对动作的矢量量化变分自编码器(VQ-VAE)。我们的模型通过结合LLM的知识和推理能力来指导生成扩散模型,解决了该领域缺乏丰富数据集的问题。分层VQ-VAE架构在多个抽象级别捕获不同的动作特定特征,避免了冗余概念,并实现了高效的多分辨率表示。我们引入了一种在潜在空间中运行的扩散模型,并结合了LLM生成的运动规划线索来指导去噪过程,从而产生更具控制力和多样性的、针对提示词的动作生成。在CORE-4D和InterHuman数据集上的实验结果表明,我们的方法在生成逼真且多样化的协作式“人-物体-人”交互方面非常有效,优于现有最佳方法。我们的工作为在机器人、图形和计算机视觉等各个领域对复杂交互进行建模开辟了新的可能性。  
2024-09-30 FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing null 文本到视频的扩散模型取得了显著的进步。由于其能够生成时间连贯的视频,使用这些基础模型进行零样本视频编辑的研究迅速扩展。为了提高编辑质量,结构化控制经常被用于视频编辑中。在这些技术中,交叉注意力掩码控制以其有效性和效率而著称。然而,当交叉注意力掩码被简单地应用于视频编辑时,它们会引入诸如模糊和闪烁之类的伪影。我们的实验发现了一个先前视频编辑研究中被忽视的关键因素:交叉注意力掩码并非始终清晰,而是随着模型结构和去噪时间步长而变化。为了解决这个问题,我们提出了度量掩码匹配成本 (MMC) 来量化这种可变性,并提出了 FreeMask,一种为特定视频编辑任务选择最佳掩码的方法。使用 MMC 选择的掩码,我们进一步改进了全面注意力特征(例如,时间、交叉和自注意力模块)中的掩码融合机制。我们的方法可以无缝集成到现有的零样本视频编辑框架中,并具有更好的性能,无需控制辅助或参数微调,但能够通过掩码精度控制自适应地解耦未编辑的语义布局。大量实验表明,与最先进的方法相比,FreeMask 实现了卓越的语义保真度、时间一致性和编辑质量。  
2024-09-30 All-optical autoencoder machine learning framework using diffractive processors null 衍射深度神经网络 (D2NN) 以其高速、低功耗和强大的并行性而闻名,已广泛应用于模式识别、图像处理和图像传输等各个领域。然而,现有的网络架构主要关注原始域内的数据表示,对潜在空间的探索有限,从而限制了 D2NN 的信息挖掘能力和多功能集成。在这里,我们提出了一种全光自动编码器 (OAE) 框架,它可以将输入波场编码到潜在空间中的先验形状分布,并将编码的模式解码回原始波场。通过利用 D2NN 的非互易性,OAE 模型在一个波传播方向上充当编码器,而在相反方向上充当解码器。我们进一步将这些模型应用于三个关键领域:图像去噪、抗噪声的可重构图像分类和图像生成。已经进行了概念验证实验以验证数值模拟。我们的 OAE 框架充分利用了潜在空间表示的潜力,使一组衍射处理器能够同时实现图像重建、表示和生成。它可以被视为电子自动编码器模型的对应物和扩展。这项工作不仅为光学生成模型的设计提供了新的见解,而且为开发和应用多功能、高度集成和通用的光学智能系统铺平了道路。  
2024-09-30 Devil is in Details: Locality-Aware 3D Abdominal CT Volume Generation for Self-Supervised Organ Segmentation null 在医学图像分析领域,自监督学习 (SSL) 技术已经出现,以减轻对标签的需求,但由于资源需求不断增加和隐私限制,训练数据的稀缺性仍然是一个挑战。许多努力都采用生成模型来生成跨越不同模态和解剖区域的高保真、未标记的 3D 体积数据。然而,与其他解剖区域相比,腹部内复杂且难以区分的解剖结构对腹部 CT 体积生成提出了独特的挑战。为了应对这一被忽视的挑战,我们引入了局部感知扩散 (Lad),这是一种专为生成精细的 3D 腹部 CT 体积数据而设计的新方法。我们设计了一个局部损失来细化关键的解剖区域,并设计了一个条件提取器将腹部先验信息整合到生成过程中,从而能够生成大量高质量的腹部 CT 体积数据,这些数据对于 SSL 任务至关重要,而无需额外的标签或放射学报告等数据。通过我们的方法生成的体积数据在再现腹部结构方面表现出非凡的保真度,在 AbdomenCT-1K 数据集上将 FID 分数从 0.0034 降低到 0.0002,与真实数据非常接近,并优于当前的方法。大量实验表明,我们的方法在自监督器官分割任务中的有效性,在两个腹部数据集上有效地提高了平均 Dice 分数。这些结果强调了合成数据在推进医学图像分析中的自监督学习方面的潜力。  
2024-09-30 UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation link Existing unified methods typically treat multi-degradation image restoration as a multi-task learning problem. Despite performing effectively compared to single degradation restoration methods, they overlook the utilization of commonalities and specificities within multi-task restoration, thereby impeding the model’s performance. Inspired by the success of deep generative models and fine-tuning techniques, we proposed a universal image restoration framework based on multiple low-rank adapters (LoRA) from multi-domain transfer learning. Our framework leverages the pre-trained generative model as the shared component for multi-degradation restoration and transfers it to specific degradation image restoration tasks using low-rank adaptation. Additionally, we introduce a LoRA composing strategy based on the degradation similarity, which adaptively combines trained LoRAs and enables our model to be applicable for mixed degradation restoration. Extensive experiments on multiple and mixed degradations demonstrate that the proposed universal image restoration method not only achieves higher fidelity and perceptual image quality but also has better generalization ability than other unified image restoration models. Our code is available at https://github.com/Justones/UIR-LoRA.  
2024-09-30 Ensemble Kalman Diffusion Guidance: A Derivative-free Method for Inverse Problems null 在解决逆问题时,使用预训练的扩散模型作为即插即用的先验越来越受欢迎。这种框架可以适应不同的前向模型,而无需重新训练,同时保留了扩散模型的生成能力。尽管它们在许多成像逆问题中取得了成功,但大多数现有方法都依赖于特权信息,例如导数、伪逆或关于前向模型的完整知识。这种依赖性构成了一个重大限制,限制了它们在无法获得此类信息的各种问题中的使用,例如在许多科学应用中。为了解决这个问题,我们提出了用于扩散模型的集成卡尔曼扩散引导 (EnKG),这是一种无导数方法,可以通过仅访问前向模型评估和预训练的扩散模型先验来解决逆问题。我们研究了我们的方法在各种逆问题中的经验有效性,包括科学环境,例如推断流体流动和天文物体,这些都是高度非线性的逆问题,通常只允许对前向模型进行黑盒访问。  
2024-09-30 Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model null Data augmentation is one of the most common tools in deep learning, underpinning many recent advances including tasks such as classification, detection, and semantic segmentation. The standard approach to data augmentation involves simple transformations like rotation and flipping to generate new images. However, these new images often lack diversity along the main semantic dimensions within the data. Traditional data augmentation methods cannot alter high-level semantic attributes such as the presence of vehicles, trees, and buildings in a scene to enhance data diversity. In recent years, the rapid development of generative models has injected new vitality into the field of data augmentation. In this paper, we address the lack of diversity in data augmentation for road detection task by using a pre-trained text-to-image diffusion model to parameterize image-to-image transformations. Our method involves editing images using these diffusion models to change their semantics. In essence, we achieve this goal by erasing instances of real objects from the original dataset and generating new instances with similar semantics in the erased regions using the diffusion model, thereby expanding the original dataset. We evaluate our approach on the KITTI road dataset and achieve the best results compared to other data augmentation methods, which demonstrates the effectiveness of our proposed development.  
2024-09-30 Conditional Diffusion Models are Minimax-Optimal and Manifold-Adaptive for Conditional Distribution Estimation null We consider a class of conditional forward-backward diffusion models for conditional generative modeling, that is, generating new data given a covariate (or control variable). To formally study the theoretical properties of these conditional generative models, we adopt a statistical framework of distribution regression to characterize the large sample properties of the conditional distribution estimators induced by these conditional forward-backward diffusion models. Here, the conditional distribution of data is assumed to smoothly change over the covariate. In particular, our derived convergence rate is minimax-optimal under the total variation metric within the regimes covered by the existing literature. Additionally, we extend our theory by allowing both the data and the covariate variable to potentially admit a low-dimensional manifold structure. In this scenario, we demonstrate that the conditional forward-backward diffusion model can adapt to both manifold structures, meaning that the derived estimation error bound (under the Wasserstein metric) depends only on the intrinsic dimensionalities of the data and the covariate.  
2024-09-30 Training a Computer Vision Model for Commercial Bakeries with Primarily Synthetic Images null In the food industry, reprocessing returned product is a vital step to increase resource efficiency. [SBB23] presented an AI application that automates the tracking of returned bread buns. We extend their work by creating an expanded dataset comprising 2432 images and a wider range of baked goods. To increase model robustness, we use generative models pix2pix and CycleGAN to create synthetic images. We train state-of-the-art object detection model YOLOv9 and YOLOv8 on our detection task. Our overall best-performing model achieved an average precision [email protected] of 90.3% on our test set.  
2024-09-27 $O(d/T)$ Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions null 基于分数的扩散模型通过学习逆转将目标分布数据扰动为噪声的扩散过程来生成新数据,已经在各种生成任务中取得了显著成功。尽管它们具有优越的经验性能,但现有的理论保证通常受到严格假设或次优收敛速度的限制。在本文中,我们以最小的假设建立了流行的基于 SDE 的采样器的快速收敛理论。我们的分析表明,如果提供分数函数的 $\ell_{2}$ 精度估计,则目标分布和生成分布之间的总变差距离的上限为 $O(d/T)$(忽略对数因子),其中 $d$ 是数据维度,$T$ 是步数。该结果适用于任何具有一阶矩有限的目标分布。据我们所知,这改进了基于 SDE 的采样器和另一种基于 ODE 的采样器的现有收敛理论,同时对目标数据分布和分数估计施加了最小假设。这是通过一组新颖的分析工具实现的,该工具提供了对误差在反向过程的每个步骤中如何传播的细粒度表征。  
2024-09-27 ReviveDiff: A Universal Diffusion Model for Restoring Images in Adverse Weather Conditions null 在诸如夜间、雾天、雨天和水下等挑战性环境中拍摄的图像经常会遭受严重的质量下降,导致视觉质量大幅降低。有效地恢复这些退化的图像对于后续的视觉任务至关重要。虽然许多现有方法已经成功地结合了针对个任务的特定先验知识,但这些定制解决方案限制了它们对其他退化的适用性。在这项工作中,我们提出了一个通用的网络架构,称为“ReviveDiff”,它可以解决各种退化问题,并通过增强和恢复图像质量使其恢复生机。我们的方法受到以下观察结果的启发:与运动或电子问题造成的退化不同,恶劣条件下的质量退化主要源于自然介质(如雾、水和低亮度),这些介质通常保留了物体的原始结构。为了恢复此类图像的质量,我们利用了扩散模型的最新进展,并开发了ReviveDiff,从宏观和微观层面恢复图像质量,涵盖决定图像质量的一些关键因素,如清晰度、失真、噪声水平、动态范围和色彩准确度。我们在涵盖五种退化条件(雨天、水下、低光、烟雾和夜间雾霾)的七个基准数据集上对ReviveDiff进行了严格评估。我们的实验结果表明,ReviveDiff在定量和视觉上都优于最先进的方法。  
2024-09-27 Unsupervised Low-light Image Enhancement with Lookup Tables and Diffusion Priors null 弱光图像增强 (LIE) 旨在精确有效地恢复在弱光环境下降质的图像。最近先进的 LIE 技术正在使用深度神经网络,这需要大量的弱光-正常光图像对、网络参数和计算资源。因此,它们的实用性受到限制。在这项工作中,我们设计了一种基于扩散先验和查找表 (DPLUT) 的新型无监督 LIE 框架,以实现高效的弱光图像恢复。所提出的方法包括两个关键组件:光照调整查找表 (LLUT) 和噪声抑制查找表 (NLUT)。LLUT 使用一组无监督损失进行优化。它旨在预测特定图像动态范围调整的逐像素曲线参数。NLUT 旨在去除光线变亮后放大的噪声。由于扩散模型对噪声很敏感,因此引入了扩散先验以实现高性能的噪声抑制。大量实验表明,我们的方法在视觉质量和效率方面优于最先进的方法。  
2024-09-27 Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis null 文图生成在生成逼真和风格化的图像方面已经变得非常流行,这通常需要使用特定领域的数据库对生成模型进行微调以完成专门的任务。然而,这些有价值的数据库面临着未经授权使用和未经批准共享的风险,损害了所有者的权利。在本文中,我们解决了在对 Stable Diffusion 模型进行文图生成的微调过程中出现的数据库滥用问题。我们提出了一个数据库水印框架,旨在检测未经授权的使用并追踪数据泄露。该框架在多个水印方案中采用了两种关键策略,对大规模数据库授权有效。大量实验表明,该框架有效,对数据库的影响最小(只需修改 2% 的数据即可实现高检测精度),并且能够追踪数据泄露。我们的结果还突出了该框架的鲁棒性和可迁移性,证明了其在检测数据库滥用方面的实际适用性。  
2024-09-27 Explainable Artifacts for Synthetic Western Blot Source Attribution link 人工智能领域的最新进展使得生成模型能够生成与真实图像难以区分的合成科学图像,这对习惯于处理此类内容的专业科学家也构成了挑战。当被称为“论文工厂”的组织利用这些技术系统地生成虚假文章时,它们可能会助长关于无根据科学的错误信息的传播,从而有可能破坏对科学研究的信任。虽然之前的研究已经探索了黑盒解决方案(例如卷积神经网络)来识别合成内容,但只有一部分研究解决了跨不同模型进行泛化并深入了解合成图像中可用于检测过程的人工痕迹的挑战。本研究旨在识别由最先进的生成模型(例如,生成对抗网络和扩散模型)产生的可解释的人工痕迹,并利用它们进行开放集识别和来源归因(即,指出创建图像的模型)。  
2024-09-27 Emu3: Next-Token Prediction is All You Need null 虽然下一词预测被认为是通向人工通用智能的有希望的途径,但它在多模态任务中一直难以取得优异表现,而多模态任务仍然由扩散模型(例如,Stable Diffusion)和组合方法(例如,CLIP 与 LLM 相结合)主导。在本文中,我们介绍了 Emu3,这是一套全新的最先进的多模态模型,仅使用下一词预测进行训练。通过将图像、文本和视频标记化为离散空间,我们在多模态序列的混合上从头开始训练单个变换器。Emu3 在生成和感知任务中均优于多个完善的特定任务模型,超越了 SDXL 和 LLaVA-1.6 等旗舰模型,同时无需扩散或组合架构。Emu3 还能够通过预测视频序列中的下一个标记来生成高保真视频。我们通过专注于单一焦点:标记,简化了复杂的多模态模型设计,从而在训练和推理过程中释放了巨大的扩展潜力。我们的结果表明,下一词预测是构建超越语言的通用多模态智能的有希望的途径。我们开源了关键技术和模型,以支持在该方向上的进一步研究。  
2024-09-27 Challenges of Generating Structurally Diverse Graphs link 对于许多与图相关的问题,拥有一组结构多样化的图至关重要。例如,此类图可用于测试图算法或其神经网络近似。然而,据我们所知,生成结构多样化图的问题尚未在文献中得到探讨。在本文中,我们填补了这一空白。首先,我们讨论了如何定义一组图的多样性,为什么这项任务不简单,以及如何选择合适的度量标准。然后,对于给定的多样性度量标准,我们提出并比较了几种优化它的算法:我们考虑了基于标准随机图模型、局部图优化、遗传算法和神经生成模型的方法。我们证明,相较于基本的随机图生成器,可以显著提高多样性。此外,我们对生成图的分析使我们能够更好地理解图距离的特性:根据用于优化的多样性度量标准,获得的图可能具有非常不同的结构特性,这为了解多样性度量标准中使用的图距离的敏感性提供了见解。  
2024-09-27 Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions null 去噪扩散概率模型 (DDPM) 是一种强大的最先进方法,用于从高维数据分布生成合成数据,并广泛用于图像、音频和视频生成以及科学及其他领域的更多应用。流形假设指出高维数据通常位于环境空间内的低维流形上,并且被广泛认为在提供的示例中成立。虽然最近的结果为了解扩散模型如何适应流形假设提供了宝贵的见解,但它们没有捕捉到这些模型的巨大经验成功,这使其成为一个非常富有成果的研究方向。在这项工作中,我们研究了流形假设下的 DDPM,并证明了它们在学习分数方面实现了与环境维度无关的速率。在采样方面,我们获得了关于 Kullback-Leibler 散度的与环境维度无关的速率,以及关于 Wasserstein 距离的 $O(\sqrt{D})$ 。我们通过开发一个新的框架来做到这一点,该框架将扩散模型连接到经过充分研究的高斯过程极值理论。  
2024-09-27 Geometric deep learning for galaxy-halo connection: a case study for galaxy intrinsic alignments null 即将进行的宇宙学成像巡天,例如 Rubin Observatory LSST,需要包含真实星系群的大规模模拟,以用于各种科学应用。其中一个特别值得关注的现象是内禀排列 (IA),即星系倾向于朝向超密度区域排列,如果不对其进行适当建模,可能会在弱引力透镜分析中引入显著的系统偏差。由于计算限制,在广阔的体积范围内模拟与 IA 相关的星系形成和演化的复杂细节是不切实际的。作为替代方案,我们提出了一种在 IllustrisTNG-100 模拟上训练的深度生成模型,用于对 3D 星系形状和方向进行采样,以准确地再现内禀排列以及相关的标量特征。我们将宇宙网建模为一组图,每个图代表一个晕,节点代表子晕/星系。该架构由一个 SO(3) $\times$ $\mathbb{R}^n$ 扩散生成模型组成,用于星系方向和 $n$ 个标量,并使用明确遵守宇宙欧几里德对称性的 E(3) 等变图神经网络实现。该模型能够学习和预测与参考模拟在统计上一致的特征,例如星系方向。值得注意的是,我们的模型展示了联合建模欧几里德值标量(星系大小、形状和颜色)以及非欧几里德值 SO(3) 量(星系方向)的能力,这些量受非线性尺度上高度复杂的星系物理支配。  
2024-09-27 Unsupervised Fingerphoto Presentation Attack Detection With Diffusion Models null 基于智能手机的非接触式指纹认证由于智能手机相机技术的快速发展,已成为传统接触式指纹生物识别系统的可靠替代方案。尽管其便利性很高,但通过指纹照片进行的指纹认证更容易受到伪造攻击,这促使最近的研究工作致力于开发指纹照片呈现攻击检测 (PAD) 技术。然而,先前的 PAD 方法利用了监督学习方法,这些方法需要真实和攻击样本的标记训练数据。这可能会遇到两个关键问题,即 (i) 泛化性:检测训练数据中未见过的呈现攻击工具 (PAI),以及 (ii) 可扩展性:使用不同的 PAI 收集大型攻击样本数据集。为了应对这些挑战,我们提出了一种基于最先进的深度学习扩散模型的新型无监督方法,即去噪扩散概率模型 (DDPM),该模型仅使用真实样本进行训练。所提出的方法通过计算 DDPM 的输入和输出对之间的重建相似性来检测呈现攻击 (PA)。我们展示了跨三个 PAI 数据集的大量实验,以测试我们方法的准确性和泛化能力。结果表明,与其他基线无监督方法相比,所提出的基于 DDPM 的 PAD 方法在多个 PAI 类别上实现了显着更好的检测错误率。  
2024-09-26 FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner link 基于扩散模型在视觉生成方面的成功,基于流的模型作为另一类重要的生成模型重新兴起,在视觉质量和推理速度方面都取得了与之相当或更好的性能。通过流匹配学习速度场,基于流的模型倾向于产生更直的采样轨迹,这在采样过程中是有利的。然而,与快速采样器已经得到很好发展的扩散模型不同,基于流的生成模型的有效采样还很少被探索。在本文中,我们提出了一个名为FlowTurbo的框架,以加速基于流的模型的采样,同时提高采样质量。我们的主要观察结果是,基于流模型中的速度预测器输出在采样过程中会变得稳定,从而可以通过轻量级速度优化器估计速度。此外,我们还引入了一些技术,包括伪校正器和样本感知编译,以进一步减少推理时间。由于FlowTurbo没有改变多步采样范式,因此可以有效地应用于图像编辑、修复等各种任务。通过将FlowTurbo集成到不同的基于流的模型中,我们在类别条件生成上获得了53.1% $\sim$58.3%的加速比,在文本到图像生成上获得了29.8%$\sim$ 38.5%的加速比。值得注意的是,FlowTurbo在ImageNet上实现了100 (ms / img)时FID为2.12,38 (ms / img)时FID为3.93,实现了实时图像生成,并建立了新的最先进水平。代码可在https://github.com/shiml20/FlowTurbo获取。  
2024-09-26 Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction null 利用预训练文本到图像扩散模型的视觉先验知识为增强密集预测任务中的零样本泛化能力提供了一种很有前景的解决方案。然而,现有方法通常不加批判地使用原始的扩散公式,由于密集预测和图像生成之间的根本差异,这可能不是最佳选择。在本文中,我们对用于密集预测的扩散公式进行了系统分析,重点关注质量和效率。我们发现,用于图像生成的原始参数化类型(学习预测噪声)对密集预测是有害的;多步加噪/去噪扩散过程也是不必要的,并且难以优化。基于这些见解,我们推出了Lotus,这是一个基于扩散的视觉基础模型,它采用了一种简单而有效的密集预测适应协议。具体来说,Lotus被训练成直接预测注释而不是噪声,从而避免了有害的方差。我们还将扩散过程重新定义为单步过程,简化了优化并显著提高了推理速度。此外,我们引入了一种称为细节保留器的新型调整策略,它可以实现更准确、更细粒度的预测。在不扩大训练数据或模型容量的情况下,Lotus在各种数据集上的零样本深度和法线估计方面均达到了最先进的性能。它还显著提高了效率,比大多数现有的基于扩散的方法快数百倍。  
2024-09-26 EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation null 目前的自动回归网格生成方法存在着诸如网格不完整、细节不足和泛化能力差等问题。在本文中,我们提出了一种自回归自动编码器(ArAE)模型,能够生成高达4,000个面片、空间分辨率为 $512^3$ 的高质量三维网格。我们引入了一种新颖的网格标记化算法,可以有效地将三角网格压缩成一维标记序列,显著提高了训练效率。此外,我们的模型将变长三角网格压缩成固定长度的潜在空间,从而能够训练潜在扩散模型以获得更好的泛化能力。大量实验表明,我们的模型在点云和图像条件网格生成任务中均表现出优越的质量、多样性和泛化能力。  
2024-09-26 StackGen: Generating Stable Structures from Silhouettes via Diffusion null Humans naturally obtain intuition about the interactions between and the stability of rigid objects by observing and interacting with the world. It is this intuition that governs the way in which we regularly configure objects in our environment, allowing us to build complex structures from simple, everyday objects. Robotic agents, on the other hand, traditionally require an explicit model of the world that includes the detailed geometry of each object and an analytical model of the environment dynamics, which are difficult to scale and preclude generalization. Instead, robots would benefit from an awareness of intuitive physics that enables them to similarly reason over the stable interaction of objects in their environment. Towards that goal, we propose StackGen, a diffusion model that generates diverse stable configurations of building blocks matching a target silhouette. To demonstrate the capability of the method, we evaluate it in a simulated environment and deploy it in the real setting using a robotic arm to assemble structures generated by the model.  
2024-09-26 DiffSSC: Semantic LiDAR Scan Completion using Denoising Diffusion Probabilistic Models null 感知系统在自动驾驶中起着至关重要的作用,它结合了多个传感器和相应的计算机视觉算法。3D 激光雷达传感器被广泛用于捕捉车辆周围环境的稀疏点云。然而,由于这些点云的稀疏性和缺乏语义信息,此类系统难以感知遮挡区域和场景中的间隙。为了应对这些挑战,语义场景补全 (SSC) 在给定原始激光雷达测量值的情况下,联合预测场景中未观察到的几何形状和语义信息,旨在实现更完整的场景表示。基于扩散模型在图像生成和超分辨率任务中的良好结果,我们建议将其扩展到 SSC,方法是在点空间和语义空间中分别实现去噪和加噪扩散过程。为了控制生成过程,我们采用语义激光雷达点云作为条件输入,并设计了局部和全局正则化损失来稳定去噪过程。我们在自动驾驶数据集上评估了我们的方法,我们的方法在 SSC 方面的性能优于最先进的方法。  
2024-09-26 Stable Video Portraits null Rapid advances in the field of generative AI and text-to-image methods in particular have transformed the way we interact with and perceive computer-generated imagery today. In parallel, much progress has been made in 3D face reconstruction, using 3D Morphable Models (3DMM). In this paper, we present SVP, a novel hybrid 2D/3D generation method that outputs photorealistic videos of talking faces leveraging a large pre-trained text-to-image prior (2D), controlled via a 3DMM (3D). Specifically, we introduce a person-specific fine-tuning of a general 2D stable diffusion model which we lift to a video model by providing temporal 3DMM sequences as conditioning and by introducing a temporal denoising procedure. As an output, this model generates temporally smooth imagery of a person with 3DMM-based controls, i.e., a person-specific avatar. The facial appearance of this person-specific avatar can be edited and morphed to text-defined celebrities, without any fine-tuning at test time. The method is analyzed quantitatively and qualitatively, and we show that our method outperforms state-of-the-art monocular head avatar methods.  
2024-09-26 PhoCoLens: Photorealistic and Consistent Reconstruction in Lensless Imaging null Lensless cameras offer significant advantages in size, weight, and cost compared to traditional lens-based systems. Without a focusing lens, lensless cameras rely on computational algorithms to recover the scenes from multiplexed measurements. However, current algorithms struggle with inaccurate forward imaging models and insufficient priors to reconstruct high-quality images. To overcome these limitations, we introduce a novel two-stage approach for consistent and photorealistic lensless image reconstruction. The first stage of our approach ensures data consistency by focusing on accurately reconstructing the low-frequency content with a spatially varying deconvolution method that adjusts to changes in the Point Spread Function (PSF) across the camera’s field of view. The second stage enhances photorealism by incorporating a generative prior from pre-trained diffusion models. By conditioning on the low-frequency content retrieved in the first stage, the diffusion model effectively reconstructs the high-frequency details that are typically lost in the lensless imaging process, while also maintaining image fidelity. Our method achieves a superior balance between data fidelity and visual quality compared to existing methods, as demonstrated with two popular lensless systems, PhlatCam and DiffuserCam. Project website: https://phocolens.github.io/.  
2024-09-26 Joint Localization and Planning using Diffusion null Diffusion models have been successfully applied to robotics problems such as manipulation and vehicle path planning. In this work, we explore their application to end-to-end navigation – including both perception and planning – by considering the problem of jointly performing global localization and path planning in known but arbitrary 2D environments. In particular, we introduce a diffusion model which produces collision-free paths in a global reference frame given an egocentric LIDAR scan, an arbitrary map, and a desired goal position. To this end, we implement diffusion in the space of paths in SE(2), and describe how to condition the denoising process on both obstacles and sensor observations. In our evaluation, we show that the proposed conditioning techniques enable generalization to realistic maps of considerably different appearance than the training environment, demonstrate our model’s ability to accurately describe ambiguous solutions, and run extensive simulation experiments showcasing our model’s use as a real-time, end-to-end localization and planning stack.  
2024-09-26 CNCA: Toward Customizable and Natural Generation of Adversarial Camouflage for Vehicle Detectors null Prior works on physical adversarial camouflage against vehicle detectors mainly focus on the effectiveness and robustness of the attack. The current most successful methods optimize 3D vehicle texture at a pixel level. However, this results in conspicuous and attention-grabbing patterns in the generated camouflage, which humans can easily identify. To address this issue, we propose a Customizable and Natural Camouflage Attack (CNCA) method by leveraging an off-the-shelf pre-trained diffusion model. By sampling the optimal texture image from the diffusion model with a user-specific text prompt, our method can generate natural and customizable adversarial camouflage while maintaining high attack performance. With extensive experiments on the digital and physical worlds and user studies, the results demonstrate that our proposed method can generate significantly more natural-looking camouflage than the state-of-the-art baselines while achieving competitive attack performance. Our code is available at \href{https://anonymous.4open.science/r/CNCA-1D54}{https://anonymous.4open.science/r/CNCA-1D54}  
2024-09-26 Relativistic diffusion model for hadron production in p-Pb collisions at the LHC null We investigate charged-hadron production in relativistic heavy-ion collisions of asymmetric systems within a nonequilibrium-statistical framework. Calculated centrality-dependent pseudorapidity distributions for p-Pb collisions at sqrt(s_NN)=5.02 and 8.16 TeV are compared with data from the Large Hadron Collider (LHC). Our approach combines a relativistic diffusion model with formulations based on quantum chromodynamics while utilizing numerical solutions of a Fokker-Planck equation to account for the shift and broadening of the fragmentation sources for particle-production with respect to the stopping (net-baryon) rapidity distributions. To represent the centrality dependence of charged-hadron production in asymmetric systems over a broad region of pseudorapidities, the consideration and precise modelling of the fragmentation sources - along with the central gluon-gluon source - is found to be essential. Specifically, this results in an inversion of the particle-production amplitude from backward- to forward-dominance when transitioning from central to peripheral collisions, in agreement with recent ATLAS and ALICE p-Pb data at sqrt(s_NN)=5.02 TeV.  
2024-09-18 Massively Multi-Person 3D Human Motion Forecasting with Scene Context link Forecasting long-term 3D human motion is challenging: the stochasticity of human behavior makes it hard to generate realistic human motion from the input sequence alone. Information on the scene environment and the motion of nearby people can greatly aid the generation process. We propose a scene-aware social transformer model (SAST) to forecast long-term (10s) human motion motion. Unlike previous models, our approach can model interactions between both widely varying numbers of people and objects in a scene. We combine a temporal convolutional encoder-decoder architecture with a Transformer-based bottleneck that allows us to efficiently combine motion and scene information. We model the conditional motion distribution using denoising diffusion models. We benchmark our approach on the Humans in Kitchens dataset, which contains 1 to 16 persons and 29 to 50 objects that are visible simultaneously. Our model outperforms other approaches in terms of realism and diversity on different metrics and in a user study. Code is available at https://github.com/felixbmuller/SAST.  
2024-09-18 MoRAG – Multi-Fusion Retrieval Augmented Generation for Human Motion null We introduce MoRAG, a novel multi-part fusion based retrieval-augmented generation strategy for text-based human motion generation. The method enhances motion diffusion models by leveraging additional knowledge obtained through an improved motion retrieval process. By effectively prompting large language models (LLMs), we address spelling errors and rephrasing issues in motion retrieval. Our approach utilizes a multi-part retrieval strategy to improve the generalizability of motion retrieval across the language space. We create diverse samples through the spatial composition of the retrieved motions. Furthermore, by utilizing low-level, part-specific motion information, we can construct motion samples for unseen text descriptions. Our experiments demonstrate that our framework can serve as a plug-and-play module, improving the performance of motion diffusion models. Code, pretrained models and sample videos will be made available at: https://motion-rag.github.io/  
2024-09-18 Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance null Understanding how humans process visual information is one of the crucial steps for unraveling the underlying mechanism of brain activity. Recently, this curiosity has motivated the fMRI-to-image reconstruction task; given the fMRI data from visual stimuli, it aims to reconstruct the corresponding visual stimuli. Surprisingly, leveraging powerful generative models such as the Latent Diffusion Model (LDM) has shown promising results in reconstructing complex visual stimuli such as high-resolution natural images from vision datasets. Despite the impressive structural fidelity of these reconstructions, they often lack details of small objects, ambiguous shapes, and semantic nuances. Consequently, the incorporation of additional semantic knowledge, beyond mere visuals, becomes imperative. In light of this, we exploit how modern LDMs effectively incorporate multi-modal guidance (text guidance, visual guidance, and image layout) for structurally and semantically plausible image generations. Specifically, inspired by the two-streams hypothesis suggesting that perceptual and semantic information are processed in different brain regions, our framework, Brain-Streams, maps fMRI signals from these brain regions to appropriate embeddings. That is, by extracting textual guidance from semantic information regions and visual guidance from perceptual information regions, Brain-Streams provides accurate multi-modal guidance to LDMs. We validate the reconstruction ability of Brain-Streams both quantitatively and qualitatively on a real fMRI dataset comprising natural image stimuli and fMRI data.  
2024-09-18 Design of Ligand-Binding Proteins with Atomic Flow Matching null Designing novel proteins that bind to small molecules is a long-standing challenge in computational biology, with applications in developing catalysts, biosensors, and more. Current computational methods rely on the assumption that the binding pose of the target molecule is known, which is not always feasible, as conformations of novel targets are often unknown and tend to change upon binding. In this work, we formulate proteins and molecules as unified biotokens, and present AtomFlow, a novel deep generative model under the flow-matching framework for the design of ligand-binding proteins from the 2D target molecular graph alone. Operating on representative atoms of biotokens, AtomFlow captures the flexibility of ligands and generates ligand conformations and protein backbone structures iteratively. We consider the multi-scale nature of biotokens and demonstrate that AtomFlow can be effectively trained on a subset of structures from the Protein Data Bank, by matching flow vector field using an SE(3) equivariant structure prediction network. Experimental results show that our method can generate high fidelity ligand-binding proteins and achieve performance comparable to the state-of-the-art model RFDiffusionAA, while not requiring bound ligand structures. As a general framework, AtomFlow holds the potential to be applied to various biomolecule generation tasks in the future.  
2024-09-18 LEMON: Localized Editing with Mesh Optimization and Neural Shaders null In practical use cases, polygonal mesh editing can be faster than generating new ones, but it can still be challenging and time-consuming for users. Existing solutions for this problem tend to focus on a single task, either geometry or novel view synthesis, which often leads to disjointed results between the mesh and view. In this work, we propose LEMON, a mesh editing pipeline that combines neural deferred shading with localized mesh optimization. Our approach begins by identifying the most important vertices in the mesh for editing, utilizing a segmentation model to focus on these key regions. Given multi-view images of an object, we optimize a neural shader and a polygonal mesh while extracting the normal map and the rendered image from each view. By using these outputs as conditioning data, we edit the input images with a text-to-image diffusion model and iteratively update our dataset while deforming the mesh. This process results in a polygonal mesh that is edited according to the given text instruction, preserving the geometric characteristics of the initial mesh while focusing on the most significant areas. We evaluate our pipeline using the DTU dataset, demonstrating that it generates finely-edited meshes more rapidly than the current state-of-the-art methods. We include our code and additional results in the supplementary material.  
2024-09-18 Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models null In this paper, we address the challenge of generating realistic 3D human motions for action classes that were never seen during the training phase. Our approach involves decomposing complex actions into simpler movements, specifically those observed during training, by leveraging the knowledge of human motion contained in GPTs models. These simpler movements are then combined into a single, realistic animation using the properties of diffusion models. Our claim is that this decomposition and subsequent recombination of simple movements can synthesize an animation that accurately represents the complex input action. This method operates during the inference phase and can be integrated with any pre-trained diffusion model, enabling the synthesis of motion classes not present in the training data. We evaluate our method by dividing two benchmark human motion datasets into basic and complex actions, and then compare its performance against the state-of-the-art.  
2024-09-18 Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation null Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata’s technology, we present an efficient annotation framework that sources human feedback from a diverse, global pool of annotators. Our study collected over 2 million annotations across 4,512 images, evaluating four prominent models (DALL-E 3, Flux.1, MidJourney, and Stable Diffusion) on style preference, coherence, and text-to-image alignment. We demonstrate that our approach makes it feasible to comprehensively rank image generation models based on a vast pool of annotators and show that the diverse annotator demographics reflect the world population, significantly decreasing the risk of biases.  
2024-09-18 NT-ViT: Neural Transcoding Vision Transformers for EEG-to-fMRI Synthesis null This paper introduces the Neural Transcoding Vision Transformer (\modelname), a generative model designed to estimate high-resolution functional Magnetic Resonance Imaging (fMRI) samples from simultaneous Electroencephalography (EEG) data. A key feature of \modelname is its Domain Matching (DM) sub-module which effectively aligns the latent EEG representations with those of fMRI volumes, enhancing the model’s accuracy and reliability. Unlike previous methods that tend to struggle with fidelity and reproducibility of images, \modelname addresses these challenges by ensuring methodological integrity and higher-quality reconstructions which we showcase through extensive evaluation on two benchmark datasets; \modelname outperforms the current state-of-the-art by a significant margin in both cases, e.g. achieving a $10\times$ reduction in RMSE and a $3.14\times$ increase in SSIM on the Oddball dataset. An ablation study also provides insights into the contribution of each component to the model’s overall effectiveness. This development is critical in offering a new approach to lessen the time and financial constraints typically linked with high-resolution brain imaging, thereby aiding in the swift and precise diagnosis of neurological disorders. Although it is not a replacement for actual fMRI but rather a step towards making such imaging more accessible, we believe that it represents a pivotal advancement in clinical practice and neuroscience research. Code is available at \url{https://github.com/rom42pla/ntvit}.  
2024-09-18 DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech null In recent years, speech diffusion models have advanced rapidly. Alongside the widely used U-Net architecture, transformer-based models such as the Diffusion Transformer (DiT) have also gained attention. However, current DiT speech models treat Mel spectrograms as general images, which overlooks the specific acoustic properties of speech. To address these limitations, we propose a method called Directional Patch Interaction for Text-to-Speech (DPI-TTS), which builds on DiT and achieves fast training without compromising accuracy. Notably, DPI-TTS employs a low-to-high frequency, frame-by-frame progressive inference approach that aligns more closely with acoustic properties, enhancing the naturalness of the generated speech. Additionally, we introduce a fine-grained style temporal modeling method that further improves speaker style similarity. Experimental results demonstrate that our method increases the training speed by nearly 2 times and significantly outperforms the baseline models.  
2024-09-18 RaggeDi: Diffusion-based State Estimation of Disordered Rags, Sheets, Towels and Blankets null Cloth state estimation is an important problem in robotics. It is essential for the robot to know the accurate state to manipulate cloth and execute tasks such as robotic dressing, stitching, and covering/uncovering human beings. However, estimating cloth state accurately remains challenging due to its high flexibility and self-occlusion. This paper proposes a diffusion model-based pipeline that formulates the cloth state estimation as an image generation problem by representing the cloth state as an RGB image that describes the point-wise translation (translation map) between a pre-defined flattened mesh and the deformed mesh in a canonical space. Then we train a conditional diffusion-based image generation model to predict the translation map based on an observation. Experiments are conducted in both simulation and the real world to validate the performance of our method. Results indicate that our method outperforms two recent methods in both accuracy and speed.  
2024-09-17 Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion null In 3D modeling, designers often use an existing 3D model as a reference to create new ones. This practice has inspired the development of Phidias, a novel generative model that uses diffusion for reference-augmented 3D generation. Given an image, our method leverages a retrieved or user-provided 3D reference model to guide the generation process, thereby enhancing the generation quality, generalization ability, and controllability. Our model integrates three key components: 1) meta-ControlNet that dynamically modulates the conditioning strength, 2) dynamic reference routing that mitigates misalignment between the input image and 3D reference, and 3) self-reference augmentations that enable self-supervised training with a progressive curriculum. Collectively, these designs result in a clear improvement over existing methods. Phidias establishes a unified framework for 3D generation using text, image, and 3D conditions with versatile applications.  
2024-09-17 Teaching dark matter simulations to speak the halo language link We develop a transformer-based conditional generative model for discrete point objects and their properties. We use it to build a model for populating cosmological simulations with gravitationally collapsed structures called dark matter halos. Specifically, we condition our model with dark matter distribution obtained from fast, approximate simulations to recover the correct three-dimensional positions and masses of individual halos. This leads to a first model that can recover the statistical properties of the halos at small scales to better than 3% level using an accelerated dark matter simulation. This trained model can then be applied to simulations with significantly larger volumes which would otherwise be computationally prohibitive with traditional simulations, and also provides a crucial missing link in making end-to-end differentiable cosmological simulations. The code, named GOTHAM (Generative cOnditional Transformer for Halo’s Auto-regressive Modeling) is publicly available at \url{https://github.com/shivampcosmo/GOTHAM}.  
2024-09-17 Ultrasound Image Enhancement with the Variance of Diffusion Models link Ultrasound imaging, despite its widespread use in medicine, often suffers from various sources of noise and artifacts that impact the signal-to-noise ratio and overall image quality. Enhancing ultrasound images requires a delicate balance between contrast, resolution, and speckle preservation. This paper introduces a novel approach that integrates adaptive beamforming with denoising diffusion-based variance imaging to address this challenge. By applying Eigenspace-Based Minimum Variance (EBMV) beamforming and employing a denoising diffusion model fine-tuned on ultrasound data, our method computes the variance across multiple diffusion-denoised samples to produce high-quality despeckled images. This approach leverages both the inherent multiplicative noise of ultrasound and the stochastic nature of diffusion models. Experimental results on a publicly available dataset demonstrate the effectiveness of our method in achieving superior image reconstructions from single plane-wave acquisitions. The code is available at: https://github.com/Yuxin-Zhang-Jasmine/IUS2024_Diffusion.  
2024-09-17 OSV: One Step is Enough for High-Quality Image to Video Generation null Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).  
2024-09-17 Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think link Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200 $\times$ faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.  
2024-09-17 OmniGen: Unified Image Generation link In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model’s reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.  
2024-09-17 fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction null Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind in our conference work, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4768 3D objects. The dataset comprises two components: fMRI-Shape, previously introduced and accessible at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the Core set in fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Additionally, we propose MinD-3D, a novel framework designed to decode 3D visual information from fMRI signals. The framework first extracts and aggregates features from fMRI data using a neuro-fusion encoder, then employs a feature-bridge diffusion model to generate visual features, and finally reconstructs the 3D object using a generative transformer decoder. We establish new benchmarks by designing metrics at both semantic and structural levels to evaluate model performance. Furthermore, we assess our model’s effectiveness in an Out-of-Distribution setting and analyze the attribution of the extracted features and the visual ROIs in fMRI signals. Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with high semantic and spatial accuracy but also deepens our understanding of how human brain processes 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.  
2024-09-17 SpMis: An Investigation of Synthetic Spoken Misinformation Detection null In recent years, speech generation technology has advanced rapidly, fueled by generative models and large-scale training techniques. While these developments have enabled the production of high-quality synthetic speech, they have also raised concerns about the misuse of this technology, particularly for generating synthetic misinformation. Current research primarily focuses on distinguishing machine-generated speech from human-produced speech, but the more urgent challenge is detecting misinformation within spoken content. This task requires a thorough analysis of factors such as speaker identity, topic, and synthesis. To address this need, we conduct an initial investigation into synthetic spoken misinformation detection by introducing an open-source dataset, SpMis. SpMis includes speech synthesized from over 1,000 speakers across five common topics, utilizing state-of-the-art text-to-speech systems. Although our results show promising detection capabilities, they also reveal substantial challenges for practical implementation, underscoring the importance of ongoing research in this critical area.  
2024-09-17 DroneDiffusion: Robust Quadrotor Dynamics Learning with Diffusion Models null An inherent fragility of quadrotor systems stems from model inaccuracies and external disturbances. These factors hinder performance and compromise the stability of the system, making precise control challenging. Existing model-based approaches either make deterministic assumptions, utilize Gaussian-based representations of uncertainty, or rely on nominal models, all of which often fall short in capturing the complex, multimodal nature of real-world dynamics. This work introduces DroneDiffusion, a novel framework that leverages conditional diffusion models to learn quadrotor dynamics, formulated as a sequence generation task. DroneDiffusion achieves superior generalization to unseen, complex scenarios by capturing the temporal nature of uncertainties and mitigating error propagation. We integrate the learned dynamics with an adaptive controller for trajectory tracking with stability guarantees. Extensive experiments in both simulation and real-world flights demonstrate the robustness of the framework across a range of scenarios, including unfamiliar flight paths and varying payloads, velocities, and wind disturbances.  
2024-09-17 Learning Source Disentanglement in Neural Audio Codec null Neural audio codecs have significantly advanced audio compression by efficiently converting continuous audio signals into discrete tokens. These codecs preserve high-quality sound and enable sophisticated sound generation through generative models trained on these tokens. However, existing neural codec models are typically trained on large, undifferentiated audio datasets, neglecting the essential discrepancies between sound domains like speech, music, and environmental sound effects. This oversight complicates data modeling and poses additional challenges to the controllability of sound generation. To tackle these issues, we introduce the Source-Disentangled Neural Audio Codec (SD-Codec), a novel approach that combines audio coding and source separation. By jointly learning audio resynthesis and separation, SD-Codec explicitly assigns audio signals from different domains to distinct codebooks, sets of discrete representations. Experimental results indicate that SD-Codec not only maintains competitive resynthesis quality but also, supported by the separation results, demonstrates successful disentanglement of different sources in the latent space, thereby enhancing interpretability in audio codec and providing potential finer control over the audio generation process.  
2024-09-13 Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation link Despite significant progress in robotics and embodied AI in recent years, deploying robots for long-horizon tasks remains a great challenge. Majority of prior arts adhere to an open-loop philosophy and lack real-time feedback, leading to error accumulation and undesirable robustness. A handful of approaches have endeavored to establish feedback mechanisms leveraging pixel-level differences or pre-trained visual representations, yet their efficacy and adaptability have been found to be constrained. Inspired by classic closed-loop control systems, we propose CLOVER, a closed-loop visuomotor control framework that incorporates feedback mechanisms to improve adaptive robotic control. CLOVER consists of a text-conditioned video diffusion model for generating visual plans as reference inputs, a measurable embedding space for accurate error quantification, and a feedback-driven controller that refines actions from feedback and initiates replans as needed. Our framework exhibits notable advancement in real-world robotic tasks and achieves state-of-the-art on CALVIN benchmark, improving by 8% over previous open-loop counterparts. Code and checkpoints are maintained at https://github.com/OpenDriveLab/CLOVER.  
2024-09-13 A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis null Relighting radiance fields is severely underconstrained for multi-view data, which is most often captured under a single illumination condition; It is especially hard for full scenes containing multiple objects. We introduce a method to create relightable radiance fields using such single-illumination data by exploiting priors extracted from 2D image diffusion models. We first fine-tune a 2D diffusion model on a multi-illumination dataset conditioned by light direction, allowing us to augment a single-illumination capture into a realistic – but possibly inconsistent – multi-illumination dataset from directly defined light directions. We use this augmented data to create a relightable radiance field represented by 3D Gaussian splats. To allow direct control of light direction for low-frequency lighting, we represent appearance with a multi-layer perceptron parameterized on light direction. To enforce multi-view consistency and overcome inaccuracies we optimize a per-image auxiliary feature vector. We show results on synthetic and real multi-view data under single illumination, demonstrating that our method successfully exploits 2D diffusion model priors to allow realistic 3D relighting for complete scenes. Project site https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/  
2024-09-13 Latent Space Score-based Diffusion Model for Probabilistic Multivariate Time Series Imputation link Accurate imputation is essential for the reliability and success of downstream tasks. Recently, diffusion models have attracted great attention in this field. However, these models neglect the latent distribution in a lower-dimensional space derived from the observed data, which limits the generative capacity of the diffusion model. Additionally, dealing with the original missing data without labels becomes particularly problematic. To address these issues, we propose the Latent Space Score-Based Diffusion Model (LSSDM) for probabilistic multivariate time series imputation. Observed values are projected onto low-dimensional latent space and coarse values of the missing data are reconstructed without knowing their ground truth values by this unsupervised learning approach. Finally, the reconstructed values are fed into a conditional diffusion model to obtain the precise imputed values of the time series. In this way, LSSDM not only possesses the power to identify the latent distribution but also seamlessly integrates the diffusion model to obtain the high-fidelity imputed values and assess the uncertainty of the dataset. Experimental results demonstrate that LSSDM achieves superior imputation performance while also providing a better explanation and uncertainty analysis of the imputation mechanism. The website of the code is \textit{https://github.com/gorgen2020/LSSDM_imputation}.  
2024-09-13 Gaussian is All You Need: A Unified Framework for Solving Inverse Problems via Diffusion Posterior Sampling null Diffusion models can generate a variety of high-quality images by modeling complex data distributions. Trained diffusion models can also be very effective image priors for solving inverse problems. Most of the existing diffusion-based methods integrate data consistency steps within the diffusion reverse sampling process. The data consistency steps rely on an approximate likelihood function. In this paper, we show that the existing approximations are either insufficient or computationally inefficient. To address these issues, we propose a unified likelihood approximation method that incorporates a covariance correction term to enhance the performance and avoids propagating gradients through the diffusion model. The correction term, when integrated into the reverse diffusion sampling process, achieves better convergence towards the true data posterior for selected distributions and improves performance on real-world natural image datasets. Furthermore, we present an efficient way to factorize and invert the covariance matrix of the likelihood function for several inverse problems. We present comprehensive experiments to demonstrate the effectiveness of our method over several existing approaches.  
2024-09-13 Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control null Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there has not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.  
2024-09-13 InstantDrag: Improving Interactivity in Drag-based Image Editing null Drag-based image editing has recently gained popularity for its interactivity and precision. However, despite the ability of text-to-image models to generate samples within a second, drag editing still lags behind due to the challenge of accurately reflecting user interaction while maintaining image content. Some existing approaches rely on computationally intensive per-image optimization or intricate guidance-based methods, requiring additional inputs such as masks for movable regions and text prompts, thereby compromising the interactivity of the editing process. We introduce InstantDrag, an optimization-free pipeline that enhances interactivity and speed, requiring only an image and a drag instruction as input. InstantDrag consists of two carefully designed networks: a drag-conditioned optical flow generator (FlowGen) and an optical flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion dynamics for drag-based image editing in real-world video datasets by decomposing the task into motion generation and motion-conditioned image generation. We demonstrate InstantDrag’s capability to perform fast, photo-realistic edits without masks or text prompts through experiments on facial video datasets and general scenes. These results highlight the efficiency of our approach in handling drag-based image editing, making it a promising solution for interactive, real-time applications.  
2024-09-13 DX2CT: Diffusion Model for 3D CT Reconstruction from Bi or Mono-planar 2D X-ray(s) null Computational tomography (CT) provides high-resolution medical imaging, but it can expose patients to high radiation. X-ray scanners have low radiation exposure, but their resolutions are low. This paper proposes a new conditional diffusion model, DX2CT, that reconstructs three-dimensional (3D) CT volumes from bi or mono-planar X-ray image(s). Proposed DX2CT consists of two key components: 1) modulating feature maps extracted from two-dimensional (2D) X-ray(s) with 3D positions of CT volume using a new transformer and 2) effectively using the modulated 3D position-aware feature maps as conditions of DX2CT. In particular, the proposed transformer can provide conditions with rich information of a target CT slice to the conditional diffusion model, enabling high-quality CT reconstruction. Our experiments with the bi or mono-planar X-ray(s) benchmark datasets show that proposed DX2CT outperforms several state-of-the-art methods. Our codes and model will be available at: https://www.github.com/intyeger/DX2CT.  
2024-09-13 DFADD: The Diffusion and Flow-Matching Based Audio Deepfake Dataset link Mainstream zero-shot TTS production systems like Voicebox and Seed-TTS achieve human parity speech by leveraging Flow-matching and Diffusion models, respectively. Unfortunately, human-level audio synthesis leads to identity misuse and information security issues. Currently, many antispoofing models have been developed against deepfake audio. However, the efficacy of current state-of-the-art anti-spoofing models in countering audio synthesized by diffusion and flowmatching based TTS systems remains unknown. In this paper, we proposed the Diffusion and Flow-matching based Audio Deepfake (DFADD) dataset. The DFADD dataset collected the deepfake audio based on advanced diffusion and flowmatching TTS models. Additionally, we reveal that current anti-spoofing models lack sufficient robustness against highly human-like audio generated by diffusion and flow-matching TTS systems. The proposed DFADD dataset addresses this gap and provides a valuable resource for developing more resilient anti-spoofing models.  
2024-09-13 STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment null Visual and auditory perception are two crucial ways humans experience the world. Text-to-video generation has made remarkable progress over the past year, but the absence of harmonious audio in generated video limits its broader applications. In this paper, we propose Semantic and Temporal Aligned Video-to-Audio (STA-V2A), an approach that enhances audio generation from videos by extracting both local temporal and global semantic video features and combining these refined video features with text as cross-modal guidance. To address the issue of information redundancy in videos, we propose an onset prediction pretext task for local temporal feature extraction and an attentive pooling module for global semantic feature extraction. To supplement the insufficient semantic information in videos, we propose a Latent Diffusion Model with Text-to-Audio priors initialization and cross-modal guidance. We also introduce Audio-Audio Align, a new metric to assess audio-temporal alignment. Subjective and objective metrics demonstrate that our method surpasses existing Video-to-Audio models in generating audio with better quality, semantic consistency, and temporal alignment. The ablation experiment validated the effectiveness of each module. Audio samples are available at https://y-ren16.github.io/STAV2A.  
2024-09-13 LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling null Singing Voice Conversion (SVC) has emerged as a significant subfield of Voice Conversion (VC), enabling the transformation of one singer’s voice into another while preserving musical elements such as melody, rhythm, and timbre. Traditional SVC methods have limitations in terms of audio quality, data requirements, and computational complexity. In this paper, we propose LHQ-SVC, a lightweight, CPU-compatible model based on the SVC framework and diffusion model, designed to reduce model size and computational demand without sacrificing performance. We incorporate features to improve inference quality, and optimize for CPU execution by using performance tuning tools and parallel computing frameworks. Our experiments demonstrate that LHQ-SVC maintains competitive performance, with significant improvements in processing speed and efficiency across different devices. The results suggest that LHQ-SVC can meet  
2024-09-12 DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors null We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.  
2024-09-12 Hand-Object Interaction Pretraining from Videos null 我们提出了一种从 3D 手-物体交互轨迹中学习通用机器人操作先验的方法。我们构建了一个框架,利用野外视频生成感觉运动机器人轨迹。为此,我们将人手和被操纵物体提升到共享的 3D 空间中,并将人体动作重定向到机器人动作。对这些数据进行生成建模,我们得到了一个与任务无关的基础策略。该策略捕获了一个通用而灵活的操作先验。我们通过经验证明,使用强化学习 (RL) 和行为克隆 (BC) 对该策略进行微调,可以实现对下游任务的样本高效适应,同时与先前的方法相比,提高了鲁棒性和泛化能力。定性实验结果可见:\url{https://hgaurav2k.github.io/hop/}。  
2024-09-12 Click2Mask: Local Editing with Dynamic Mask Generation null 生成模型的最新进展彻底改变了图像生成和编辑领域,使非专业人士也能轻松完成这些任务。本文重点关注局部图像编辑,特别是向大致指定区域添加新内容的任务。现有方法通常需要精确的掩码或对位置的详细描述,这可能既麻烦又容易出错。我们提出了 Click2Mask,这是一种新颖的方法,它只需一个参考点(以及内容描述)即可简化局部编辑过程。在混合潜在扩散 (BLD) 过程中,掩码会围绕该点动态增长,并以基于 CLIP 的语义损失为指导。Click2Mask 超越了基于分割和依赖微调的方法的局限性,提供了一种对用户更友好且上下文更准确的解决方案。我们的实验表明,根据人类判断和自动指标,与 SoTA 方法相比,Click2Mask 不仅最大限度地减少了用户的工作量,而且还提供了具有竞争力或更优的局部图像处理结果。主要贡献包括简化用户输入、能够不受现有分割限制地自由添加对象,以及将我们的动态掩码方法集成到其他编辑方法中的潜力。  
2024-09-12 DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer null We present DreamBeast, a novel method based on score distillation sampling (SDS) for generating fantastical 3D animal assets composed of distinct parts. Existing SDS methods often struggle with this generation task due to a limited understanding of part-level semantics in text-to-image diffusion models. While recent diffusion models, such as Stable Diffusion 3, demonstrate a better part-level understanding, they are prohibitively slow and exhibit other common problems associated with single-view diffusion models. DreamBeast overcomes this limitation through a novel part-aware knowledge transfer mechanism. For each generated asset, we efficiently extract part-level knowledge from the Stable Diffusion 3 model into a 3D Part-Affinity implicit representation. This enables us to instantly generate Part-Affinity maps from arbitrary camera views, which we then use to modulate the guidance of a multi-view diffusion model during SDS to create 3D assets of fantastical animals. DreamBeast significantly enhances the quality of generated 3D creatures with user-specified part compositions while reducing computational overhead, as demonstrated by extensive quantitative and qualitative evaluations.  
2024-09-12 Touch2Touch: Cross-Modal Tactile Generation for Object Manipulation null 现今的触觉传感器形态各异,尺寸不一。由于模型通常与特定的传感器设计绑定,因此开发通用的触觉处理方法变得极具挑战性。我们通过在触觉传感器之间进行跨模态预测来解决这个问题:给定来自一个传感器的触觉信号,我们使用生成模型来估计另一个传感器如何感知相同的物理接触。这允许我们将特定于传感器的算法应用于生成的信号。我们通过训练一个扩散模型来实现这个想法,该模型可以在流行的 GelSlim 和 Soft Bubble 传感器之间进行转换。作为一个下游任务,我们使用 GelSlim 传感器执行手持物体姿态估计,同时使用仅对 Soft Bubble 信号进行操作的算法。数据集、代码和更多详细信息可以在 https://www.mmintlab.com/research/touch2touch/ 上找到。  
2024-09-12 Improving Text-guided Object Inpainting with Semantic Pre-inpainting link Recent years have witnessed the success of large text-to-image diffusion models and their remarkable potential to generate high-quality images. The further pursuit of enhancing the editability of images has sparked significant interest in the downstream task of inpainting a novel object described by a text prompt within a designated region in the image. Nevertheless, the problem is not trivial from two aspects: 1) Solely relying on one single U-Net to align text prompt and visual object across all the denoising timesteps is insufficient to generate desired objects; 2) The controllability of object generation is not guaranteed in the intricate sampling space of diffusion model. In this paper, we propose to decompose the typical single-stage object inpainting into two cascaded processes: 1) semantic pre-inpainting that infers the semantic features of desired objects in a multi-modal feature space; 2) high-fieldity object generation in diffusion latent space that pivots on such inpainted semantic features. To achieve this, we cascade a Transformer-based semantic inpainter and an object inpainting diffusion model, leading to a novel CAscaded Transformer-Diffusion (CAT-Diffusion) framework for text-guided object inpainting. Technically, the semantic inpainter is trained to predict the semantic features of the target object conditioning on unmasked context and text prompt. The outputs of the semantic inpainter then act as the informative visual prompts to guide high-fieldity object generation through a reference adapter layer, leading to controllable object inpainting. Extensive evaluations on OpenImages-V6 and MSCOCO validate the superiority of CAT-Diffusion against the state-of-the-art methods. Code is available at \url{https://github.com/Nnn-s/CATdiffusion}.  
2024-09-12 Improving Virtual Try-On with Garment-focused Diffusion Models null Diffusion models have led to the revolutionizing of generative modeling in numerous image synthesis tasks. Nevertheless, it is not trivial to directly apply diffusion models for synthesizing an image of a target person wearing a given in-shop garment, i.e., image-based virtual try-on (VTON) task. The difficulty originates from the aspect that the diffusion process should not only produce holistically high-fidelity photorealistic image of the target person, but also locally preserve every appearance and texture detail of the given garment. To address this, we shape a new Diffusion model, namely GarDiff, which triggers the garment-focused diffusion process with amplified guidance of both basic visual appearance and detailed textures (i.e., high-frequency details) derived from the given garment. GarDiff first remoulds a pre-trained latent diffusion model with additional appearance priors derived from the CLIP and VAE encodings of the reference garment. Meanwhile, a novel garment-focused adapter is integrated into the UNet of diffusion model, pursuing local fine-grained alignment with the visual appearance of reference garment and human pose. We specifically design an appearance loss over the synthesized garment to enhance the crucial, high-frequency details. Extensive experiments on VITON-HD and DressCode datasets demonstrate the superiority of our GarDiff when compared to state-of-the-art VTON approaches. Code is publicly available at: \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}.  
2024-09-12 LoRID: Low-Rank Iterative Diffusion for Adversarial Purification null This work presents an information-theoretic examination of diffusion-based purification methods, the state-of-the-art adversarial defenses that utilize diffusion models to remove malicious perturbations in adversarial examples. By theoretically characterizing the inherent purification errors associated with the Markov-based diffusion purifications, we introduce LoRID, a novel Low-Rank Iterative Diffusion purification method designed to remove adversarial perturbation with low intrinsic purification errors. LoRID centers around a multi-stage purification process that leverages multiple rounds of diffusion-denoising loops at the early time-steps of the diffusion models, and the integration of Tucker decomposition, an extension of matrix factorization, to remove adversarial noise at high-noise regimes. Consequently, LoRID increases the effective diffusion time-steps and overcomes strong adversarial attacks, achieving superior robustness performance in CIFAR-10/100, CelebA-HQ, and ImageNet datasets under both white-box and black-box settings.  
2024-09-12 Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding null Panoptic narrative grounding (PNG), whose core target is fine-grained image-text alignment, requires a panoptic segmentation of referred objects given a narrative caption. Previous discriminative methods achieve only weak or coarse-grained alignment by panoptic segmentation pretraining or CLIP model adaptation. Given the recent progress of text-to-image Diffusion models, several works have shown their capability to achieve fine-grained image-text alignment through cross-attention maps and improved general segmentation performance. However, the direct use of phrase features as static prompts to apply frozen Diffusion models to the PNG task still suffers from a large task gap and insufficient vision-language interaction, yielding inferior performance. Therefore, we propose an Extractive-Injective Phrase Adapter (EIPA) bypass within the Diffusion UNet to dynamically update phrase prompts with image features and inject the multimodal cues back, which leverages the fine-grained image-text alignment capability of Diffusion models more sufficiently. In addition, we also design a Multi-Level Mutual Aggregation (MLMA) module to reciprocally fuse multi-level image and phrase features for segmentation refinement. Extensive experiments on the PNG benchmark show that our method achieves new state-of-the-art performance.  
2024-09-12 IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation null While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models’ abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.  
2024-09-10 SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation null 近年来,扩散模型的发展推动了图像和视频生成任务的显著进步,其中像Stable Diffusion系列这样的预训练模型发挥了至关重要的作用。受模型剪枝技术的启发,该技术通过移除不重要的参数来减轻大型预训练模型的负担,我们提出了一种新颖的模型微调方法,可以充分利用这些无效参数,并使预训练模型具备新的任务特定能力。本研究首先调查了预训练扩散模型中参数的重要性,发现按绝对值计算,最小的10%到20%的参数对生成过程没有贡献。基于这一观察,我们提出了一种名为SaRA的方法,该方法重新利用这些暂时无效的参数,相当于优化一个稀疏权重矩阵来学习特定任务的知识。为了减轻过拟合,我们提出了一种基于核范数的低秩稀疏训练方案,以实现高效的微调。此外,我们设计了一种新的渐进式参数调整策略,以充分利用重新训练/微调的参数。最后,我们提出了一种新颖的非结构化反向传播策略,可显著降低微调过程中的内存成本。我们的方法增强了预训练模型在下游应用中的生成能力,并且在保持模型泛化能力方面优于LoRA等传统微调方法。我们通过在SD模型上的微调实验验证了我们的方法,结果表明SaRA取得了显著的改进。SaRA还具有一个实际优势,即只需修改一行代码即可实现高效实施,并且与现有方法无缝兼容。  
2024-09-10 MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification null 文本到3D内容生成领域在生成逼真的3D对象方面取得了重大进展,像分数蒸馏采样(SDS)这样的现有方法提供了有希望的指导。然而,由于指导不精确,这些方法经常遇到“两面神”问题——多面歧义。此外,虽然最近3D高斯分裂的进步已经显示出其在表示3D体积方面的功效,但这种表示的优化在很大程度上仍未得到探索。本文介绍了一个用于文本到3D内容生成的统一框架,以解决这些关键差距。我们的方法利用多视图指导迭代形成3D模型的结构,逐步增强细节和准确性。我们还引入了一种新的密集化算法,使高斯接近表面,优化生成模型的结构完整性和保真度。大量实验验证了我们的方法,表明它能够以最少的时间成本生成高质量的视觉输出。值得注意的是,我们的方法在半小时的训练时间内就能获得高质量的结果,与大多数需要数小时训练时间才能获得类似结果的现有方法相比,效率显著提高。  
2024-09-10 A Primer on Variational Inference for Physics-Informed Deep Generative Modelling null 变分推断(VI)是一种计算高效且可扩展的近似贝叶斯推断方法。它在不确定性量化的准确性和实际可处理性之间取得了平衡。由于其内置的贝叶斯正则化和灵活性,它在生成建模和反演任务中表现出色,这对于物理相关问题至关重要。推导 VI 的核心学习目标通常必须针对新的学习任务进行调整,其中问题的性质决定了感兴趣变量之间的条件依赖性,例如物理问题中出现的情况。在本文中,我们为正向和反向问题提供了 VI 的易于理解且全面的技术介绍,引导读者了解 VI 框架的标准推导及其如何通过深度学习得到最佳实现。然后,我们回顾并统一了最近的文献,这些文献例证了 VI 所允许的创造性灵活性。本文面向希望解决基于物理的问题并强调不确定性量化的一般科学受众。  
2024-09-10 From LIMA to DeepLIMA: following a new path of interoperability null 本文描述了 LIMA(Libre Multilingual Analyzer)框架的体系结构及其最新发展,其中新增了基于深度神经网络的文本分析模块。我们在保留现有可配置架构以及先前开发的基于规则和统计的分析组件的可用性的同时,扩展了 LIMA 在支持语言数量方面的功能。我们在 Universal Dependencies 2.5 语料库、WikiNer 语料库和 CoNLL-03 数据集上针对 60 多种语言训练了模型。Universal Dependencies 允许我们增加支持的语言数量,并生成可以集成到其他平台的模型。这种普遍存在的深度学习自然语言处理模型的集成以及使用 Universal Dependencies 的标准注释集合的使用可以被视为一种新的互操作性途径,通过模型和数据的规范化,与更标准的技术互操作性相辅相成,在 LIMA 中通过 Docker Hub 上 Docker 容器中可用的服务实现。  
2024-09-10 Enhancing Emotional Text-to-Speech Controllability with Natural Language Guidance through Contrastive Learning and Diffusion Models null 虽然当前的情感文本到语音(TTS)系统可以生成高度智能的情感语音,但在输出语音的情感渲染方面实现精细控制仍然是一项重大挑战。在本文中,我们介绍了 ParaEVITS,这是一种新颖的情感 TTS 框架,它利用自然语言的组合性来增强对情感渲染的控制。通过结合受 ParaCLAP(一种用于计算语用学的对比性语言-音频预训练(CLAP)模型)启发的文本-音频编码器,我们训练扩散模型以根据文本情感风格描述生成情感嵌入。我们的框架首先使用音频编码器在参考音频上进行训练,然后微调扩散模型以处理来自 ParaCLAP 文本编码器的文本输入。在推理过程中,仅使用文本条件就可以操纵音调、抖动和响度等语音属性。我们的实验表明,ParaEVITS 可以有效地控制情感渲染,而不会影响语音质量。语音演示公开可用。  
2024-09-10 Prompt2Fashion: An automatically generated fashion dataset link 尽管语言和视觉生成模型在快速发展且效率不断提高,但仍然缺乏将个性化时尚需求与人工智能驱动设计联系起来的综合数据集,这限制了真正包容和定制化时尚解决方案的潜力。在这项工作中,我们利用生成模型自动构建了一个时尚图像数据集,该数据集根据用户的指示针对不同的场合、风格和体型量身定制。我们使用不同的生成式预训练模型(LLM)和提示策略,为专家和非专家用户提供具有高质量审美、细节和相关性的个性化服装,并通过定性分析证明了这一点。到目前为止,生成的服装的评估一直由非专家的人类受试者进行。尽管对生成的质量和相关性提供了细致入微的见解,但我们就专家知识对于评估此类艺术性人工智能生成数据集的重要性展开了进一步的讨论。我们的数据集可在 GitHub 上公开获取,网址为 https://github.com/georgiarg/Prompt2Fashion。  
2024-09-10 Fast nonparametric inference of network backbones for graph sparsification link 网络骨干通过仅保留最重要的链接来提供加权网络的有用稀疏表示,从而实现一系列计算加速并简化复杂的网络可视化。判断链接是否重要的标准有很多,因此已经开发了许多用于图稀疏化网络骨干提取的方法。这些方法根据它们是在整个网络还是在单个节点邻域的上下文中评估边的重要性,可以分为全局或局部方法。现有网络骨干提取方法的一个关键限制是,它们要么人为地将骨干的拓扑结构限制为特定形式(例如树),要么需要指定一个自由参数(例如显著性水平)来确定骨干中要保留的边数。在这里,我们开发了一个完全非参数的框架来推断加权网络的骨干,该框架通过使用信息论中的最小描述长度(MDL)原则自动选择保留在骨干中的最佳边数来克服这些限制。我们开发了两种编码方案,作为全局和局部网络骨干的目标函数,以及有效的优化算法,以根据这些目标识别最佳骨干,其运行时复杂度在边数上是对数线性的。我们表明,所提出的框架可以使用最大后验(MAP)估计程序和渐近等效的贝叶斯骨干生成模型推广到边上的任何离散权重分布。我们在真实和合成网络上的一系列任务中将所提出的方法与现有方法进行了比较。  
2024-09-10 Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition null 由于分辨率下降会导致信息丰富的面部细节严重丢失,因此极低分辨率人脸识别极具挑战性。在本文中,我们提出了一种结合了生成表示和跨分辨率对齐知识蒸馏的生成-判别表示蒸馏方法。这种方法通过两个蒸馏模块联合蒸馏生成模型和判别模型,促进了极低分辨率人脸识别。首先,生成表示蒸馏将预先训练用于人脸超分辨率的扩散模型的编码器作为生成教师,通过特征回归来监督学生骨干网络的学习,然后冻结学生骨干网络。之后,判别表示蒸馏进一步考虑将预先训练好的人脸识别器作为判别教师,通过跨分辨率关系对比蒸馏来监督学生头部的学习。通过这种方式,可以将通用的骨干网络表示转换为判别头部表示,从而形成一个鲁棒的、具有判别力的学生模型,用于极低分辨率人脸识别。我们的方法改进了极低分辨率人脸中缺失细节的恢复,并实现了更好的知识迁移。在人脸数据集上的大量实验表明,我们的方法提高了极低分辨率人脸的识别精度,展示了其有效性和适应性。  
2024-09-10 What happens to diffusion model likelihood when your model is conditional? null Diffusion Models (DMs) iteratively denoise random samples to produce high-quality data. The iterative sampling process is derived from Stochastic Differential Equations (SDEs), allowing a speed-quality trade-off chosen at inference. Another advantage of sampling with differential equations is exact likelihood computation. These likelihoods have been used to rank unconditional DMs and for out-of-domain classification. Despite the many existing and possible uses of DM likelihoods, the distinct properties captured are unknown, especially in conditional contexts such as Text-To-Image (TTI) or Text-To-Speech synthesis (TTS). Surprisingly, we find that TTS DM likelihoods are agnostic to the text input. TTI likelihood is more expressive but cannot discern confounding prompts. Our results show that applying DMs to conditional tasks reveals inconsistencies and strengthens claims that the properties of DM likelihood are unknown. This impact sheds light on the previously unknown nature of DM likelihoods. Although conditional DMs maximise likelihood, the likelihood in question is not as sensitive to the conditioning input as one expects. This investigation provides a new point-of-view on diffusion likelihoods.  
2024-09-10 DiffQRCoder: Diffusion-based Aesthetic QR Code Generation with Scanning Robustness Guided Iterative Refinement null With the success of Diffusion Models for image generation, the technologies also have revolutionized the aesthetic Quick Response (QR) code generation. Despite significant improvements in visual attractiveness for the beautified codes, their scannabilities are usually sacrificed and thus hinder their practical uses in real-world scenarios. To address this issue, we propose a novel Diffusion-based QR Code generator (DiffQRCoder) to effectively craft both scannable and visually pleasing QR codes. The proposed approach introduces Scanning-Robust Perceptual Guidance (SRPG), a new diffusion guidance for Diffusion Models to guarantee the generated aesthetic codes to obey the ground-truth QR codes while maintaining their attractiveness during the denoising process. Additionally, we present another post-processing technique, Scanning Robust Manifold Projected Gradient Descent (SR-MPGD), to further enhance their scanning robustness through iterative latent space optimization. With extensive experiments, the results demonstrate that our approach not only outperforms other compared methods in Scanning Success Rate (SSR) with better or comparable CLIP aesthetic score (CLIP-aes.) but also significantly improves the SSR of the ControlNet-only approach from 60% to 99%. The subjective evaluation indicates that our approach achieves promising visual attractiveness to users as well. Finally, even with different scanning angles and the most rigorous error tolerance settings, our approach robustly achieves over 95% SSR, demonstrating its capability for real-world applications.  
2024-09-09 Enhancing Preference-based Linear Bandits via Human Response Time null Binary human choice feedback is widely used in interactive preference learning for its simplicity, but it provides limited information about preference strength. To overcome this limitation, we leverage human response times, which inversely correlate with preference strength, as complementary information. Our work integrates the EZ-diffusion model, which jointly models human choices and response times, into preference-based linear bandits. We introduce a computationally efficient utility estimator that reformulates the utility estimation problem using both choices and response times as a linear regression problem. Theoretical and empirical comparisons with traditional choice-only estimators reveal that for queries with strong preferences (“easy” queries), choices alone provide limited information, while response times offer valuable complementary information about preference strength. As a result, incorporating response times makes easy queries more useful. We demonstrate this advantage in the fixed-budget best-arm identification problem, with simulations based on three real-world datasets, consistently showing accelerated learning when response times are incorporated.  
2024-09-09 Predicting Critical Heat Flux with Uncertainty Quantification and Domain Generalization Using Conditional Variational Autoencoders and Deep Neural Networks null Deep generative models (DGMs) have proven to be powerful in generating realistic data samples. Their capability to learn the underlying distribution of a dataset enable them to generate synthetic data samples that closely resemble the original training dataset, thus addressing the challenge of data scarcity. In this work, we investigated the capabilities of DGMs by developing a conditional variational autoencoder (CVAE) model to augment the critical heat flux (CHF) measurement data that was used to generate the 2006 Groeneveld lookup table. To determine how this approach compared to traditional methods, a fine-tuned deep neural network (DNN) regression model was created and evaluated with the same dataset. Both the CVAE and DNN models achieved small mean absolute relative errors, with the CVAE model maintaining more favorable results. To quantify the uncertainty in the model’s predictions, uncertainty quantification (UQ) was performed with repeated sampling of the CVAE model and ensembling of the DNN model. Following UQ, the DNN ensemble notably improved performance when compared to the baseline DNN model, while the CVAE model achieved similar results to its non-UQ results. The CVAE model was shown to have significantly less variability and a higher confidence after assessment of the prediction-wise relative standard deviations. Evaluating domain generalization, both models achieved small mean error values when predicting both inside and outside the training domain, with predictions outside the training domain showing slightly larger errors. Overall, the CVAE model was comparable to the DNN regression model in predicting CHF values but with better uncertainty behavior.  
2024-09-09 Vector Quantized Diffusion Model Based Speech Bandwidth Extension null 神经音频编解码器 (NAC) 的最新进展为音频信号处理解锁了新的潜力。越来越多的研究探索利用 NAC 的潜在特征来完成各种语音信号处理任务。本文介绍了第一种利用从 NAC 获得的离散特征进行语音带宽扩展 (BWE) 的方法。通过恢复高度压缩的离散标记中的高频细节,该方法增强了语音的清晰度和自然度。所提出的框架基于矢量量化扩散,结合了先进 NAC、扩散模型和 Mamba-2 的优势,以重建高频语音成分。大量实验表明,该方法在对数谱距离和 ViSQOL 方面均表现出优异的性能,显着提高了语音质量。  
2024-09-09 AS-Speech: Adaptive Style For Speech Synthesis null 近年来,文本到语音(TTS)合成技术取得了显著进展,能够在常见场景下合成高质量的语音。在未知情况下,自适应TTS需要强大的泛化能力来适应说话人的风格特征。然而,现有的自适应方法只能分别提取和整合粗粒度的音色或混合的韵律属性。在本文中,我们提出了AS-Speech,一种将说话人音色特征和韵律属性整合到一个统一框架中的自适应风格方法,用于文本到语音合成。具体来说,AS-Speech可以通过细粒度的基于文本的音色特征和全局韵律信息准确地模拟风格特征,并通过扩散模型实现高保真语音合成。实验表明,与一系列自适应TTS模型相比,该模型生成的语音在音色和韵律方面具有更高的自然度和相似性。  
2024-09-09 pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning null 联邦学习 (FL) 是一种去中心化的模型训练方法,数据保留在本地,只有模型参数在客户端和中心服务器之间共享。传统的联邦平均 (FedAvg) 等方法对这些通常在异构数据分布上训练的参数进行线性聚合,这可能忽略了参数空间复杂、高维的性质,导致聚合模型的性能下降。虽然个性化联邦学习方法可以在一定程度上缓解异构数据问题,但线性聚合的局限性仍然没有解决。为了缓解这个问题,我们研究了扩散模型的生成方法,并提出了一种新的个性化联邦学习生成参数聚合框架,即 pFedGPA。在这个框架中,我们在服务器上部署了一个扩散模型,以整合不同的参数分布,并提出了一种参数反演方法,为每个客户端有效地生成一组个性化参数。这种反演方法将上传的参数转换为一个潜在代码,然后通过去噪采样进行聚合,生成最终的个性化参数。通过使用高容量扩散模型对客户端模型参数对其特定数据分布的依赖性进行编码,pFedGPA 可以有效地将所有客户端模型参数的总体分布的复杂性与每个客户端参数分布的复杂性解耦。我们的实验结果一致地证明了所提出的方法在多个数据集上的优越性能,超过了基线方法。  
2024-09-09 Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models null 近期的研究已经看到人们对扩散模型中概念去除和目标遗忘方法的浓厚兴趣。在本文中,我们对现有的扩散模型遗忘方法进行了全面的白盒分析,以揭示其存在的重大漏洞。我们发现,现有方法中用于遗忘的目标函数导致了要遗忘的目标概念与相应提示之间的解耦。这是一种隐蔽行为,而不是真正的遗忘,而真正的遗忘才是最初的目标。当前方法的无效性主要源于它们只关注降低特定提示集的生成概率,而忽略了推理过程中使用的中间引导的多种形式。本文对四种常用的扩散模型遗忘技术进行了严格的理论和实证检验。我们引入了两个新的评估指标:概念检索分数(CRS)和概念置信度分数(CCS)。这些指标基于一个成功的对抗攻击设置,可以从遗忘的扩散模型中恢复被遗忘的概念。CRS 衡量的是遗忘后的遗忘模型和完全训练模型的潜在表示之间的相似性。它反映了随着引导量增加,被遗忘概念的检索程度。CCS 量化了模型将目标概念分配给被操纵数据的置信度。它反映了随着引导量增加,未遗忘模型的生成结果与原始领域知识一致的概率。我们使用提出的针对扩散模型的严格指标对现有的遗忘方法进行评估,结果揭示了它们在真正遗忘概念方面的重大缺陷。源代码:https://respailab.github.io/unlearning-or-concealment  
2024-09-09 Forward KL Regularized Preference Optimization for Aligning Diffusion Policies null 扩散模型通过在策略学习中利用高度表达的模型能力,在序列决策中取得了显著的成功。学习扩散策略的一个核心问题是如何在各种任务中使策略输出与人类意图保持一致。为了实现这一点,先前的方法进行了回报条件策略生成或基于强化学习(RL)的策略优化,但它们都依赖于预先定义的奖励函数。在这项工作中,我们提出了一种新的框架,即用于对齐扩散策略的前向 KL 正则化偏好优化,以直接将扩散策略与偏好对齐。我们首先从离线数据集中训练一个不考虑偏好的扩散策略,然后通过直接偏好优化将该策略与偏好数据对齐。在对齐阶段,我们在扩散策略中制定了直接偏好学习,其中在前向偏好优化中采用了 KL 正则化,以避免生成分布外动作。我们对 MetaWorld 操作和 D4RL 任务进行了广泛的实验。结果表明,我们的方法在偏好一致性方面表现出色,并且优于先前最先进的算法。  
2024-09-09 Latent 3D Brain MRI Counterfactual null 结构性脑部MRI研究中的样本数量通常过小,无法充分训练深度学习模型。生成模型通过有效学习数据分布和生成高保真MRI,为解决这一问题带来了希望。然而,它们难以生成训练数据分布之外的多样化、高质量数据。解决这一问题的一种方法是使用针对3D体积反事实开发的因果模型。然而,在高维空间中准确建模因果关系是一项挑战,因此这些模型通常生成质量较低的3D脑部MRI。为了应对这些挑战,我们提出了一种两阶段方法,在潜在空间内构建结构因果模型(SCM)。在第一阶段,我们采用VQ-VAE学习MRI体积的紧凑嵌入。随后,我们将因果模型整合到这个潜在空间中,并使用封闭形式的广义线性模型(GLM)执行三步反事实程序。我们对真实世界的高分辨率MRI数据(1mm)进行的实验表明,我们的方法可以生成高质量的3D MRI反事实。  
2024-09-09 Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation link 具身人工智能旨在开发能够理解和执行人类语言指令并以自然语言进行交流的机器人。为此,我们研究了生成高度详细的导航指令以供具身机器人遵循的任务。尽管最近的研究表明,从图像序列生成逐步指令方面取得了重大进展,但生成的指令在指称物体和地标方面缺乏多样性。现有的说话者模型学习了一些策略来规避评估指标,即使对于低质量的句子也能获得更高的分数。在这项工作中,我们提出了SAS(空间感知说话者),这是一种指令生成器或“说话者”模型,它利用环境的结构和语义知识来生成更丰富的指令。为了进行训练,我们在对抗性设置中采用了奖励学习方法,以避免语言评估指标引入的系统性偏差。根据经验,我们的方法优于现有的指令生成模型,并使用标准指标进行了评估。我们的代码可在以下网址获得:https://github.com/gmuraleekrishna/SAS。  
2024-09-09 A Taxonomy of Miscompressions: Preparing Image Forensics for Neural Compression null 神经压缩有可能彻底改变有损图像压缩技术。基于生成模型,最近的方案在高感知质量下实现了前所未有的压缩率,但牺牲了语义保真度。解压缩图像的细节可能看起来在视觉上是完美的,但在语义上与原始图像不同,这使得压缩错误难以或不可能被检测到。我们探索了这个问题的空间,并提出了一个暂定的错误压缩分类法。它定义了三种类型的“发生了什么”,并有一个二进制的“高影响”标志,表示改变符号的错误压缩。我们讨论了该分类法如何促进风险沟通和缓解措施的研究。  
2024-09-05 Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding link 复杂三维场景理解近年来备受关注,场景编码策略在其中发挥着至关重要的作用。然而,针对不同场景的最佳场景编码策略仍不明确,特别是与基于图像的编码策略相比。为了解决这个问题,我们对用于三维场景理解的各种视觉编码模型进行了全面研究,确定了每个模型在不同场景下的优势和局限性。我们的评估涵盖了七种视觉基础编码器,包括基于图像、基于视频和三维基础模型。我们在四个任务中评估这些模型:视觉语言场景推理、视觉定位、分割和配准,每个任务都侧重于场景理解的不同方面。我们的评估得出了以下主要发现:DINOv2 表现出优越的性能,视频模型在对象级任务中表现出色,扩散模型有利于几何任务,而语言预训练模型在语言相关任务中表现出意想不到的局限性。这些见解挑战了一些传统认知,为利用视觉基础模型提供了新的视角,并强调了在未来的视觉语言和场景理解任务中需要更灵活的编码器选择。  
2024-09-05 ArtiFade: Learning to Generate High-quality Subject from Blemished Images null 以主题为主导的文本到图像生成技术在学习和捕捉主题特征方面取得了显著进步,即使只使用有限数量的图像。然而,现有方法通常依赖于高质量的图像进行训练,当输入图像存在瑕疵时,可能难以生成合理的图像。这主要归因于当前技术在区分主题相关特征和干扰性瑕疵方面的能力不足。在本文中,我们引入了ArtiFade来解决这个问题,并成功地从有瑕疵的数据集中生成了高质量的无瑕疵图像。具体来说,ArtiFade利用预先训练的文本到图像模型的微调来消除瑕疵。通过在微调过程中使用包含无瑕疵图像及其对应的有瑕疵图像的专门数据集来实现瑕疵的消除。ArtiFade还确保了保留扩散模型中固有的原始生成能力,从而提高了主题驱动方法在生成高质量和无瑕疵图像方面的整体性能。我们进一步为这项任务设计了评估基准。通过广泛的定性和定量实验,我们证明了ArtiFade在分布内和分布外情况下都能有效去除瑕疵的泛化能力。  
2024-09-05 RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images link 近年来,扩散模型彻底改变了视觉生成领域,其性能超越了生成对抗网络 (GANs) 等传统框架。然而,由于人类及其语义部分(如手和脸)复杂的结构,生成具有真实感的人类图像仍然是一项重大挑战。为了解决这个问题,我们提出了一种名为 RealisHuman 的新型后处理解决方案。RealisHuman 框架分两个阶段运行。首先,它使用原始的畸形部分作为参考,生成逼真的人体部位(如手或脸),确保细节与原始图像一致。其次,它通过重新绘制周围区域将校正后的人体部位无缝地融入到其对应的位置,以确保平滑逼真的融合。RealisHuman 框架显著增强了人类生成的真实感,这可以通过定性和定量指标的显著改进得到证明。代码可在 https://github.com/Wangbenzhi/RealisHuman 获取。  
2024-09-05 DiffEVC: Any-to-Any Emotion Voice Conversion with Expressive Guidance null 情感语音转换 (EVC) 通过放大积极线索和减少消极线索来改变语音情感,从而增强沟通。这项复杂的任务涉及语音质量、说话者特征和内容等纠缠不清的因素。传统的深度学习模型(如 GAN 和自动编码器)通过学习映射或解耦特征在 EVC 中取得了一定的成功,但面临着不稳定性和语音质量下降等挑战。扩散模型提供了稳定的训练和高质量的生成。我们提出了一个基于扩散的 EVC 框架,该框架使用互信息损失和辅助模型来解耦情感和说话者身份。引入了一种表达性引导机制,以改善情感转换,同时保持说话者特征。实验结果表明,我们的方法对于未知说话者和情感的有效性,在 EVC 任务中实现了最先进的性能。  
2024-09-05 TCDiff: Triple Condition Diffusion Model with 3D Constraints for Stylizing Synthetic Faces link 一个鲁棒的人脸识别模型需要使用包含大量个体以及每个个体在不同条件(例如姿态、表情、年龄、噪声和遮挡)下的大量样本的数据集进行训练。由于伦理和隐私问题,大型真实人脸数据集(例如 MS1MV3)已被停用,并且已经提出了利用 GAN 和扩散模型的合成人脸生成器,例如 SYNFace、SFace、DigiFace-1M、IDiff-Face、DCFace 和 GANDiffFace,旨在满足这一需求。其中一些方法可以生成高保真度的真实人脸,但类内差异较低,而另一些方法则生成具有高差异性但身份一致性较低的人脸。在本文中,我们提出了一种三重条件扩散模型(TCDiff),通过 2D 和 3D 人脸约束来改进从真实人脸到合成人脸的人脸风格迁移,在保持必要的类内高差异性的同时增强人脸身份一致性。使用我们新的数据集的 1k、2k 和 5k 类进行训练的人脸识别实验在 LFW、CFP-FP、AgeDB 和 BUPT 等真实人脸基准测试中优于最先进的合成数据集。我们的源代码可在以下网址获得:https://github.com/BOVIFOCR/tcdiff。  
2024-09-05 DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture null 扩散模型 (DM) 在各个领域都表现出卓越的生成能力,但其部署过程中的推理速度慢和计算需求高却阻碍了其发展。加速DM最常用的方法是减少生成过程中的去噪步骤,这可以通过更快的采样求解器或知识蒸馏 (KD) 来实现。与先前的方法不同,我们提出了一种新方法,可以将大型预训练DM的功能迁移到更快的架构中。具体来说,我们以独特的方式使用KD,通过将生成能力提炼到更快的变体中来压缩DM。此外,考虑到源数据不可访问或对于当前的生成模型来说存储量太大,我们引入了一种新的无源数据蒸馏范式,称为扩散模型的无数据知识蒸馏 (DKDM)。通常,我们建立的DKDM框架包含两个主要组件:1) DKDM目标函数,它使用预训练DM生成的合成去噪数据来优化更快的DM,而无需源数据;2) 动态迭代蒸馏方法,它可以灵活地组织去噪数据的合成,防止由于生成速度慢而减慢优化过程。据我们所知,这是首次尝试使用KD以无数据的方式将DM提炼到任何架构中。重要的是,我们的DKDM与大多数现有的加速方法(例如减少去噪步骤、量化和剪枝)是正交的。实验表明,我们的DKDM能够推导出速度提高2倍的DM,其性能与基线保持一致。值得注意的是,我们的DKDM使预训练的DM能够作为“数据集”来训练新的DM。  
2024-09-05 Blended Latent Diffusion under Attention Control for Real-World Video Editing null 由于缺乏完全公开可用的文本到视频模型,目前的视频编辑方法倾向于建立在预训练的文本到图像生成模型之上,然而,在处理具有时间信息的视频局部编辑方面,它们仍然面临着巨大的挑战。首先,尽管现有方法试图通过预先定义的掩码来关注局部区域编辑,但由于每一帧的空间整体生成,外部区域背景的保留并不理想。此外,由用户专门提供掩码是一项额外的昂贵工作,因此需要一种集成到编辑过程中的自主掩码策略。最后但同样重要的是,图像级预训练模型没有学习视频帧之间的时间信息,而这对于表达运动和动态至关重要。在本文中,我们建议采用图像级混合潜在扩散模型来执行局部视频编辑任务。具体来说,我们利用 DDIM 反演来获取潜在向量作为背景潜在向量,而不是随机噪声的潜在向量,以更好地保留输入视频的背景信息。我们进一步介绍了一种从扩散步骤中的交叉注意图衍生的自主掩码制造机制。最后,我们通过将 U-Net 的自注意力块转换为时空块来增强视频帧之间的时间一致性。通过大量的实验,我们提出的方法在不同的现实世界视频编辑任务中表现出有效性。  
2024-09-05 Data-free Distillation with Degradation-prompt Diffusion for Multi-weather Image Restoration null 多天气图像复原取得了令人瞩目的进展,但模型容量的增加和昂贵的数据获取限制了其在内存有限设备上的应用。无数据蒸馏提供了一种替代方案,允许从预训练的教师模型中学习轻量级学生模型,而无需依赖原始训练数据。现有的无数据学习方法主要利用GAN生成的伪数据或从互联网收集的真实数据来优化模型。然而,它们不可避免地会遇到训练不稳定或与原始数据存在域偏移的问题。在本文中,我们提出了一种新的基于退化提示扩散的无数据蒸馏多天气图像复原框架(D4IR)。它用预训练的扩散模型代替GAN以避免模型崩溃,并结合了退化感知提示适配器,以促进内容驱动的条件扩散,从而生成与域相关的图像。具体来说,首先设计了一种基于对比的退化提示适配器,用于从网络收集的退化图像中捕获退化感知提示。然后,将收集到的未配对的干净图像扰动到稳定扩散的潜在特征中,并以退化感知提示为条件,合成新的域相关退化图像,用于知识蒸馏。实验表明,我们的方法取得了与使用原始训练数据蒸馏的模型相当的性能,甚至优于其他主流的无监督方法。  
2024-09-05 Convergence Rates for the Maximum A Posteriori Estimator in PDE-Regression Models with Random Design null 我们考虑从高斯回归问题 $Y = \mathscr{G}(\theta)(Z)+\varepsilon$产生的数据中恢复参数$\theta\in H^\alpha$的统计逆问题,其中$\mathscr{G}:\mathbb{L}^2\to\mathbb{L}^2$是非线性正向映射,$Z$是随机设计点,$\varepsilon$是高斯噪声。估计策略基于$\Vert\cdot\Vert_{H^\alpha}$-约束下的最小二乘法。我们在正向映射$\mathscr{G}$满足Lipschitz类型假设的情况下,建立了最小二乘估计量$\hat{\theta}$作为给定泛函的最大值的存在性。证明了一个一般的浓度结果,并用它来证明预测误差的一致性和上界。相应的收敛速度不仅反映了目标参数的平滑性,还反映了潜在逆问题的适定性。我们将一般模型应用于达西问题,其中PDE的未知系数函数$f$ 的恢复是令人感兴趣的。对于这个例子,我们还提供了预测误差和估计误差的相应收敛速度。此外,我们还简要讨论了该一般模型对其他问题的适用性。  
2024-09-05 RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning null 扩大机器人学习规模需要庞大而多样化的数据集,如何有效地重复使用收集到的数据并将策略迁移到新的机器人平台仍然是一个悬而未决的问题。诸如Open-X Embodiment (OXE) 项目等新兴研究已经表明,通过组合包含不同机器人的数据集来利用技能是有希望的。然而,许多数据集中机器人类型和相机角度分布的不平衡使得策略容易过拟合。为了缓解这个问题,我们提出了RoVi-Aug,它利用最先进的图像到图像生成模型,通过合成具有不同机器人和相机视角的演示来增强机器人数据。通过广泛的物理实验,我们证明了通过在机器人和视点增强数据上进行训练,RoVi-Aug 可以在具有显著不同相机角度的未知机器人上进行零样本部署。与 Mirage 等测试时自适应算法相比,RoVi-Aug 在测试时不需要额外的处理,不假设已知相机角度,并且允许策略微调。此外,通过在原始机器人数据集和增强机器人数据集上进行联合训练,RoVi-Aug 可以学习多机器人和多任务策略,从而实现机器人和技能之间更有效的迁移,并将成功率提高高达 30%。  
2024-09-04 HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts link 利用预训练扩散模型生成更高分辨率图像的潜力巨大,但这些模型在处理物体重复和结构伪影方面常常遇到困难,尤其是在扩展到 4K 及更高分辨率时。我们发现问题在于,单个提示生成多个尺度的方式效率低下。为此,我们提出了 HiPrompt,这是一种无须微调的新解决方案,它通过引入分层提示来解决上述问题。分层提示提供全局和局部指导。具体来说,全局指导来自描述整体内容的用户输入,而局部指导则利用来自 MLLM 的逐块描述来精心指导局部结构和纹理的生成。此外,在逆向去噪过程中,生成的噪声被分解为低频和高频空间分量。这些分量以多个提示级别为条件,包括详细的逐块描述和更广泛的图像级提示,从而促进在分层语义指导下的提示引导去噪。它进一步允许生成过程更多地关注局部空间区域,并确保生成的图像在高清晰度下保持一致的局部和全局语义、结构和纹理。大量实验表明,HiPrompt 在高分辨率图像生成方面优于现有技术,显著减少了物体重复并提高了结构质量。  
2024-09-04 Latent Watermarking of Audio Generative Models null 音频生成模型的进步给其负责任的披露和滥用检测带来了新的挑战。为了应对这些挑战,我们介绍了一种通过对其训练数据进行特定水印来标记潜在生成模型的方法。由此产生的水印模型生成的潜在表示,其解码输出可以被高置信度地检测到,而无论使用何种解码方法。这种方法无需进行事后水印步骤即可检测生成的内容。它为开源模型提供了更安全的解决方案,并有助于识别那些在未遵守许可条款的情况下对这些模型进行微调或使用的衍生作品。例如,我们的结果表明,即使在对潜在生成模型进行微调后,生成输出的检测精度也能在假阳性率为 $10^{-3}$ 的情况下达到 75% 以上。  
2024-09-04 Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling null 掩码扩散模型 (MDM) 由于其相较于其他离散扩散模型的优越性能,已成为离散数据生成建模的热门研究课题,并在语言建模任务中与自回归模型 (ARM) 展开竞争。最近简化掩码扩散框架的努力进一步使其与连续空间扩散模型保持一致,并获得了更有原则的训练和采样方法。然而,在本文中,我们揭示了 MDM 的训练和采样在理论上都可以摆脱时间变量(可以说是扩散模型的关键特征),并且等效于掩码模型。我们在采样方面的联系是通过我们提出的首次命中采样器 (FHS) 建立的。具体来说,我们证明了 FHS 在理论上等效于 MDM 的原始生成过程,同时显著减少了耗时的分类采样,并实现了 20 倍的加速。此外,我们的研究对先前关于 MDM 在生成困惑度方面可以超越 ARM 的说法提出了质疑。我们首次发现了一个潜在的数值问题,即使使用 32 位浮点精度,也会导致不准确的分类采样。我们表明,该数值问题在理论上和经验上都降低了有效温度,导致先前文献中对 MDM 生成结果的评估不公平。  
2024-09-04 Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models link 从单张RGB图像生成逼真3D人体是计算机视觉中一项具有挑战性的任务,因为它需要精确的几何建模、高质量的纹理和合理的不可见部分生成。现有方法通常使用多视角扩散模型进行3D人体生成,但它们经常面临视角不一致的问题,这阻碍了高质量3D人体的生成。为了解决这个问题,我们提出了Human-VDM,一种使用视频扩散模型从单张RGB图像生成3D人体的新方法。Human-VDM使用高斯渲染为3D人体生成提供了时间上一致的视图。它由三个模块组成:视图一致的人体视频扩散模块、视频增强模块和高斯渲染模块。首先,将单张图像输入人体视频扩散模块以生成连贯的人体视频。接下来,视频增强模块应用超分辨率和视频插值来增强生成视频的纹理和几何平滑度。最后,3D人体高斯渲染模块在这些高分辨率和视角一致的图像的指导下学习逼真的人体。实验表明,Human-VDM可以从单张图像生成高质量的3D人体,在生成质量和数量方面均优于现有最佳方法。项目页面:https://human-vdm.github.io/Human-VDM/  
2024-09-04 Multi-Track MusicLDM: Towards Versatile Music Generation with Latent Diffusion Model null 扩散模型在涉及音频和音乐的跨模态生成任务中展现出巨大的潜力,例如文本到声音和文本到音乐的生成。这些文本控制的音乐生成模型通常侧重于通过捕捉全局音乐属性(如流派和情绪)来生成音乐。然而,音乐创作是一项复杂的多层次任务,通常将音乐编排作为创作过程的一个组成部分。此过程涉及创作每个乐器部分,使其在节奏、力度、和声和旋律方面与现有部分保持一致,这需要比文本提示通常提供的更精确的音轨控制。在这项工作中,我们通过将 MusicLDM(一种用于音乐的潜在扩散模型)扩展为多轨生成模型来应对这些挑战。通过学习共享上下文的音轨的联合概率,我们的模型能够跨多个音轨生成彼此良好对应的音乐,无论是有条件地还是无条件地。此外,我们的模型还能够进行编曲生成,其中模型可以在给定其他音轨的情况下生成任何音轨子集(例如,生成与给定贝斯和鼓音轨互补的钢琴音轨)。我们将我们的模型与现有的多轨生成模型进行了比较,结果表明,我们的模型在总生成任务和编曲生成任务的客观指标上都取得了相当大的改进。  
2024-09-04 Rethinking HTG Evaluation: Bridging Generation and Recognition link 生成模型在自然图像任务中的评估已得到广泛研究。即使在诸如手写生成(HTG)等具有独特特殊性的情况下,也使用了类似的协议和指标,即使它们可能并非完全合适。在这项工作中,我们介绍了三种专为 HTG 评估量身定制的度量指标: $\text{HTG}{\text{HTR}} $、$ \text{HTG}{\text{style}} $ 和 $ \text{HTG}_{\text{OOV}}$ ,并认为它们更便于评估生成手写图像的质量。这些指标依赖于手写文本识别和书写者识别模型的识别错误/准确率,并强调书写风格、文本内容和多样性是符合手写图像内容的主要方面。我们在 IAM 手写数据库上进行了全面的实验,结果表明,诸如 FID 之类的广泛使用的指标无法正确量化生成手写样本的多样性和实用性。我们的研究结果表明,我们的指标信息更丰富,并强调了 HTG 中标准化评估协议的必要性。所提出的指标为评估 HTG 质量提供了更稳健、信息更丰富的协议,有助于提高 HTR 的性能。评估协议的代码可在以下网址获得:https://github.com/koninik/HTG_evaluation。  
2024-09-04 Introduction to Machine Learning null 本书介绍了机器学习中许多算法的开发和分析所依赖的数学基础和技术。本书首先介绍了贯穿全书的符号表示,并回顾了微积分、线性代数和概率论的基本概念,还介绍了一些测度论术语,可作为使用这些工具的部分的阅读指南。导论章节还提供了矩阵分析和优化的背景知识。后面的章节为本书中使用的许多算法提供了理论支持,包括随机梯度下降、近似方法等。在讨论了统计预测的基本概念之后,本书介绍了再生核理论和希尔伯特空间技术,这些技术在许多地方都有应用,然后介绍了各种监督统计学习算法,包括线性方法、支持向量机、决策树、boosting和神经网络。接下来转向生成方法,首先介绍了采样方法和马尔可夫链理论。接下来的章节描述了图模型理论,介绍了潜变量模型的变分方法,以及基于深度学习的生成模型。接下来的章节重点介绍无监督学习方法,包括聚类、因子分析和流形学习。本书的最后一章偏向理论,讨论了集中不等式和泛化界。  
2024-09-04 Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection null The proliferation of deepfake faces poses huge potential negative impacts on our daily lives. Despite substantial advancements in deepfake detection over these years, the generalizability of existing methods against forgeries from unseen datasets or created by emerging generative models remains constrained. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach that repurposes a well-trained VLM for general deepfake detection. Motivated by the model reprogramming paradigm that manipulates the model prediction via data perturbations, our method can reprogram a pretrained VLM model (e.g., CLIP) solely based on manipulating its input without tuning the inner parameters. Furthermore, we insert a pseudo-word guided by facial identity into the text prompt. Extensive experiments on several popular benchmarks demonstrate that (1) the cross-dataset and cross-manipulation performances of deepfake detection can be significantly and consistently improved (e.g., over 88% AUC in cross-dataset setting from FF++ to WildDeepfake) using a pre-trained CLIP model with our proposed reprogramming method; (2) our superior performances are at less cost of trainable parameters, making it a promising approach for real-world applications.  
2024-09-04 PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation null While previous audio-driven talking head generation (THG) methods generate head poses from driving audio, the generated poses or lips cannot match the audio well or are not editable. In this study, we propose \textbf{PoseTalk}, a THG system that can freely generate lip-synchronized talking head videos with free head poses conditioned on text prompts and audio. The core insight of our method is using head pose to connect visual, linguistic, and audio signals. First, we propose to generate poses from both audio and text prompts, where the audio offers short-term variations and rhythm correspondence of the head movements and the text prompts describe the long-term semantics of head motions. To achieve this goal, we devise a Pose Latent Diffusion (PLD) model to generate motion latent from text prompts and audio cues in a pose latent space. Second, we observe a loss-imbalance problem: the loss for the lip region contributes less than 4\% of the total reconstruction loss caused by both pose and lip, making optimization lean towards head movements rather than lip shapes. To address this issue, we propose a refinement-based learning strategy to synthesize natural talking videos using two cascaded networks, i.e., CoarseNet, and RefineNet. The CoarseNet estimates coarse motions to produce animated images in novel poses and the RefineNet focuses on learning finer lip motions by progressively estimating lip motions from low-to-high resolutions, yielding improved lip-synchronization performance. Experiments demonstrate our pose prediction strategy achieves better pose diversity and realness compared to text-only or audio-only, and our video generator model outperforms state-of-the-art methods in synthesizing talking videos with natural head motions. Project: https://junleen.github.io/projects/posetalk.  
2024-09-04 Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any Objects null The emergence of diffusion models has enabled the generation of diverse high-quality images solely from text, prompting subsequent efforts to enhance the controllability of these models. Despite the improvement in controllability, pose control remains limited to specific objects (e.g., humans) or poses (e.g., frontal view) due to the fact that pose is generally controlled via camera parameters (e.g., rotation angle) or keypoints (e.g., eyes, nose). Specifically, camera parameters-conditional pose control models generate unrealistic images depending on the object, owing to the small size of 3D datasets for training. Also, keypoint-based approaches encounter challenges in acquiring reliable keypoints for various objects (e.g., church) or poses (e.g., back view). To address these limitations, we propose depth-based pose control, as depth maps are easily obtainable from a single depth estimation model regardless of objects and poses, unlike camera parameters and keypoints. However, depth-based pose control confronts issues of shape dependency, as depth maps influence not only the pose but also the shape of the generated images. To tackle this issue, we propose Skip-and-Play (SnP), designed via analysis of the impact of three components of depth-conditional ControlNet on the pose and the shape of the generated images. To be specific, based on the analysis, we selectively skip parts of the components to mitigate shape dependency on the depth map while preserving the pose. Through various experiments, we demonstrate the superiority of SnP over baselines and showcase the ability of SnP to generate images of diverse objects and poses. Remarkably, SnP exhibits the ability to generate images even when the objects in the condition (e.g., a horse) and the prompt (e.g., a hedgehog) differ from each other.  

(<a href=#updated-on-20241204>back to top</a>)

LLM

Publish Date Title Code Abstract  
2024-11-29 Enhancing Sentiment Analysis in Bengali Texts: A Hybrid Approach Using Lexicon-Based Algorithm and Pretrained Language Model Bangla-BERT null 情感分析(SA)旨在识别给定文本中的情感基调或极性,并揭示用户复杂的情感和内心感受。尽管英语等语言的情感分析已得到广泛研究,但孟加拉语的研究仍然有限,尤其是在细粒度情感分类方面。这项工作旨在弥合这一差距,开发一种将基于规则的算法与预训练语言模型相结合的新方法。我们从头开始构建了一个数据集,包含超过 15,000 条人工标记的评论。接下来,我们构建了一个词典数据字典,为评论分配极性分数。我们开发了一种新的基于规则的算法——孟加拉语情感极性评分(BSPS),该方法能够生成情感分数并将评论分为九种不同的情感类别。为了评估该方法的性能,我们使用基于 Transformer 的预训练语言模型 BanglaBERT 评估了分类的情感。我们还在原始数据上直接使用 BanglaBERT 执行了情感分类,并评估了该模型的结果。我们的分析表明,BSPS + BanglaBERT 混合方法优于单独的 BanglaBERT 模型,在九种情感类别中实现了更高的准确性、精确性和更细致的分类。我们的研究结果强调了将基于规则的方法和预训练语言模型方法相结合对于增强孟加拉语情感分析的价值和有效性,并为在具有类似语言复杂性的语言中进行未来的研究和应用提出了途径。  
2024-11-28 PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning null Federated Parameter-Efficient Fine-Tuning (FedPEFT) has emerged as a promising paradigm for privacy-preserving and efficient adaptation of Pre-trained Language Models (PLMs) in Federated Learning (FL) settings. It preserves data privacy by keeping the data decentralized and training the model on local devices, ensuring that raw data never leaves the user’s device. Moreover, the integration of PEFT methods such as LoRA significantly reduces the number of trainable parameters compared to fine-tuning the entire model, thereby minimizing communication costs and computational overhead. Despite its potential, the security implications of FedPEFT remain underexplored. This paper introduces a novel security threat to FedPEFT, termed PEFT-as-an-Attack (PaaA), which exposes how PEFT can be exploited as an attack vector to circumvent PLMs’ safety alignment and generate harmful content in response to malicious prompts. Our evaluation of PaaA reveals that with less than 1% of the model’s parameters set as trainable, and a small subset of clients acting maliciously, the attack achieves an approximate 80% attack success rate using representative PEFT methods such as LoRA. To mitigate this threat, we further investigate potential defense strategies, including Robust Aggregation Schemes (RASs) and Post-PEFT Safety Alignment (PPSA). However, our empirical analysis highlights the limitations of these defenses, i.e., even the most advanced RASs, such as DnC and ClippedClustering, struggle to defend against PaaA in scenarios with highly heterogeneous data distributions. Similarly, while PPSA can reduce attack success rates to below 10%, it severely degrades the model’s accuracy on the target task. Our results underscore the urgent need for more effective defense mechanisms that simultaneously ensure security and maintain the performance of the FedPEFT paradigm.  
2024-11-26 Pretrained LLM Adapted with LoRA as a Decision Transformer for Offline RL in Quantitative Trading link 利用强化学习 (RL) 开发有效的量化交易策略具有挑战性,因为在线与实时金融市场互动存在高风险。因此,离线强化学习(利用历史市场数据而无需额外探索)变得至关重要。然而,现有的离线强化学习方法通常难以捕捉金融时间序列中固有的复杂时间依赖性,并可能过度拟合历史模式。为了应对这些挑战,我们引入了一个决策转换器 (DT),它使用预训练的 GPT-2 权重进行初始化,并使用低秩自适应 (LoRA) 进行微调。这种架构利用预训练语言模型的泛化能力和 LoRA 的效率,仅从历史数据中的专家轨迹中学习有效的交易策略。我们的模型与已建立的离线强化学习算法(包括保守 Q 学习 (CQL)、隐式 Q 学习 (IQL) 和行为克隆 (BC))以及具有随机初始化 GPT-2 权重和 LoRA 的基线决策转换器相比,表现出竞争力。实证结果表明,我们的方法可以有效地从专家轨迹中学习,并在某些交易场景中获得更高的回报,突出了在用于量化交易的离线强化学习中集成预训练语言模型和参数高效微调的有效性。我们实验的复现代码已公开发布在 https://github.com/syyunn/finrl-dt。  
2024-11-26 Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting null 理解对话中的情感通常需要外部知识来准确理解内容。随着大型语言模型(LLM)变得越来越强大,我们不希望满足于预训练语言模型的有限能力。然而,LLM要么只能处理文本模态,要么处理多媒体信息的成本过高。我们的目标是利用LLM的强大功能和多媒体模态的补充特征。在本文中,我们提出了一个名为Lantern的框架,它可以通过使用具有感受野感知注意力加权的提示来提高特定基础模型的性能。该框架训练了一个多任务基础模型来生成情感类别概率和维度分数。这些预测被输入到LLM中作为参考,利用其外部知识和上下文理解来调整每个情感类别的预测概率。我们将对话切片成不同的感受野,每个样本恰好包含在t个感受野中。最后,LLM的预测与一个感受野感知的注意力驱动加权模块合并。在实验中,基础模型CORECT和SDT与GPT-4或Llama-2-70B一起部署在Lantern中。在IEMOCAP数据集上进行的4类和6类情感分类实验表明,Lantern可以显著提高当前基础模型的性能,最高可达1.23%和1.80%。  
2024-12-02 Scaling Speech-Text Pre-training with Synthetic Interleaved Data null 语音语言模型 (SpeechLM) 接收语音输入并产生语音输出,与基于文本的大型语言模型 (LLM) 相比,可以实现更自然的人机交互。开发 SpeechLM 的传统方法受到无监督语音数据和并行语音文本数据有限可用性的限制,这些数据远不如文本预训练数据丰富,从而限制了它们作为 LLM 的可扩展性。我们提出了一种新的方法,通过利用从文本语料库中派生的大规模合成交错数据来扩展语音文本预训练,从而消除了对并行语音文本数据集的需求。我们的方法通过从现有文本语料库中采样文本片段并使用文本到标记模型合成相应的语音片段来有效地构建语音文本交错数据,绕过了生成实际语音的需求。我们还通过将矢量量化瓶颈纳入编码器,采用了源自自动语音识别 (ASR) 模型的监督语音标记器。这种监督训练方法即使在较低帧率(例如 12.5Hz)下也能产生具有较强语义保留的离散语音标记,同时仍保持语音重建质量。从预训练的语言模型开始,并将我们的预训练扩展到 1 万亿个标记(包含 6000 亿个合成交错语音文本数据),我们在语音语言建模和口语问答方面实现了最先进的性能,将口语问答任务的性能从之前的 SOTA 13% (Moshi) 提高到 31%。我们进一步证明,通过使用语音对话数据微调预训练模型,我们可以开发端到端的口语聊天机器人,即使仅在语音领域运行,也能在对话能力和语音质量方面达到与现有基线相当的竞争性能。  
2024-11-24 Development of Pre-Trained Transformer-based Models for the Nepali Language null Transformer-based pre-trained language models have dominated the field of Natural Language Processing (NLP) for quite some time now. However, the Nepali language, spoken by approximately 32 million people worldwide, remains significantly underrepresented in this domain. This underrepresentation is primarily attributed to the scarcity of monolingual data corpora and limited available resources for the Nepali language. While existing efforts have predominantly concentrated on basic encoder-based models, there is a notable gap in the exploration of decoder-based architectures. To address this gap, we have collected 27.5 GB of Nepali text data, approximately 2.4x larger than any previously available Nepali language corpus. Leveraging this data, we pre-trained three different models i.e., BERT, RoBERTa, and GPT-2, exclusively for the Nepali Language. Furthermore, we performed instruction tuning and explored its potential for monolingual Nepali data, providing a foundation for future research. Our models outperformed the existing best model by 2 points on Nep-gLUE benchmark, scoring 95.60 and also outperformed existing models on text generation tasks, demonstrating improvements in both understanding and generating Nepali text.  
2024-11-21 Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese null Natural Language Inference (NLI) is a task within Natural Language Processing (NLP) that holds value for various AI applications. However, there have been limited studies on Natural Language Inference in Vietnamese that explore the concept of joint models. Therefore, we conducted experiments using various combinations of contextualized language models (CLM) and neural networks. We use CLM to create contextualized work presentations and use Neural Networks for classification. Furthermore, we have evaluated the strengths and weaknesses of each joint model and identified the model failure points in the Vietnamese context. The highest F1 score in this experiment, up to 82.78% in the benchmark dataset (ViNLI). By conducting experiments with various models, the most considerable size of the CLM is XLM-R (355M). That combination has consistently demonstrated superior performance compared to fine-tuning strong pre-trained language models like PhoBERT (+6.58%), mBERT (+19.08%), and XLM-R (+0.94%) in terms of F1-score. This article aims to introduce a novel approach or model that attains improved performance for Vietnamese NLI. Overall, we find that the joint approach of CLM and neural networks is simple yet capable of achieving high-quality performance, which makes it suitable for applications that require efficient resource utilization.  
2024-11-19 Enhancing Multi-Class Disease Classification: Neoplasms, Cardiovascular, Nervous System, and Digestive Disorders Using Advanced LLMs null In this research, we explored the improvement in terms of multi-class disease classification via pre-trained language models over Medical-Abstracts-TC-Corpus that spans five medical conditions. We excluded non-cancer conditions and examined four specific diseases. We assessed four LLMs, BioBERT, XLNet, and BERT, as well as a novel base model (Last-BERT). BioBERT, which was pre-trained on medical data, demonstrated superior performance in medical text classification (97% accuracy). Surprisingly, XLNet followed closely (96% accuracy), demonstrating its generalizability across domains even though it was not pre-trained on medical data. LastBERT, a custom model based on the lighter version of BERT, also proved competitive with 87.10% accuracy (just under BERT’s 89.33%). Our findings confirm the importance of specialized models such as BioBERT and also support impressions around more general solutions like XLNet and well-tuned transformer architectures with fewer parameters (in this case, LastBERT) in medical domain tasks.  
2024-11-20 Predicting User Intents and Musical Attributes from Music Discovery Conversations link Intent classification is a text understanding task that identifies user needs from input text queries. While intent classification has been extensively studied in various domains, it has not received much attention in the music domain. In this paper, we investigate intent classification models for music discovery conversation, focusing on pre-trained language models. Rather than only predicting functional needs: intent classification, we also include a task for classifying musical needs: musical attribute classification. Additionally, we propose a method of concatenating previous chat history with just single-turn user queries in the input text, allowing the model to understand the overall conversation context better. Our proposed model significantly improves the F1 score for both user intent and musical attribute classification, and surpasses the zero-shot and few-shot performance of the pretrained Llama 3 model.  
2024-11-18 Zero-Shot Load Forecasting with Large Language Models null Deep learning models have shown strong performance in load forecasting, but they generally require large amounts of data for model training before being applied to new scenarios, which limits their effectiveness in data-scarce scenarios. Inspired by the great success of pre-trained language models (LLMs) in natural language processing, this paper proposes a zero-shot load forecasting approach using an advanced LLM framework denoted as the Chronos model. By utilizing its extensive pre-trained knowledge, the Chronos model enables accurate load forecasting in data-scarce scenarios without the need for extensive data-specific training. Simulation results across five real-world datasets demonstrate that the Chronos model significantly outperforms nine popular baseline models for both deterministic and probabilistic load forecasting with various forecast horizons (e.g., 1 to 48 hours), even though the Chronos model is neither tailored nor fine-tuned to these specific load datasets. Notably, Chronos reduces root mean squared error (RMSE), continuous ranked probability score (CRPS), and quantile score (QS) by approximately 7.34%-84.30%, 19.63%-60.06%, and 22.83%-54.49%, respectively, compared to baseline models. These results highlight the superiority and flexibility of the Chronos model, positioning it as an effective solution in data-scarce scenarios.  
2024-11-11 TempCharBERT: Keystroke Dynamics for Continuous Access Control Based on Pre-trained Language Models null With the widespread of digital environments, reliable authentication and continuous access control has become crucial. It can minimize cyber attacks and prevent frauds, specially those associated with identity theft. A particular interest lies on keystroke dynamics (KD), which refers to the task of recognizing individuals’ identity based on their unique typing style. In this work, we propose the use of pre-trained language models (PLMs) to recognize such patterns. Although PLMs have shown high performance on multiple NLP benchmarks, the use of these models on specific tasks requires customization. BERT and RoBERTa, for instance, rely on subword tokenization, and they cannot be directly applied to KD, which requires temporal-character information to recognize users. Recent character-aware PLMs are able to process both subwords and character-level information and can be an alternative solution. Notwithstanding, they are still not suitable to be directly fine-tuned for KD as they are not optimized to account for user’s temporal typing information (e.g., hold time and flight time). To overcome this limitation, we propose TempCharBERT, an architecture that incorporates temporal-character information in the embedding layer of CharBERT. This allows modeling keystroke dynamics for the purpose of user identification and authentication. Our results show a significant improvement with this customization. We also showed the feasibility of training TempCharBERT on a federated learning settings in order to foster data privacy.  
2024-11-11 Model Fusion through Bayesian Optimization in Language Model Fine-Tuning link Fine-tuning pre-trained models for downstream tasks is a widely adopted technique known for its adaptability and reliability across various domains. Despite its conceptual simplicity, fine-tuning entails several troublesome engineering choices, such as selecting hyperparameters and determining checkpoints from an optimization trajectory. To tackle the difficulty of choosing the best model, one effective solution is model fusion, which combines multiple models in a parameter space. However, we observe a large discrepancy between loss and metric landscapes during the fine-tuning of pre-trained language models. Building on this observation, we introduce a novel model fusion technique that optimizes both the desired metric and loss through multi-objective Bayesian optimization. In addition, to effectively select hyperparameters, we establish a two-stage procedure by integrating Bayesian optimization processes into our framework. Experiments across various downstream tasks show considerable performance improvements using our Bayesian optimization-guided method.  
2024-11-11 Bridge: A Unified Framework to Knowledge Graph Completion via Language Models and Knowledge Representation null Knowledge graph completion (KGC) is a task of inferring missing triples based on existing Knowledge Graphs (KGs). Both structural and semantic information are vital for successful KGC. However, existing methods only use either the structural knowledge from the KG embeddings or the semantic information from pre-trained language models (PLMs), leading to suboptimal model performance. Moreover, since PLMs are not trained on KGs, directly using PLMs to encode triples may be inappropriate. To overcome these limitations, we propose a novel framework called Bridge, which jointly encodes structural and semantic information of KGs. Specifically, we strategically encode entities and relations separately by PLMs to better utilize the semantic knowledge of PLMs and enable structured representation learning via a structural learning principle. Furthermore, to bridge the gap between KGs and PLMs, we employ a self-supervised representation learning method called BYOL to fine-tune PLMs with two different views of a triple. Unlike BYOL, which uses augmentation methods to create two semantically similar views of the same image, potentially altering the semantic information. We strategically separate the triple into two parts to create different views, thus avoiding semantic alteration. Experiments demonstrate that Bridge outperforms the SOTA models on three benchmark datasets.  
2024-11-01 Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model null Few-Shot Cross-Domain NER is the process of leveraging knowledge from data-rich source domains to perform entity recognition on data scarce target domains. Most previous state-of-the-art (SOTA) approaches use pre-trained language models (PLMs) for cross-domain NER. However, these models are often domain specific. To successfully use these models for new target domains, we need to modify either the model architecture or perform model finetuning using data from the new domains. Both of these result in the creation of entirely new NER models for each target domain which is infeasible for practical scenarios. Recently,several works have attempted to use LLMs to solve Few-Shot Cross-Domain NER. However, most of these are either too expensive for practical purposes or struggle to follow LLM prompt instructions. In this paper, we propose IF-WRANER (Instruction Finetuned Word-embedding based Retrieval Augmented large language model for Named Entity Recognition), a retrieval augmented LLM, finetuned for the NER task. By virtue of the regularization techniques used during LLM finetuning and the adoption of word-level embedding over sentence-level embedding during the retrieval of in-prompt examples, IF-WRANER is able to outperform previous SOTA Few-Shot Cross-Domain NER approaches. We have demonstrated the effectiveness of our model by benchmarking its performance on the open source CrossNER dataset, on which it shows more than 2% F1 score improvement over the previous SOTA model. We have deployed the model for multiple customer care domains of an enterprise. Accurate entity prediction through IF-WRANER helps direct customers to automated workflows for the domains, thereby reducing escalations to human agents by almost 15% and leading to millions of dollars in yearly savings for the company.  
2024-11-01 Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models null The increasing prevalence of AI-generated content alongside human-written text underscores the need for reliable discrimination methods. To address this challenge, we propose a novel framework with textual embeddings from Pre-trained Language Models (PLMs) to distinguish AI-generated and human-authored text. Our approach utilizes Embedding Fusion to integrate semantic information from multiple Language Models, harnessing their complementary strengths to enhance performance. Through extensive evaluation across publicly available diverse datasets, our proposed approach demonstrates strong performance, achieving classification accuracy greater than 96% and a Matthews Correlation Coefficient (MCC) greater than 0.93. This evaluation is conducted on a balanced dataset of texts generated from five well-known Large Language Models (LLMs), highlighting the effectiveness and robustness of our novel methodology.  
2024-11-01 C2A: Client-Customized Adaptation for Parameter-Efficient Federated Learning link Despite the versatility of pre-trained language models (PLMs) across domains, their large memory footprints pose significant challenges in federated learning (FL), where the training model has to be distributed between a server and clients. One potential solution to bypass such constraints might be the use of parameter-efficient fine-tuning (PEFT) in the context of FL. However, we have observed that typical PEFT tends to severely suffer from heterogeneity among clients in FL scenarios, resulting in unstable and slow convergence. In this paper, we propose Client-Customized Adaptation (C2A), a novel hypernetwork-based FL framework that generates client-specific adapters by conditioning the client information. With the effectiveness of the hypernetworks in generating customized weights through learning to adopt the different characteristics of inputs, C2A can maximize the utility of shared model parameters while minimizing the divergence caused by client heterogeneity. To verify the efficacy of C2A, we perform extensive evaluations on FL scenarios involving heterogeneity in label and language distributions. Comprehensive evaluation results clearly support the superiority of C2A in terms of both efficiency and effectiveness in FL scenarios.  
2024-11-01 Large Language Models for Patient Comments Multi-Label Classification null Patient experience and care quality are crucial for a hospital’s sustainability and reputation. The analysis of patient feedback offers valuable insight into patient satisfaction and outcomes. However, the unstructured nature of these comments poses challenges for traditional machine learning methods following a supervised learning paradigm. This is due to the unavailability of labeled data and the nuances these texts encompass. This research explores leveraging Large Language Models (LLMs) in conducting Multi-label Text Classification (MLTC) of inpatient comments shared after a stay in the hospital. GPT-4 Turbo was leveraged to conduct the classification. However, given the sensitive nature of patients’ comments, a security layer is introduced before feeding the data to the LLM through a Protected Health Information (PHI) detection framework, which ensures patients’ de-identification. Additionally, using the prompt engineering framework, zero-shot learning, in-context learning, and chain-of-thought prompting were experimented with. Results demonstrate that GPT-4 Turbo, whether following a zero-shot or few-shot setting, outperforms traditional methods and Pre-trained Language Models (PLMs) and achieves the highest overall performance with an F1-score of 76.12% and a weighted F1-score of 73.61% followed closely by the few-shot learning results. Subsequently, the results’ association with other patient experience structured variables (e.g., rating) was conducted. The study enhances MLTC through the application of LLMs, offering healthcare practitioners an efficient method to gain deeper insights into patient feedback and deliver prompt, appropriate responses.  
2024-10-28 Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models null Although pre-trained language models show good performance on various natural language processing tasks, they often rely on non-causal features and patterns to determine the outcome. For natural language inference tasks, previous results have shown that even a model trained on a large number of data fails to perform well on counterfactually revised data, indicating that the model is not robustly learning the semantics of the classes. In this paper, we propose a method in which we use token-based and sentence-based augmentation methods to generate counterfactual sentence pairs that belong to each class, and apply contrastive learning to help the model learn the difference between sentence pairs of different classes with similar contexts. Evaluation results with counterfactually-revised dataset and general NLI datasets show that the proposed method can improve the performance and robustness of the NLI model.  
2024-10-28 SubjECTive-QA: Measuring Subjectivity in Earnings Call Transcripts’ QA Through Six-Dimensional Feature Analysis link Fact-checking is extensively studied in the context of misinformation and disinformation, addressing objective inaccuracies. However, a softer form of misinformation involves responses that are factually correct but lack certain features such as clarity and relevance. This challenge is prevalent in formal Question-Answer (QA) settings such as press conferences in finance, politics, sports, and other domains, where subjective answers can obscure transparency. Despite this, there is a lack of manually annotated datasets for subjective features across multiple dimensions. To address this gap, we introduce SubjECTive-QA, a human annotated dataset on Earnings Call Transcripts’ (ECTs) QA sessions as the answers given by company representatives are often open to subjective interpretations and scrutiny. The dataset includes 49,446 annotations for long-form QA pairs across six features: Assertive, Cautious, Optimistic, Specific, Clear, and Relevant. These features are carefully selected to encompass the key attributes that reflect the tone of the answers provided during QA sessions across different domain. Our findings are that the best-performing Pre-trained Language Model (PLM), RoBERTa-base, has similar weighted F1 scores to Llama-3-70b-Chat on features with lower subjectivity, such as Relevant and Clear, with a mean difference of 2.17% in their weighted F1 scores. The models perform significantly better on features with higher subjectivity, such as Specific and Assertive, with a mean difference of 10.01% in their weighted F1 scores. Furthermore, testing SubjECTive-QA’s generalizability using QAs from White House Press Briefings and Gaggles yields an average weighted F1 score of 65.97% using our best models for each feature, demonstrating broader applicability beyond the financial domain. SubjECTive-QA is publicly available under the CC BY 4.0 license  
2024-10-27 Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs null Knowledge Graph Query Embedding (KGQE) aims to embed First-Order Logic (FOL) queries in a low-dimensional KG space for complex reasoning over incomplete KGs. To enhance the generalization of KGQE models, recent studies integrate various external information (such as entity types and relation context) to better capture the logical semantics of FOL queries. The whole process is commonly referred to as Query Pattern Learning (QPL). However, current QPL methods typically suffer from the pattern-entity alignment bias problem, leading to the learned defective query patterns limiting KGQE models’ performance. To address this problem, we propose an effective Query Instruction Parsing Plugin (QIPP) that leverages the context awareness of Pre-trained Language Models (PLMs) to capture latent query patterns from code-like query instructions. Unlike the external information introduced by previous QPL methods, we first propose code-like instructions to express FOL queries in an alternative format. This format utilizes textual variables and nested tuples to convey the logical semantics within FOL queries, serving as raw materials for a PLM-based instruction encoder to obtain complete query patterns. Building on this, we design a query-guided instruction decoder to adapt query patterns to KGQE models. To further enhance QIPP’s effectiveness across various KGQE models, we propose a query pattern injection mechanism based on compressed optimization boundaries and an adaptive normalization component, allowing KGQE models to utilize query patterns more efficiently. Extensive experiments demonstrate that our plug-and-play method improves the performance of eight basic KGQE models and outperforms two state-of-the-art QPL methods.  
2024-10-25 A Review of Deep Learning Approaches for Non-Invasive Cognitive Impairment Detection null This review paper explores recent advances in deep learning approaches for non-invasive cognitive impairment detection. We examine various non-invasive indicators of cognitive decline, including speech and language, facial, and motoric mobility. The paper provides an overview of relevant datasets, feature-extracting techniques, and deep-learning architectures applied to this domain. We have analyzed the performance of different methods across modalities and observed that speech and language-based methods generally achieved the highest detection performance. Studies combining acoustic and linguistic features tended to outperform those using a single modality. Facial analysis methods showed promise for visual modalities but were less extensively studied. Most papers focused on binary classification (impaired vs. non-impaired), with fewer addressing multi-class or regression tasks. Transfer learning and pre-trained language models emerged as popular and effective techniques, especially for linguistic analysis. Despite significant progress, several challenges remain, including data standardization and accessibility, model explainability, longitudinal analysis limitations, and clinical adaptation. Lastly, we propose future research directions, such as investigating language-agnostic speech analysis methods, developing multi-modal diagnostic systems, and addressing ethical considerations in AI-assisted healthcare. By synthesizing current trends and identifying key obstacles, this review aims to guide further development of deep learning-based cognitive impairment detection systems to improve early diagnosis and ultimately patient outcomes.  
2024-10-25 Intelligent Understanding of Large Language Models in Traditional Chinese Medicine Based on Prompt Engineering Framework null This paper explores the application of prompt engineering to enhance the performance of large language models (LLMs) in the domain of Traditional Chinese Medicine (TCM). We propose TCM-Prompt, a framework that integrates various pre-trained language models (PLMs), templates, tokenization, and verbalization methods, allowing researchers to easily construct and fine-tune models for specific TCM-related tasks. We conducted experiments on disease classification, syndrome identification, herbal medicine recommendation, and general NLP tasks, demonstrating the effectiveness and superiority of our approach compared to baseline methods. Our findings suggest that prompt engineering is a promising technique for improving the performance of LLMs in specialized domains like TCM, with potential applications in digitalization, modernization, and personalized medicine.  
2024-10-22 All Entities are Not Created Equal: Examining the Long Tail for Fine-Grained Entity Typing null Pre-trained language models (PLMs) are trained on large amounts of data, which helps capture world knowledge alongside linguistic competence. Due to this, they are extensively used for ultra-fine entity typing tasks, where they provide the entity knowledge held in its parameter space. Given that PLMs learn from co-occurrence patterns, they likely contain more knowledge or less knowledge about entities depending on their how frequent they are in the pre-training data. In this work, we probe PLMs to elicit encoded entity probabilities and demonstrate that they highly correlate with their frequency in large-scale internet data. Then, we demonstrate that entity-typing approaches that rely on PLMs struggle with entities at the long tail on the distribution. Our findings suggests that we need to go beyond PLMs to produce solutions that perform well for rare, new or infrequent entities.  
2024-10-21 ComPO: Community Preferences for Language Model Personalization null Conventional algorithms for training language models (LMs) with human feedback rely on preferences that are assumed to account for an “average” user, disregarding subjectivity and finer-grained variations. Recent studies have raised concerns that aggregating such diverse and often contradictory human feedback to finetune models results in generic models that generate outputs not preferred by many user groups, as they tend to average out styles and norms. To address this issue, we draw inspiration from recommendation systems and propose ComPO, a method to personalize preference optimization in LMs by contextualizing the probability distribution of model outputs with the preference provider. Focusing on group-level preferences rather than individuals, we collect and release ComPRed, a question answering dataset with community-level preferences from Reddit. This dataset facilitates studying diversity in preferences without incurring privacy concerns associated with individual feedback. Our experiments reveal that conditioning language models on a community identifier (i.e., subreddit name) during preference tuning substantially enhances model performance. Conversely, replacing this context with random subreddit identifiers significantly diminishes performance, highlighting the effectiveness of our approach in tailoring responses to communities’ preferences.  
2024-10-21 Learning-to-Defer for Extractive Question Answering null 预训练语言模型已对抽取式问答领域产生了深远的影响,利用大规模文本语料库增强了上下文语言理解能力。尽管取得了成功,但这些模型在需要细致解读或推理超出直接文本线索的复杂场景中仍存在困难。此外,它们的规模也给资源受限设备上的部署带来了挑战。为了解决这些限制,我们引入了一种改进的两阶段“学会延迟”机制,通过选择性地将问题交给人类专家或更大模型来增强决策能力,而无需在问答环境下重新训练语言模型。这种方法不仅保持了计算效率,还在模糊的上下文中显著提高了模型的可靠性和准确性。我们通过证明代理损失函数的贝叶斯和 $(\mathcal{H}, \mathcal{R})$ 一致性,确立了我们方法的理论可靠性,保证了最终解决方案的最优性。在SQuADv2数据集上的实证评估表明,整合人类专业知识和利用更大模型可以提高性能。我们的结果进一步表明,只需延迟少量查询,较小的模型就能达到与其较大模型相当的性能,同时保持计算效率,从而拓宽了预训练语言模型在各种操作环境中的适用性。  
2024-10-21 Who’s Who: Large Language Models Meet Knowledge Conflicts in Practice link Retrieval-augmented generation (RAG) methods are viable solutions for addressing the static memory limits of pre-trained language models. Nevertheless, encountering conflicting sources of information within the retrieval context is an inevitable practical challenge. In such situations, the language models are recommended to transparently inform users about the conflicts rather than autonomously deciding what to present based on their inherent biases. To analyze how current large language models (LLMs) align with our recommendation, we introduce WhoQA, a public benchmark dataset to examine model’s behavior in knowledge conflict situations. We induce conflicts by asking about a common property among entities having the same name, resulting in questions with up to 8 distinctive answers. WhoQA evaluation set includes 5K questions across 13 Wikidata property types and 150K Wikipedia entities. Our experiments show that despite the simplicity of WhoQA questions, knowledge conflicts significantly degrades LLMs’ performance in RAG settings.  
2024-10-21 DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text Summarization link Most research on abstractive summarization focuses on single-domain applications, often neglecting how domain shifts between documents affect performance and the generalization ability of summarization models. To address this issue, we introduce DomainSum, a hierarchical benchmark designed to capture fine-grained domain shifts in abstractive summarization. We categorize these shifts into three levels: genre, style, and topic, and demonstrate through comprehensive benchmark analysis that they follow a hierarchical structure. Furthermore, we evaluate the domain generalization capabilities of commonly used pre-trained language models (PLMs) and large language models (LLMs) in in-domain and cross-domain settings.  
2024-10-21 Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding null Recently, pre-trained language models (PLMs) have been increasingly adopted in spoken language understanding (SLU). However, automatic speech recognition (ASR) systems frequently produce inaccurate transcriptions, leading to noisy inputs for SLU models, which can significantly degrade their performance. To address this, our objective is to train SLU models to withstand ASR errors by exposing them to noises commonly observed in ASR systems, referred to as ASR-plausible noises. Speech noise injection (SNI) methods have pursued this objective by introducing ASR-plausible noises, but we argue that these methods are inherently biased towards specific ASR systems, or ASR-specific noises. In this work, we propose a novel and less biased augmentation method of introducing the noises that are plausible to any ASR system, by cutting off the non-causal effect of noises. Experimental results and analyses demonstrate the effectiveness of our proposed methods in enhancing the robustness and generalizability of SLU models against unseen ASR systems by introducing more diverse and plausible ASR noises in advance.  
2024-10-19 MELT: Materials-aware Continued Pre-training for Language Model Adaptation to Materials Science null We introduce a novel continued pre-training method, MELT (MatEriaLs-aware continued pre-Training), specifically designed to efficiently adapt the pre-trained language models (PLMs) for materials science. Unlike previous adaptation strategies that solely focus on constructing domain-specific corpus, MELT comprehensively considers both the corpus and the training strategy, given that materials science corpus has distinct characteristics from other domains. To this end, we first construct a comprehensive materials knowledge base from the scientific corpus by building semantic graphs. Leveraging this extracted knowledge, we integrate a curriculum into the adaptation process that begins with familiar and generalized concepts and progressively moves toward more specialized terms. We conduct extensive experiments across diverse benchmarks to verify the effectiveness and generality of MELT. A comprehensive evaluation convincingly supports the strength of MELT, demonstrating superior performance compared to existing continued pre-training methods. The in-depth analysis also shows that MELT enables PLMs to effectively represent materials entities compared to the existing adaptation methods, thereby highlighting its broad applicability across a wide spectrum of materials science.  
2024-10-19 BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation null Recent advances in decoding language from brain signals (EEG and MEG) have been significantly driven by pre-trained language models, leading to remarkable progress on publicly available non-invasive EEG/MEG datasets. However, previous works predominantly utilize teacher forcing during text generation, leading to significant performance drops without its use. A fundamental issue is the inability to establish a unified feature space correlating textual data with the corresponding evoked brain signals. Although some recent studies attempt to mitigate this gap using an audio-text pre-trained model, Whisper, which is favored for its signal input modality, they still largely overlook the inherent differences between audio signals and brain signals in directly applying Whisper to decode brain signals. To address these limitations, we propose a new multi-stage strategy for semantic brain signal decoding via vEctor-quantized speCtrogram reconstruction for WHisper-enhanced text generatiOn, termed BrainECHO. Specifically, BrainECHO successively conducts: 1) Discrete autoencoding of the audio spectrogram; 2) Brain-audio latent space alignment; and 3) Semantic text generation via Whisper finetuning. Through this autoencoding–alignment–finetuning process, BrainECHO outperforms state-of-the-art methods under the same data split settings on two widely accepted resources: the EEG dataset (Brennan) and the MEG dataset (GWilliams). The innovation of BrainECHO, coupled with its robustness and superiority at the sentence, session, and subject-independent levels across public datasets, underscores its significance for language-based brain-computer interfaces.  
2024-10-18 Reasoning, Memorization, and Fine-Tuning Language Models for Non-Cooperative Games null We develop a method that integrates the tree of thoughts and multi-agent framework to enhance the capability of pre-trained language models in solving complex, unfamiliar games. The method decomposes game-solving into four incremental tasks – game summarization, area selection, action extraction, and action validation – each assigned to a specific language-model agent. By constructing a tree of thoughts, the method simulates reasoning paths and allows agents to collaboratively distill game representations and tactics, mitigating the limitations of language models in reasoning and long-term memorization. Additionally, an automated fine-tuning process further optimizes the agents’ performance by ranking query-response pairs based on game outcomes, e.g., winning or losing. We apply the method to a non-cooperative game and demonstrate a 65 percent winning rate against benchmark algorithms, with an additional 10 percent improvement after fine-tuning. In contrast to existing deep learning algorithms for game solving that require millions of training samples, the proposed method consumes approximately 1000 training samples, highlighting its efficiency and scalability.  
2024-10-18 PTR: A Pre-trained Language Model for Trajectory Recovery null Spatiotemporal trajectory data is vital for web-of-things services and is extensively collected and analyzed by web-based hardware and platforms. However, issues such as service interruptions and network instability often lead to sparsely recorded trajectories, resulting in a loss of detailed movement data. As a result, recovering these trajectories to restore missing information becomes essential. Despite progress, several challenges remain unresolved. First, the lack of large-scale dense trajectory data hampers the performance of existing deep learning methods, which rely heavily on abundant data for supervised training. Second, current methods struggle to generalize across sparse trajectories with varying sampling intervals, necessitating separate re-training for each interval and increasing computational costs. Third, external factors crucial for the recovery of missing points are not fully incorporated. To address these challenges, we propose a framework called PTR. This framework mitigates the issue of limited dense trajectory data by leveraging the capabilities of pre-trained language models (PLMs). PTR incorporates an explicit trajectory prompt and is trained on datasets with multiple sampling intervals, enabling it to generalize effectively across different intervals in sparse trajectories. To capture external factors, we introduce an implicit trajectory prompt that models road conditions, providing richer information for recovering missing points. Additionally, we present a trajectory embedder that encodes trajectory points and transforms the embeddings of both observed and missing points into a format comprehensible to PLMs. Experimental results on two public trajectory datasets with three sampling intervals demonstrate the efficacy and scalability of PTR.  
2024-10-16 NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models link Pre-trained language models (PLMs) have emerged as critical intellectual property (IP) assets that necessitate protection. Although various watermarking strategies have been proposed, they remain vulnerable to Linear Functionality Equivalence Attacks (LFEA), which can invalidate most existing white-box watermarks without prior knowledge of the watermarking scheme or training data. This paper further analyzes and extends the attack scenarios of LFEA to the commonly employed black-box settings for PLMs by considering Last-Layer outputs (dubbed LL-LFEA). We discover that the null space of the output matrix remains invariant against LL-LFEA attacks. Based on this finding, we propose NSmark, a task-agnostic, black-box watermarking scheme capable of resisting LL-LFEA attacks. NSmark consists of three phases: (i) watermark generation using the digital signature of the owner, enhanced by spread spectrum modulation for increased robustness; (ii) watermark embedding through an output mapping extractor that preserves PLM performance while maximizing watermark capacity; (iii) watermark verification, assessed by extraction rate and null space conformity. Extensive experiments on both pre-training and downstream tasks confirm the effectiveness, reliability, fidelity, and robustness of our approach. Code is available at https://github.com/dongdongzhaoUP/NSmark.  
2024-10-17 Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration link The diffusion model, a new generative modeling paradigm, has achieved significant success in generating images, audio, video, and text. It has been adapted for sequence-to-sequence text generation (Seq2Seq) through DiffuSeq, termed S2S Diffusion. Existing S2S-Diffusion models predominantly rely on fixed or hand-crafted rules to schedule noise during the diffusion and denoising processes. However, these models are limited by non-contextualized noise, which fails to fully consider the characteristics of Seq2Seq tasks. In this paper, we propose the Meta-DiffuB framework - a novel scheduler-exploiter S2S-Diffusion paradigm designed to overcome the limitations of existing S2S-Diffusion models. We employ Meta-Exploration to train an additional scheduler model dedicated to scheduling contextualized noise for each sentence. Our exploiter model, an S2S-Diffusion model, leverages the noise scheduled by our scheduler model for updating and generation. Meta-DiffuB achieves state-of-the-art performance compared to previous S2S-Diffusion models and fine-tuned pre-trained language models (PLMs) across four Seq2Seq benchmark datasets. We further investigate and visualize the impact of Meta-DiffuB’s noise scheduling on the generation of sentences with varying difficulties. Additionally, our scheduler model can function as a “plug-and-play” model to enhance DiffuSeq without the need for fine-tuning during the inference stage.  
2024-10-16 Negative-Prompt-driven Alignment for Generative Language Model null Large language models have achieved remarkable capabilities, but aligning their outputs with human values and preferences remains a significant challenge. Existing alignment methods primarily focus on positive examples while overlooking the importance of negative responses in guiding models away from undesirable behaviors. For instance, the widely-used alignment datasets reveals a scarcity of explicit negative examples that contradict human values, hindering its ability to discourage harmful or biased outputs during training. To address this limitation, we propose NEAT, i.e., NEgative-prompt-driven AlignmenT, to introduce negative prompts to generate undesirable responses alongside positive examples during the optimization process. NEAT explicitly penalizes the model for producing harmful outputs, guiding it not only toward desirable behaviors but also steering it away from generating undesirable, biased responses. This dual feedback mechanism enables better alignment with human preferences, crucial in contexts where avoiding harm is paramount. Starting from a pre-trained language model, NEAT performs online alignment by incorporating a ranking loss derived from an expanded preference dataset containing both positive and negative examples. Extensive experiments validate NEAT’s effectiveness in significantly enhancing language models’ alignment with human values and preferences.  
2024-10-15 Bridging Large Language Models and Graph Structure Learning Models for Robust Representation Learning null Graph representation learning, involving both node features and graph structures, is crucial for real-world applications but often encounters pervasive noise. State-of-the-art methods typically address noise by focusing separately on node features with large language models (LLMs) and on graph structures with graph structure learning models (GSLMs). In this paper, we introduce LangGSL, a robust framework that integrates the complementary strengths of pre-trained language models and GSLMs to jointly enhance both node feature and graph structure learning. In LangGSL, we first leverage LLMs to filter noise in the raw data and extract valuable cleaned information as features, enhancing the synergy of downstream models. During the mutual learning phase in LangGSL, the core idea is to leverage the relatively small language model (LM) to process local attributes and generate reliable pseudo-labels and informative node embeddings, which are then integrated into the GSLM’s prediction phase. This approach enriches the global context and enhances overall performance. Meanwhile, GSLM refines the evolving graph structure constructed from the LM’s output, offering updated labels back to the LM as additional guidance, thus facilitating a more effective mutual learning process. The LM and GSLM work synergistically, complementing each other’s strengths and offsetting weaknesses within a variational information-maximizing framework, resulting in enhanced node features and a more robust graph structure. Extensive experiments on diverse graph datasets of varying scales and across different task scenarios demonstrate the scalability and effectiveness of the proposed approach.  
2024-10-15 LegalLens Shared Task 2024: Legal Violation Identification in Unstructured Text null This paper presents the results of the LegalLens Shared Task, focusing on detecting legal violations within text in the wild across two sub-tasks: LegalLens-NER for identifying legal violation entities and LegalLens-NLI for associating these violations with relevant legal contexts and affected individuals. Using an enhanced LegalLens dataset covering labor, privacy, and consumer protection domains, 38 teams participated in the task. Our analysis reveals that while a mix of approaches was used, the top-performing teams in both tasks consistently relied on fine-tuning pre-trained language models, outperforming legal-specific models and few-shot methods. The top-performing team achieved a 7.11% improvement in NER over the baseline, while NLI saw a more marginal improvement of 5.7%. Despite these gains, the complexity of legal texts leaves room for further advancements.  
2024-10-15 A Survey on Deep Tabular Learning null Tabular data, widely used in industries like healthcare, finance, and transportation, presents unique challenges for deep learning due to its heterogeneous nature and lack of spatial structure. This survey reviews the evolution of deep learning models for tabular data, from early fully connected networks (FCNs) to advanced architectures like TabNet, SAINT, TabTranSELU, and MambaNet. These models incorporate attention mechanisms, feature embeddings, and hybrid architectures to address tabular data complexities. TabNet uses sequential attention for instance-wise feature selection, improving interpretability, while SAINT combines self-attention and intersample attention to capture complex interactions across features and data points, both advancing scalability and reducing computational overhead. Hybrid architectures such as TabTransformer and FT-Transformer integrate attention mechanisms with multi-layer perceptrons (MLPs) to handle categorical and numerical data, with FT-Transformer adapting transformers for tabular datasets. Research continues to balance performance and efficiency for large datasets. Graph-based models like GNN4TDL and GANDALF combine neural networks with decision trees or graph structures, enhancing feature representation and mitigating overfitting in small datasets through advanced regularization techniques. Diffusion-based models like the Tabular Denoising Diffusion Probabilistic Model (TabDDPM) generate synthetic data to address data scarcity, improving model robustness. Similarly, models like TabPFN and Ptab leverage pre-trained language models, incorporating transfer learning and self-supervised techniques into tabular tasks. This survey highlights key advancements and outlines future research directions on scalability, generalization, and interpretability in diverse tabular data applications.  
2024-10-14 Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks link Meta-learning has emerged as a prominent technology for few-shot text classification and has achieved promising performance. However, existing methods often encounter difficulties in drawing accurate class prototypes from support set samples, primarily due to probable large intra-class differences and small inter-class differences within the task. Recent approaches attempt to incorporate external knowledge or pre-trained language models to augment data, but this requires additional resources and thus does not suit many few-shot scenarios. In this paper, we propose a novel solution to address this issue by adequately leveraging the information within the task itself. Specifically, we utilize label information to construct a task-adaptive metric space, thereby adaptively reducing the intra-class differences and magnifying the inter-class differences. We further employ the optimal transport technique to estimate class prototypes with query set samples together, mitigating the problem of inaccurate and ambiguous support set samples caused by large intra-class differences. We conduct extensive experiments on eight benchmark datasets, and our approach shows obvious advantages over state-of-the-art models across all the tasks on all the datasets. For reproducibility, all the datasets and codes are available at https://github.com/YvoGao/LAQDA.  
2024-10-14 Scalable Multi-Domain Adaptation of Language Models using Modular Experts null Domain-specific adaptation is critical to maximizing the performance of pre-trained language models (PLMs) on one or multiple targeted tasks, especially under resource-constrained use cases, such as edge devices. However, existing methods often struggle to balance domain-specific performance, retention of general knowledge, and efficiency for training and inference. To address these challenges, we propose Modular Domain Experts (MoDE). MoDE is a mixture-of-experts architecture that augments a general PLMs with modular, domain-specialized experts. These experts are trained independently and composed together via a lightweight training process. In contrast to standard low-rank adaptation methods, each MoDE expert consists of several transformer layers which scale better with more training examples and larger parameter counts. Our evaluation demonstrates that MoDE achieves comparable target performances to full parameter fine-tuning while achieving 1.65% better retention performance. Moreover, MoDE’s architecture enables flexible sharding configurations and improves training speeds by up to 38% over state-of-the-art distributed training configurations.  
2024-10-11 Lifelong Event Detection via Optimal Transport null Continual Event Detection (CED) poses a formidable challenge due to the catastrophic forgetting phenomenon, where learning new tasks (with new coming event types) hampers performance on previous ones. In this paper, we introduce a novel approach, Lifelong Event Detection via Optimal Transport (LEDOT), that leverages optimal transport principles to align the optimization of our classification module with the intrinsic nature of each class, as defined by their pre-trained language modeling. Our method integrates replay sets, prototype latent representations, and an innovative Optimal Transport component. Extensive experiments on MAVEN and ACE datasets demonstrate LEDOT’s superior performance, consistently outperforming state-of-the-art baselines. The results underscore LEDOT as a pioneering solution in continual event detection, offering a more effective and nuanced approach to addressing catastrophic forgetting in evolving environments.  
2024-10-10 Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity link Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically – previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$ -geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.  
2024-10-10 Do Current Language Models Support Code Intelligence for R Programming Language? null Recent advancements in developing Pre-trained Language Models for Code (Code-PLMs) have urged many areas of Software Engineering (SE) and brought breakthrough results for many SE tasks. Though these models have achieved the state-of-the-art performance for SE tasks for many popular programming languages, such as Java and Python, the Scientific Software and its related languages like R programming language have rarely benefited or even been evaluated with the Code-PLMs. Research has shown that R has many differences with other programming languages and requires specific techniques. In this study, we provide the first insights for code intelligence for R. For this purpose, we collect and open source an R dataset, and evaluate Code-PLMs for the two tasks of code summarization and method name prediction using several settings and strategies, including the differences in two R styles, Tidy-verse and Base R. Our results demonstrate that the studied models have experienced varying degrees of performance degradation when processing R programming language code, which is supported by human evaluation. Additionally, not all models show performance improvement in R-specific tasks even after multi-language fine-tuning. The dual syntax paradigms in R significantly impact the models’ performance, particularly in code summarization tasks. Furthermore, the project-specific context inherent in R codebases significantly impacts the performance when attempting cross-project training.  
2024-10-09 Multi-Task Program Error Repair and Explanatory Diagnosis null Program errors can occur in any type of programming, and can manifest in a variety of ways, such as unexpected output, crashes, or performance issues. And program error diagnosis can often be too abstract or technical for developers to understand, especially for beginners. The goal of this paper is to present a novel machine-learning approach for Multi-task Program Error Repair and Explanatory Diagnosis (mPRED). A pre-trained language model is used to encode the source code, and a downstream model is specifically designed to identify and repair errors. Programs and test cases will be augmented and optimized from several perspectives. Additionally, our approach incorporates a “chain of thoughts” method, which enables the models to produce intermediate reasoning explanations before providing the final correction. To aid in visualizing and analyzing the program structure, we use a graph neural network for program structure visualization. Overall, our approach offers a promising approach for repairing program errors across different programming languages and providing helpful explanations to programmers.  
2024-10-08 Manual Verbalizer Enrichment for Few-Shot Text Classification null With the continuous development of pre-trained language models, prompt-based training becomes a well-adopted paradigm that drastically improves the exploitation of models for many natural language processing tasks. Prompting also shows great performance compared to traditional fine-tuning when adapted to zero-shot or few-shot scenarios where the number of annotated data is limited. In this framework, the role of verbalizers is essential, as an interpretation from masked word distributions into output predictions. In this work, we propose \acrshort{mave}, an approach for verbalizer construction by enrichment of class labels using neighborhood relation in the embedding space of words for the text classification task. In addition, we elaborate a benchmarking procedure to evaluate typical baselines of verbalizers for document classification in few-shot learning contexts. Our model achieves state-of-the-art results while using significantly fewer resources. We show that our approach is particularly effective in cases with extremely limited supervision data.  
2024-10-08 Enhancing SPARQL Generation by Triplet-order-sensitive Pre-training link Semantic parsing that translates natural language queries to SPARQL is of great importance for Knowledge Graph Question Answering (KGQA) systems. Although pre-trained language models like T5 have achieved significant success in the Text-to-SPARQL task, their generated outputs still exhibit notable errors specific to the SPARQL language, such as triplet flips. To address this challenge and further improve the performance, we propose an additional pre-training stage with a new objective, Triplet Order Correction (TOC), along with the commonly used Masked Language Modeling (MLM), to collectively enhance the model’s sensitivity to triplet order and SPARQL syntax. Our method achieves state-of-the-art performances on three widely-used benchmarks.  
2024-10-05 Persona Knowledge-Aligned Prompt Tuning Method for Online Debate link Debate is the process of exchanging viewpoints or convincing others on a particular issue. Recent research has provided empirical evidence that the persuasiveness of an argument is determined not only by language usage but also by communicator characteristics. Researchers have paid much attention to aspects of languages, such as linguistic features and discourse structures, but combining argument persuasiveness and impact with the social personae of the audience has not been explored due to the difficulty and complexity. We have observed the impressive simulation and personification capability of ChatGPT, indicating a giant pre-trained language model may function as an individual to provide personae and exert unique influences based on diverse background knowledge. Therefore, we propose a persona knowledge-aligned framework for argument quality assessment tasks from the audience side. This is the first work that leverages the emergence of ChatGPT and injects such audience personae knowledge into smaller language models via prompt tuning. The performance of our pipeline demonstrates significant and consistent improvement compared to competitive architectures.  
2024-10-05 Overview of Factify5WQA: Fact Verification through 5W Question-Answering null Researchers have found that fake news spreads much times faster than real news. This is a major problem, especially in today’s world where social media is the key source of news for many among the younger population. Fact verification, thus, becomes an important task and many media sites contribute to the cause. Manual fact verification is a tedious task, given the volume of fake news online. The Factify5WQA shared task aims to increase research towards automated fake news detection by providing a dataset with an aspect-based question answering based fact verification method. Each claim and its supporting document is associated with 5W questions that help compare the two information sources. The objective performance measure in the task is done by comparing answers using BLEU score to measure the accuracy of the answers, followed by an accuracy measure of the classification. The task had submissions using custom training setup and pre-trained language-models among others. The best performing team posted an accuracy of 69.56%, which is a near 35% improvement over the baseline.  
2024-10-05 On Eliciting Syntax from Language Models via Hashing link Unsupervised parsing, also known as grammar induction, aims to infer syntactic structure from raw text. Recently, binary representation has exhibited remarkable information-preserving capabilities at both lexicon and syntax levels. In this paper, we explore the possibility of leveraging this capability to deduce parsing trees from raw text, relying solely on the implicitly induced grammars within models. To achieve this, we upgrade the bit-level CKY from zero-order to first-order to encode the lexicon and syntax in a unified binary representation space, switch training from supervised to unsupervised under the contrastive hashing framework, and introduce a novel loss function to impose stronger yet balanced alignment signals. Our model shows competitive performance on various datasets, therefore, we claim that our method is effective and efficient enough to acquire high-quality parsing trees from pre-trained language models at a low cost.  
2024-10-03 Reward-RAG: Enhancing RAG with Reward Driven Supervision null In this paper, we introduce Reward-RAG, a novel approach designed to enhance the Retrieval-Augmented Generation (RAG) model through Reward-Driven Supervision. Unlike previous RAG methodologies, which focus on training language models (LMs) to utilize external knowledge retrieved from external sources, our method adapts retrieval information to specific domains by employing CriticGPT to train a dedicated reward model. This reward model generates synthesized datasets for fine-tuning the RAG encoder, aligning its outputs more closely with human preferences. The versatility of our approach allows it to be effectively applied across various domains through domain-specific fine-tuning. We evaluate Reward-RAG on publicly available benchmarks from multiple domains, comparing it to state-of-the-art methods. Our experimental results demonstrate significant improvements in performance, highlighting the effectiveness of Reward-RAG in improving the relevance and quality of generated responses. These findings underscore the potential of integrating reward models with RAG to achieve superior outcomes in natural language generation tasks.  
2024-10-04 Vulnerability Detection via Topological Analysis of Attention Maps link Recently, deep learning (DL) approaches to vulnerability detection have gained significant traction. These methods demonstrate promising results, often surpassing traditional static code analysis tools in effectiveness. In this study, we explore a novel approach to vulnerability detection utilizing the tools from topological data analysis (TDA) on the attention matrices of the BERT model. Our findings reveal that traditional machine learning (ML) techniques, when trained on the topological features extracted from these attention matrices, can perform competitively with pre-trained language models (LLMs) such as CodeBERTa. This suggests that TDA tools, including persistent homology, are capable of effectively capturing semantic information critical for identifying vulnerabilities.  
2024-10-09 What do Large Language Models Need for Machine Translation Evaluation? link Leveraging large language models (LLMs) for various natural language processing tasks has led to superlative claims about their performance. For the evaluation of machine translation (MT), existing research shows that LLMs are able to achieve results comparable to fine-tuned multilingual pre-trained language models. In this paper, we explore what translation information, such as the source, reference, translation errors and annotation guidelines, is needed for LLMs to evaluate MT quality. In addition, we investigate prompting techniques such as zero-shot, Chain of Thought (CoT) and few-shot prompting for eight language pairs covering high-, medium- and low-resource languages, leveraging varying LLM variants. Our findings indicate the importance of reference translations for an LLM-based evaluation. While larger models do not necessarily fare better, they tend to benefit more from CoT prompting, than smaller models. We also observe that LLMs do not always provide a numerical score when generating evaluations, which poses a question on their reliability for the task. Our work presents a comprehensive analysis for resource-constrained and training-less LLM-based evaluation of machine translation. We release the accrued prompt templates, code and data publicly for reproducibility.  
2024-10-04 Generating bilingual example sentences with large language models as lexicography assistants link We present a study of LLMs’ performance in generating and rating example sentences for bilingual dictionaries across languages with varying resource levels: French (high-resource), Indonesian (mid-resource), and Tetun (low-resource), with English as the target language. We evaluate the quality of LLM-generated examples against the GDEX (Good Dictionary EXample) criteria: typicality, informativeness, and intelligibility. Our findings reveal that while LLMs can generate reasonably good dictionary examples, their performance degrades significantly for lower-resourced languages. We also observe high variability in human preferences for example quality, reflected in low inter-annotator agreement rates. To address this, we demonstrate that in-context learning can successfully align LLMs with individual annotator preferences. Additionally, we explore the use of pre-trained language models for automated rating of examples, finding that sentence perplexity serves as a good proxy for typicality and intelligibility in higher-resourced languages. Our study also contributes a novel dataset of 600 ratings for LLM-generated sentence pairs, and provides insights into the potential of LLMs in reducing the cost of lexicographic work, particularly for low-resource languages.  
2024-10-03 Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance link While language models have demonstrated impressive capabilities across a range of tasks, they still struggle with tasks that require complex planning and reasoning. Recent studies have proposed training language models on search processes rather than optimal solutions, resulting in better generalization performance even though search processes are noisy and even suboptimal. However, these studies overlook the value of optimal solutions, which can serve as step-by-step landmarks to guide more effective search. In this work, we explore how to leverage optimal solutions to enhance the search and planning abilities of language models. To this end, we propose guided stream of search (GSoS), which seamlessly incorporates optimal solutions into the self-generation process in a progressive manner, producing high-quality search trajectories. These trajectories are then distilled into the pre-trained model via supervised fine-tuning. Our approach significantly enhances the search and planning abilities of language models on Countdown, a simple yet challenging mathematical reasoning task. Notably, combining our method with RL fine-tuning yields further improvements, whereas previous supervised fine-tuning methods do not benefit from RL. Furthermore, our approach exhibits greater effectiveness than leveraging optimal solutions in the form of subgoal rewards.  
2024-10-03 Does the Order of Fine-tuning Matter and Why? null To improve the performance on a target task, researchers have fine-tuned language models with an intermediate task before the target task of interest. However, previous works have focused on the pre-trained language models and downstream tasks in Natural Language Processing (NLP) and considered only one intermediate task. The effect of fine-tuning multiple intermediate tasks and their ordering on target task performance has not been fully explored in Software Engineering. In this study, we perform the first empirical study on analyzing the impact of task ordering on target task performance. Experimental results show that there is an impact of task ordering on target task performance by up to 6% of performance gain and up to 4% of performance loss. To explain such an impact, we consider a variety of potential factors, including the characteristics of dataset (syntactic similarity and semantic similarity analysis, dataset size), model (probing task and attention analysis), and task (task affinity analysis). Our study provides Software Engineering researchers and practitioners with insights into the effect of task orderings and how to select the one that is cost-effective while achieving the best performance gain.  
2024-10-02 SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics link 基于提示的微调已成为从预训练语言模型中提取编码信息的重要方法,用于各种任务,包括文本分类。对于多类别分类任务,在低资源场景下,基于提示的微调已经实现了与完全微调方法相当的性能水平。先前的研究使用精心设计的提示模板和词语转换器,将标签词空间映射到类别空间,从而将分类问题解决为掩码语言建模任务。然而,具有自动丰富词语转换器的跨领域和细粒度提示微调仍然 unexplored,这主要是由于手动选择领域标签词用于词语转换器存在困难且成本高昂,这需要具备领域专业知识的人员。为了应对这一挑战,我们引入了 SciPrompt,这是一个旨在自动检索与科学主题相关的术语的框架,用于低资源文本分类任务。为此,我们在科学文献的背景下选择语义相关且特定于领域的标签词进行词语转换器增强。此外,我们提出了一种新的词语转换策略,使用相关性得分作为额外的权重,以提高语言模型在模型微调期间的预测性能。我们的方法在少样本和零样本设置下的科学文本分类任务中优于最先进的基于提示的微调方法,特别是在对细粒度和新兴科学主题进行分类方面。  
2024-10-01 PclGPT: A Large Language Model for Patronizing and Condescending Language Detection link Disclaimer: Samples in this paper may be harmful and cause discomfort! Patronizing and condescending language (PCL) is a form of speech directed at vulnerable groups. As an essential branch of toxic language, this type of language exacerbates conflicts and confrontations among Internet communities and detrimentally impacts disadvantaged groups. Traditional pre-trained language models (PLMs) perform poorly in detecting PCL due to its implicit toxicity traits like hypocrisy and false sympathy. With the rise of large language models (LLMs), we can harness their rich emotional semantics to establish a paradigm for exploring implicit toxicity. In this paper, we introduce PclGPT, a comprehensive LLM benchmark designed specifically for PCL. We collect, annotate, and integrate the Pcl-PT/SFT dataset, and then develop a bilingual PclGPT-EN/CN model group through a comprehensive pre-training and supervised fine-tuning staircase process to facilitate implicit toxic detection. Group detection results and fine-grained detection from PclGPT and other models reveal significant variations in the degree of bias in PCL towards different vulnerable groups, necessitating increased societal attention to protect them.  
2024-10-03 Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation null With the rapid development and widespread use of advanced network systems, software vulnerabilities pose a significant threat to secure communications and networking. Learning-based vulnerability detection systems, particularly those leveraging pre-trained language models, have demonstrated significant potential in promptly identifying vulnerabilities in communication networks and reducing the risk of exploitation. However, the shortage of accurately labeled vulnerability datasets hinders further progress in this field. Failing to represent real-world vulnerability data variety and preserve vulnerability semantics, existing augmentation approaches provide limited or even counterproductive contributions to model training. In this paper, we propose a data augmentation technique aimed at enhancing the performance of pre-trained language models for vulnerability detection. Given the vulnerability dataset, our method performs natural semantic-preserving program transformation to generate a large volume of new samples with enriched data diversity and variety. By incorporating our augmented dataset in fine-tuning a series of representative code pre-trained models (i.e., CodeBERT, GraphCodeBERT, UnixCoder, and PDBERT), up to 10.1% increase in accuracy and 23.6% increase in F1 can be achieved in the vulnerability detection task. Comparison results also show that our proposed method can substantially outperform other prominent vulnerability augmentation approaches.  
2024-09-29 Adversarial Examples for DNA Classification null Pre-trained language models such as DNABERT2 and Nucleotide Transformer, which are trained on DNA sequences, have shown promising performance in DNA sequence classification tasks. The classification ability of these models stems from language models trained on vast amounts of DNA sequence samples, followed by fine-tuning with relatively smaller classification datasets. However, these text-based systems are not robust enough and can be vulnerable to adversarial examples. While adversarial attacks have been widely studied in text classification, there is limited research in DNA sequence classification. In this paper, we adapt commonly used attack algorithms in text classification for DNA sequence classification. We evaluated the impact of various attack methods on DNA sequence classification at the character, word, and sentence levels. Our findings indicate that actual DNA language model sequence classifiers are vulnerable to these attacks.  
2024-09-29 NeuroMax: Enhancing Neural Topic Modeling via Maximizing Mutual Information and Group Topic Regularization null Recent advances in neural topic models have concentrated on two primary directions: the integration of the inference network (encoder) with a pre-trained language model (PLM) and the modeling of the relationship between words and topics in the generative model (decoder). However, the use of large PLMs significantly increases inference costs, making them less practical for situations requiring low inference times. Furthermore, it is crucial to simultaneously model the relationships between topics and words as well as the interrelationships among topics themselves. In this work, we propose a novel framework called NeuroMax (Neural Topic Model with Maximizing Mutual Information with Pretrained Language Model and Group Topic Regularization) to address these challenges. NeuroMax maximizes the mutual information between the topic representation obtained from the encoder in neural topic models and the representation derived from the PLM. Additionally, NeuroMax employs optimal transport to learn the relationships between topics by analyzing how information is transported among them. Experimental results indicate that NeuroMax reduces inference time, generates more coherent topics and topic groups, and produces more representative document embeddings, thereby enhancing performance on downstream tasks.  
2024-09-27 Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models null Accurate identification and categorization of suicidal events can yield better suicide precautions, reducing operational burden, and improving care quality in high-acuity psychiatric settings. Pre-trained language models offer promise for identifying suicidality from unstructured clinical narratives. We evaluated the performance of four BERT-based models using two fine-tuning strategies (multiple single-label and single multi-label) for detecting coexisting suicidal events from 500 annotated psychiatric evaluation notes. The notes were labeled for suicidal ideation (SI), suicide attempts (SA), exposure to suicide (ES), and non-suicidal self-injury (NSSI). RoBERTa outperformed other models using binary relevance (acc=0.86, F1=0.78). MentalBERT (F1=0.74) also exceeded BioClinicalBERT (F1=0.72). RoBERTa fine-tuned with a single multi-label classifier further improved performance (acc=0.88, F1=0.81), highlighting that models pre-trained on domain-relevant data and the single multi-label classification strategy enhance efficiency and performance. Keywords: EHR-based Phynotyping; Natural Language Processing; Secondary Use of EHR Data; Suicide Classification; BERT-based Model; Psychiatry; Mental Health  
2024-09-26 Infer Human’s Intentions Before Following Natural Language Instructions link For AI agents to be helpful to humans, they should be able to follow natural language instructions to complete everyday cooperative tasks in human environments. However, real human instructions inherently possess ambiguity, because the human speakers assume sufficient prior knowledge about their hidden goals and intentions. Standard language grounding and planning methods fail to address such ambiguities because they do not model human internal goals as additional partially observable factors in the environment. We propose a new framework, Follow Instructions with Social and Embodied Reasoning (FISER), aiming for better natural language instruction following in collaborative embodied tasks. Our framework makes explicit inferences about human goals and intentions as intermediate reasoning steps. We implement a set of Transformer-based models and evaluate them over a challenging benchmark, HandMeThat. We empirically demonstrate that using social reasoning to explicitly infer human intentions before making action plans surpasses purely end-to-end approaches. We also compare our implementation with strong baselines, including Chain of Thought prompting on the largest available pre-trained language models, and find that FISER provides better performance on the embodied social reasoning tasks under investigation, reaching the state-of-the-art on HandMeThat.  
2024-09-26 Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study null In this study, we delve into the efficacy of transformers within pre-trained language models (PLMs) when repurposed as encoders for Automatic Speech Recognition (ASR). Our underlying hypothesis posits that, despite being initially trained on text-based corpora, these transformers possess a remarkable capacity to extract effective features from the input sequence. This inherent capability, we argue, is transferrable to speech data, thereby augmenting the acoustic modeling ability of ASR. Through rigorous empirical analysis, our findings reveal a notable improvement in Character Error Rate (CER) and Word Error Rate (WER) across diverse ASR tasks when transformers from pre-trained LMs are incorporated. Particularly, they serve as an advantageous starting point for initializing ASR encoders. Furthermore, we uncover that these transformers, when integrated into a well-established ASR encoder, can significantly boost performance, especially in scenarios where profound semantic comprehension is pivotal. This underscores the potential of leveraging the semantic prowess embedded within pre-trained transformers to advance ASR systems’ capabilities.  
2024-09-24 HLB: Benchmarking LLMs’ Humanlikeness in Language Use null As synthetic data becomes increasingly prevalent in training language models, particularly through generated dialogue, concerns have emerged that these models may deviate from authentic human language patterns, potentially losing the richness and creativity inherent in human communication. This highlights the critical need to assess the humanlikeness of language models in real-world language use. In this paper, we present a comprehensive humanlikeness benchmark (HLB) evaluating 20 large language models (LLMs) using 10 psycholinguistic experiments designed to probe core linguistic aspects, including sound, word, syntax, semantics, and discourse (see https://huggingface.co/spaces/XufengDuan/HumanLikeness). To anchor these comparisons, we collected responses from over 2,000 human participants and compared them to outputs from the LLMs in these experiments. For rigorous evaluation, we developed a coding algorithm that accurately identified language use patterns, enabling the extraction of response distributions for each task. By comparing the response distributions between human participants and LLMs, we quantified humanlikeness through distributional similarity. Our results reveal fine-grained differences in how well LLMs replicate human responses across various linguistic levels. Importantly, we found that improvements in other performance metrics did not necessarily lead to greater humanlikeness, and in some cases, even resulted in a decline. By introducing psycholinguistic methods to model evaluation, this benchmark offers the first framework for systematically assessing the humanlikeness of LLMs in language use.  
2024-09-23 DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models link The use of pre-trained language models fine-tuned to address specific downstream tasks is a common approach in natural language processing (NLP). However, acquiring domain-specific knowledge via fine-tuning is challenging. Traditional methods involve pretraining language models using vast amounts of domain-specific data before fine-tuning for particular tasks. This study investigates emergency/non-emergency classification tasks based on electronic medical record (EMR) data obtained from pediatric emergency departments (PEDs) in Korea. Our findings reveal that existing domain-specific pre-trained language models underperform compared to general language models in handling N-lingual free-text data characteristics of non-English-speaking regions. To address these limitations, we propose a domain knowledge transfer methodology that leverages knowledge distillation to infuse general language models with domain-specific knowledge via fine-tuning. This study demonstrates the effective transfer of specialized knowledge between models by defining a general language model as the student model and a domain-specific pre-trained model as the teacher model. In particular, we address the complexities of EMR data obtained from PEDs in non-English-speaking regions, such as Korea, and demonstrate that the proposed method enhances classification performance in such contexts. The proposed methodology not only outperforms baseline models on Korean PED EMR data, but also promises broader applicability in various professional and technical domains. In future works, we intend to extend this methodology to include diverse non-English-speaking regions and address additional downstream tasks, with the aim of developing advanced model architectures using state-of-the-art KD techniques. The code is available in https://github.com/JoSangYeon/DSG-KD.  
2024-09-23 Pre-trained Language Model and Knowledge Distillation for Lightweight Sequential Recommendation null Sequential recommendation models user interests based on historical behaviors to provide personalized recommendation. Previous sequential recommendation algorithms primarily employ neural networks to extract features of user interests, achieving good performance. However, due to the recommendation system datasets sparsity, these algorithms often employ small-scale network frameworks, resulting in weaker generalization capability. Recently, a series of sequential recommendation algorithms based on large pre-trained language models have been proposed. Nonetheless, given the real-time demands of recommendation systems, the challenge remains in applying pre-trained language models for rapid recommendations in real scenarios. To address this, we propose a sequential recommendation algorithm based on a pre-trained language model and knowledge distillation. The key of proposed algorithm is to transfer pre-trained knowledge across domains and achieve lightweight inference by knowledge distillation. The algorithm operates in two stages: in the first stage, we fine-tune the pre-trained language model on the recommendation dataset to transfer the pre-trained knowledge to the recommendation task; in the second stage, we distill the trained language model to transfer the learned knowledge to a lightweight model. Extensive experiments on multiple public recommendation datasets show that the proposed algorithm enhances recommendation accuracy and provide timely recommendation services.  
2024-09-21 Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers null In the era of high performing Large Language Models, researchers have widely acknowledged that contextual word representations are one of the key drivers in achieving top performances in downstream tasks. In this work, we investigate the degree of contextualization encoded in the fine-grained sub-layer representations of a Pre-trained Language Model (PLM) by empirical experiments using linear probes. Unlike previous work, we are particularly interested in identifying the strength of contextualization across PLM sub-layer representations (i.e. Self-Attention, Feed-Forward Activation and Output sub-layers). To identify the main contributions of sub-layers to contextualisation, we first extract the sub-layer representations of polysemous words in minimally different sentence pairs, and compare how these representations change through the forward pass of the PLM network. Second, by probing on a sense identification classification task, we try to empirically localize the strength of contextualization information encoded in these sub-layer representations. With these probing experiments, we also try to gain a better understanding of the influence of context length and context richness on the degree of contextualization. Our main conclusion is cautionary: BERT demonstrates a high degree of contextualization in the top sub-layers if the word in question is in a specific position in the sentence with a shorter context window, but this does not systematically generalize across different word positions and context sizes.  
2024-09-20 Eliciting Instruction-tuned Code Language Models’ Capabilities to Utilize Auxiliary Function for Code Generation null We study the code generation behavior of instruction-tuned models built on top of code pre-trained language models when they could access an auxiliary function to implement a function. We design several ways to provide auxiliary functions to the models by adding them to the query or providing a response prefix to incorporate the ability to utilize auxiliary functions with the instruction-following capability. Our experimental results show the effectiveness of combining the base models’ auxiliary function utilization ability with the instruction following ability. In particular, the performance of adopting our approaches with the open-sourced language models surpasses that of the recent powerful proprietary language models, i.e., gpt-4o.  
2024-09-20 Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis link Logs are imperative in the maintenance of online service systems, which often encompass important information for effective failure mitigation. While existing anomaly detection methodologies facilitate the identification of anomalous logs within extensive runtime data, manual investigation of log messages by engineers remains essential to comprehend faults, which is labor-intensive and error-prone. Upon examining the log-based troubleshooting practices at CloudA, we find that engineers typically prioritize two categories of log information for diagnosis. These include fault-indicating descriptions, which record abnormal system events, and fault-indicating parameters, which specify the associated entities. Motivated by this finding, we propose an approach to automatically extract such faultindicating information from logs for fault diagnosis, named LoFI. LoFI comprises two key stages. In the first stage, LoFI performs coarse-grained filtering to collect logs related to the faults based on semantic similarity. In the second stage, LoFI leverages a pre-trained language model with a novel prompt-based tuning method to extract fine-grained information of interest from the collected logs. We evaluate LoFI on logs collected from Apache Spark and an industrial dataset from CloudA. The experimental results demonstrate that LoFI outperforms all baseline methods by a significant margin, achieving an absolute improvement of 25.8~37.9 in F1 over the best baseline method, ChatGPT. This highlights the effectiveness of LoFI in recognizing fault-indicating information. Furthermore, the successful deployment of LoFI at CloudA and user studies validate the utility of our method. The code and data are available at https://github.com/Jun-jie-Huang/LoFI.  
2024-09-20 HUT: A More Computation Efficient Fine-Tuning Method With Hadamard Updated Transformation null Fine-tuning pre-trained language models for downstream tasks has achieved impressive results in NLP. However, fine-tuning all parameters becomes impractical due to the rapidly increasing size of model parameters. To address this, Parameter Efficient Fine-Tuning (PEFT) methods update only a subset of parameters. Most PEFT methods, such as LoRA, use incremental updates, which involve adding learned weight matrix increments to the original parameters. Although effective, these methods face limitations in capturing complex parameter dynamics and do not maintain a strong correlation between the original and updated parameters. To overcome these challenges, we propose the direct Updated Transformation (UT) paradigm, which constructs a transformation directly from the original to the updated parameters. This approach ensures that the correlation between the original and updated parameters is preserved, leveraging the semantic features learned during pre-training. Building on this paradigm, we present the Hadamard Updated Transformation (HUT) method. HUT efficiently updates the original weight matrix using the Hadamard transformation with two low-rank matrices, offering a more expressive and flexible update mechanism. This allows HUT to capture richer parameter features through functional transformations, reducing computational complexity while maintaining or improving model quality. Theoretical analysis and extensive experiments on RoBERTa and GPT-2 validate the effectiveness of HUT. Results show that HUT performs on par with or better than other PEFT methods in terms of model quality, while significantly reducing computational complexity.  
2024-09-19 Exploring Large Language Models for Product Attribute Value Identification null Product attribute value identification (PAVI) involves automatically identifying attributes and their values from product information, enabling features like product search, recommendation, and comparison. Existing methods primarily rely on fine-tuning pre-trained language models, such as BART and T5, which require extensive task-specific training data and struggle to generalize to new attributes. This paper explores large language models (LLMs), such as LLaMA and Mistral, as data-efficient and robust alternatives for PAVI. We propose various strategies: comparing one-step and two-step prompt-based approaches in zero-shot settings and utilizing parametric and non-parametric knowledge through in-context learning examples. We also introduce a dense demonstration retriever based on a pre-trained T5 model and perform instruction fine-tuning to explicitly train LLMs on task-specific instructions. Extensive experiments on two product benchmarks show that our two-step approach significantly improves performance in zero-shot settings, and instruction fine-tuning further boosts performance when using training data, demonstrating the practical benefits of using LLMs for PAVI.  
2024-09-16 Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models null We introduce Playground v3 (PGv3), our latest text-to-image model that achieves state-of-the-art (SoTA) performance across multiple testing benchmarks, excels in graphic design abilities and introduces new capabilities. Unlike traditional text-to-image generative models that rely on pre-trained language models like T5 or CLIP text encoders, our approach fully integrates Large Language Models (LLMs) with a novel structure that leverages text conditions exclusively from a decoder-only LLM. Additionally, to enhance image captioning quality-we developed an in-house captioner, capable of generating captions with varying levels of detail, enriching the diversity of text structures. We also introduce a new benchmark CapsBench to evaluate detailed image captioning performance. Experimental results demonstrate that PGv3 excels in text prompt adherence, complex reasoning, and accurate text rendering. User preference studies indicate the super-human graphic design ability of our model for common design applications, such as stickers, posters, and logo designs. Furthermore, PGv3 introduces new capabilities, including precise RGB color control and robust multilingual understanding.  
2024-09-14 Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking null Pre-training language models followed by fine-tuning on specific tasks is standard in NLP, but traditional models often underperform when applied to the medical domain, leading to the development of specialized medical pre-trained language models (Med-PLMs). These models are valuable assets but are vulnerable to misuse and theft, requiring copyright protection. However, no existing watermarking methods are tailored for Med-PLMs, and adapting general PLMs watermarking techniques to the medical domain faces challenges such as task incompatibility, loss of fidelity, and inefficiency. To address these issues, we propose the first training-free backdoor watermarking method for Med-PLMs. Our method uses rare special symbols as trigger words, which do not impact downstream task performance, embedding watermarks by replacing their original embeddings with those of specific medical terms in the Med-PLMs’ word embeddings layer. After fine-tuning the watermarked Med-PLMs on various medical downstream tasks, the final models (FMs) respond to the trigger words in the same way they would to the corresponding medical terms. This property can be utilized to extract the watermark. Experiments demonstrate that our method achieves high fidelity while effectively extracting watermarks across various medical downstream tasks. Additionally, our method demonstrates robustness against various attacks and significantly enhances the efficiency of watermark embedding, reducing the embedding time from 10 hours to 10 seconds.  
2024-09-14 Synthetic4Health: Generating Annotated Synthetic Clinical Letters link Since clinical letters contain sensitive information, clinical-related datasets can not be widely applied in model training, medical research, and teaching. This work aims to generate reliable, various, and de-identified synthetic clinical letters. To achieve this goal, we explored different pre-trained language models (PLMs) for masking and generating text. After that, we worked on Bio_ClinicalBERT, a high-performing model, and experimented with different masking strategies. Both qualitative and quantitative methods were used for evaluation. Additionally, a downstream task, Named Entity Recognition (NER), was also implemented to assess the usability of these synthetic letters. The results indicate that 1) encoder-only models outperform encoder-decoder models. 2) Among encoder-only models, those trained on general corpora perform comparably to those trained on clinical data when clinical information is preserved. 3) Additionally, preserving clinical entities and document structure better aligns with our objectives than simply fine-tuning the model. 4) Furthermore, different masking strategies can impact the quality of synthetic clinical letters. Masking stopwords has a positive impact, while masking nouns or verbs has a negative effect. 5) For evaluation, BERTScore should be the primary quantitative evaluation metric, with other metrics serving as supplementary references. 6) Contextual information does not significantly impact the models’ understanding, so the synthetic clinical letters have the potential to replace the original ones in downstream tasks.  
2024-09-12 Knowledge Tagging with Large Language Model based Multi-Agent System null Knowledge tagging for questions is vital in modern intelligent educational applications, including learning progress diagnosis, practice question recommendations, and course content organization. Traditionally, these annotations have been performed by pedagogical experts, as the task demands not only a deep semantic understanding of question stems and knowledge definitions but also a strong ability to link problem-solving logic with relevant knowledge concepts. With the advent of advanced natural language processing (NLP) algorithms, such as pre-trained language models and large language models (LLMs), pioneering studies have explored automating the knowledge tagging process using various machine learning models. In this paper, we investigate the use of a multi-agent system to address the limitations of previous algorithms, particularly in handling complex cases involving intricate knowledge definitions and strict numerical constraints. By demonstrating its superior performance on the publicly available math question knowledge tagging dataset, MathKnowCT, we highlight the significant potential of an LLM-based multi-agent system in overcoming the challenges that previous methods have encountered. Finally, through an in-depth discussion of the implications of automating knowledge tagging, we underscore the promising results of deploying LLM-based algorithms in educational contexts.  
2024-09-12 Fine-tuning Large Language Models for Entity Matching link Generative large language models (LLMs) are a promising alternative to pre-trained language models for entity matching due to their high zero-shot performance and their ability to generalize to unseen entities. Existing research on using LLMs for entity matching has focused on prompt engineering and in-context learning. This paper explores the potential of fine-tuning LLMs for entity matching. We analyze fine-tuning along two dimensions: 1) The representation of training examples, where we experiment with adding different types of LLM-generated explanations to the training set, and 2) the selection and generation of training examples using LLMs. In addition to the matching performance on the source dataset, we investigate how fine-tuning affects the model’s ability to generalize to other in-domain datasets as well as across topical domains. Our experiments show that fine-tuning significantly improves the performance of the smaller models while the results for the larger models are mixed. Fine-tuning also improves the generalization to in-domain datasets while hurting cross-domain transfer. We show that adding structured explanations to the training set has a positive impact on the performance of three out of four LLMs, while the proposed example selection and generation methods only improve the performance of Llama 3.1 8B while decreasing the performance of GPT-4o Mini.  
2024-09-10 Exploring Italian sentence embeddings properties through multi-tasking null We investigate to what degree existing LLMs encode abstract linguistic information in Italian in a multi-task setting. We exploit curated synthetic data on a large scale – several Blackbird Language Matrices (BLMs) problems in Italian – and use them to study how sentence representations built using pre-trained language models encode specific syntactic and semantic information. We use a two-level architecture to model separately a compression of the sentence embeddings into a representation that contains relevant information for a task, and a BLM task. We then investigate whether we can obtain compressed sentence representations that encode syntactic and semantic information relevant to several BLM tasks. While we expected that the sentence structure – in terms of sequence of phrases/chunks – and chunk properties could be shared across tasks, performance and error analysis show that the clues for the different tasks are encoded in different manners in the sentence embeddings, suggesting that abstract linguistic notions such as constituents or thematic roles does not seem to be present in the pretrained sentence embeddings.  
2024-09-09 TransformerRanker: A Tool for Efficiently Finding the Best-Suited Language Models for Downstream Classification Tasks link Classification tasks in NLP are typically addressed by selecting a pre-trained language model (PLM) from a model hub, and fine-tuning it for the task at hand. However, given the very large number of PLMs that are currently available, a practical challenge is to determine which of them will perform best for a specific downstream task. With this paper, we introduce TransformerRanker, a lightweight library that efficiently ranks PLMs for classification tasks without the need for computationally costly fine-tuning. Our library implements current approaches for transferability estimation (LogME, H-Score, kNN), in combination with layer aggregation options, which we empirically showed to yield state-of-the-art rankings of PLMs (Garbas et al., 2024). We designed the interface to be lightweight and easy to use, allowing users to directly connect to the HuggingFace Transformers and Dataset libraries. Users need only select a downstream classification task and a list of PLMs to create a ranking of likely best-suited PLMs for their task. We make TransformerRanker available as a pip-installable open-source library https://github.com/flairNLP/transformer-ranker.  
2024-09-08 Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? link State-of-the-art Large Language Models (LLMs) are accredited with an increasing number of different capabilities, ranging from reading comprehension, over advanced mathematical and reasoning skills to possessing scientific knowledge. In this paper we focus on their multi-hop reasoning capability: the ability to identify and integrate information from multiple textual sources. Given the concerns with the presence of simplifying cues in existing multi-hop reasoning benchmarks, which allow models to circumvent the reasoning requirement, we set out to investigate, whether LLMs are prone to exploiting such simplifying cues. We find evidence that they indeed circumvent the requirement to perform multi-hop reasoning, but they do so in more subtle ways than what was reported about their fine-tuned pre-trained language model (PLM) predecessors. Motivated by this finding, we propose a challenging multi-hop reasoning benchmark, by generating seemingly plausible multi-hop reasoning chains, which ultimately lead to incorrect answers. We evaluate multiple open and proprietary state-of-the-art LLMs, and find that their performance to perform multi-hop reasoning is affected, as indicated by up to 45% relative decrease in F1 score when presented with such seemingly plausible alternatives. We conduct a deeper analysis and find evidence that while LLMs tend to ignore misleading lexical cues, misleading reasoning paths indeed present a significant challenge.  
2024-08-21 CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction null 准确测量蛋白质-RNA结合亲和力在许多生物过程和药物设计中至关重要。以前的蛋白质-RNA结合亲和力预测计算方法依赖于序列或结构特征,无法全面捕捉结合机制。最近出现的在大量无监督蛋白质和RNA序列上训练的预训练语言模型,在包括结合位点预测在内的各种域内下游任务中表现出强大的表示能力。然而,协同应用不同领域的语言模型来完成复杂级别的任务仍未得到探索。在本文中,我们提出了CoPRA,通过蛋白质-RNA结合亲和力预测的复合物结构,将来自不同生物领域的预训练语言模型连接起来。我们首次证明了跨生物模态语言模型可以协同提高结合亲和力预测。我们提出了一个Co-Former来结合跨模态序列和结构信息,并提出了一种双范围预训练策略来提高Co-Former的交互理解能力。同时,我们构建了最大的蛋白质-RNA结合亲和力数据集PRA310用于性能评估。我们还在一个公共数据集上测试了我们模型的突变效应预测能力。CoPRA在所有数据集上都达到了最先进的性能。我们提供了广泛的分析,并验证了CoPRA可以(1)准确预测蛋白质-RNA结合亲和力;(2)理解由突变引起的结合亲和力变化;(3)受益于数据和模型规模的扩大。  
2024-09-03 LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models link Logs play a critical role in providing essential information for system monitoring and troubleshooting. Recently, with the success of pre-trained language models (PLMs) and large language models (LLMs) in natural language processing (NLP), smaller PLMs (such as BERT) and LLMs (like ChatGPT) have become the current mainstream approaches for log analysis. While LLMs possess rich knowledge, their high computational costs and unstable performance make LLMs impractical for analyzing logs directly. In contrast, smaller PLMs can be fine-tuned for specific tasks even with limited computational resources, making them more practical. However, these smaller PLMs face challenges in understanding logs comprehensively due to their limited expert knowledge. To better utilize the knowledge embedded within LLMs for log understanding, this paper introduces a novel knowledge enhancement framework, called LUK, which acquires expert knowledge from LLMs to empower log understanding on a smaller PLM. Specifically, we design a multi-expert collaboration framework based on LLMs consisting of different roles to acquire expert knowledge. In addition, we propose two novel pre-training tasks to enhance the log pre-training with expert knowledge. LUK achieves state-of-the-art results on different log analysis tasks and extensive experiments demonstrate expert knowledge from LLMs can be utilized more effectively to understand logs.  
2024-09-04 MARS: Matching Attribute-aware Representations for Text-based Sequential Recommendation link Sequential recommendation aims to predict the next item a user is likely to prefer based on their sequential interaction history. Recently, text-based sequential recommendation has emerged as a promising paradigm that uses pre-trained language models to exploit textual item features to enhance performance and facilitate knowledge transfer to unseen datasets. However, existing text-based recommender models still struggle with two key challenges: (i) representing users and items with multiple attributes, and (ii) matching items with complex user interests. To address these challenges, we propose a novel model, Matching Attribute-aware Representations for Text-based Sequential Recommendation (MARS). MARS extracts detailed user and item representations through attribute-aware text encoding, capturing diverse user intents with multiple attribute-aware representations. It then computes user-item scores via attribute-wise interaction matching, effectively capturing attribute-level user preferences. Our extensive experiments demonstrate that MARS significantly outperforms existing sequential models, achieving improvements of up to 24.43% and 29.26% in Recall@10 and NDCG@10 across five benchmark datasets. Code is available at https://github.com/junieberry/MARS  
2024-08-31 From Prediction to Application: Language Model-based Code Knowledge Tracing with Domain Adaptive Pre-Training and Automatic Feedback System with Pedagogical Prompting for Comprehensive Programming Education null Knowledge Tracing (KT) is a critical component in online learning, but traditional approaches face limitations in interpretability and cross-domain adaptability. This paper introduces Language Model-based Code Knowledge Tracing (CodeLKT), an innovative application of Language model-based Knowledge Tracing (LKT) to programming education. CodeLKT leverages pre-trained language models to process learning data, demonstrating superior performance over existing KT and Code KT models. We explore Domain Adaptive Pre-Training (DAPT) and Task Adaptive Pre-Training (TAPT), showing enhanced performance in the coding domain and investigating cross-domain transfer between mathematics and coding. Additionally, we present an theoretically-informed integrated system combining CodeLKT with large language models to generate personalized, in-depth feedback to support students’ programming learning. This work advances the field of Code Knowledge Tracing by expanding the knowledge base with language model-based approach and offering practical implications for programming education through data-informed feedback.  
2024-08-30 Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage null Fine-tuning large language models on private data for downstream applications poses significant privacy risks in potentially exposing sensitive information. Several popular community platforms now offer convenient distribution of a large variety of pre-trained models, allowing anyone to publish without rigorous verification. This scenario creates a privacy threat, as pre-trained models can be intentionally crafted to compromise the privacy of fine-tuning datasets. In this study, we introduce a novel poisoning technique that uses model-unlearning as an attack tool. This approach manipulates a pre-trained language model to increase the leakage of private data during the fine-tuning process. Our method enhances both membership inference and data extraction attacks while preserving model utility. Experimental results across different models, datasets, and fine-tuning setups demonstrate that our attacks significantly surpass baseline performance. This work serves as a cautionary note for users who download pre-trained models from unverified sources, highlighting the potential risks involved.  
2024-08-24 Empowering Pre-Trained Language Models for Spatio-Temporal Forecasting via Decoupling Enhanced Discrete Reprogramming null Spatio-temporal time series forecasting plays a critical role in various real-world applications, such as transportation optimization, energy management, and climate analysis. The recent advancements in Pre-trained Language Models (PLMs) have inspired efforts to reprogram these models for time series forecasting tasks, by leveraging their superior reasoning and generalization capabilities. However, existing approaches fall short in handling complex spatial inter-series dependencies and intrinsic intra-series frequency components, limiting their spatio-temporal forecasting performance. Moreover, the linear mapping of continuous time series to a compressed subset vocabulary in reprogramming constrains the spatio-temporal semantic expressivity of PLMs and may lead to potential information bottleneck. To overcome the above limitations, we propose \textsc{RePST}, a tailored PLM reprogramming framework for spatio-temporal forecasting. The key insight of \textsc{RePST} is to decouple the spatio-temporal dynamics in the frequency domain, allowing better alignment with the PLM text space. Specifically, we first decouple spatio-temporal data in Fourier space and devise a structural diffusion operator to obtain temporal intrinsic and spatial diffusion signals, making the dynamics more comprehensible and predictable for PLMs. To avoid information bottleneck from a limited vocabulary, we further propose a discrete reprogramming strategy that selects relevant discrete textual information from an expanded vocabulary space in a differentiable manner. Extensive experiments on four real-world datasets show that our proposed approach significantly outperforms state-of-the-art spatio-temporal forecasting models, particularly in data-scarce scenarios.  
2024-08-23 SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks null Prompting has become a practical method for utilizing pre-trained language models (LMs). This approach offers several advantages. It allows an LM to adapt to new tasks with minimal training and parameter updates, thus achieving efficiency in both storage and computation. Additionally, prompting modifies only the LM’s inputs and harnesses the generative capabilities of language models to address various downstream tasks in a unified manner. This significantly reduces the need for human labor in designing task-specific models. These advantages become even more evident as the number of tasks served by the LM scales up. Motivated by the strengths of prompting, we are the first to explore the potential of prompting speech LMs in the domain of speech processing. Recently, there has been a growing interest in converting speech into discrete units for language modeling. Our pioneer research demonstrates that these quantized speech units are highly versatile within our unified prompting framework. Not only can they serve as class labels, but they also contain rich phonetic information that can be re-synthesized back into speech signals for speech generation tasks. Specifically, we reformulate speech processing tasks into speech-to-unit generation tasks. As a result, we can seamlessly integrate tasks such as speech classification, sequence generation, and speech generation within a single, unified prompting framework. The experiment results show that the prompting method can achieve competitive performance compared to the strong fine-tuning method based on self-supervised learning models with a similar number of trainable parameters. The prompting method also shows promising results in the few-shot setting. Moreover, with the advanced speech LMs coming into the stage, the proposed prompting framework attains great potential.  
2024-08-23 Investigating LLM Applications in E-Commerce null The emergence of Large Language Models (LLMs) has revolutionized natural language processing in various applications especially in e-commerce. One crucial step before the application of such LLMs in these fields is to understand and compare the performance in different use cases in such tasks. This paper explored the efficacy of LLMs in the e-commerce domain, focusing on instruction-tuning an open source LLM model with public e-commerce datasets of varying sizes and comparing the performance with the conventional models prevalent in industrial applications. We conducted a comprehensive comparison between LLMs and traditional pre-trained language models across specific tasks intrinsic to the e-commerce domain, namely classification, generation, summarization, and named entity recognition (NER). Furthermore, we examined the effectiveness of the current niche industrial application of very large LLM, using in-context learning, in e-commerce specific tasks. Our findings indicate that few-shot inference with very large LLMs often does not outperform fine-tuning smaller pre-trained models, underscoring the importance of task-specific model optimization.Additionally, we investigated different training methodologies such as single-task training, mixed-task training, and LoRA merging both within domain/tasks and between different tasks. Through rigorous experimentation and analysis, this paper offers valuable insights into the potential effectiveness of LLMs to advance natural language processing capabilities within the e-commerce industry.  
2024-08-22 AutoTest: Evolutionary Code Solution Selection with Test Cases null 随着代码生成技术的发展,从多个候选方案中选择正确的代码方案已成为一项至关重要的任务。本研究提出了一种名为AutoTest的新技术,该技术将自动测试用例生成与代码方案执行相结合,利用进化遗传算法优化选择过程。首先,AutoTest利用诸如codegen-16B、code-davinci-002和incoder-6B等大型预训练语言模型来提供代码方案及其相应的测试用例。然后,通过执行代码方案并评估其在测试用例上的性能,形成共识集。基于进化遗传算法的选择、变异和交叉机制,通过调整alpha和beta参数,实现细粒度排名。最后,选择最佳代码方案。AutoTest在HumanEval基准测试中展现出显著的性能提升。HumanEval数据集包含164个编程问题,AutoTest在pass@1分数方面比基线方法提高了约10%。  
2024-08-24 SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding null In the era of large language models (LLMs), the task of ``System I’’~-~the fast, unconscious, and intuitive tasks, e.g., sentiment analysis, text classification, etc., have been argued to be successfully solved. However, sarcasm, as a subtle linguistic phenomenon, often employs rhetorical devices like hyperbole and figuration to convey true sentiments and intentions, involving a higher level of abstraction than sentiment analysis. There is growing concern that the argument about LLMs’ success may not be fully tenable when considering sarcasm understanding. To address this question, we select eleven SOTA LLMs and eight SOTA pre-trained language models (PLMs) and present comprehensive evaluations on six widely used benchmark datasets through different prompting approaches, i.e., zero-shot input/output (IO) prompting, few-shot IO prompting, chain of thought (CoT) prompting. Our results highlight three key findings: (1) current LLMs underperform supervised PLMs based sarcasm detection baselines across six sarcasm benchmarks. This suggests that significant efforts are still required to improve LLMs’ understanding of human sarcasm. (2) GPT-4 consistently and significantly outperforms other LLMs across various prompting methods, with an average improvement of 14.0\% $\uparrow$ . Claude 3 and ChatGPT demonstrate the next best performance after GPT-4. (3) Few-shot IO prompting method outperforms the other two methods: zero-shot IO and few-shot CoT. The reason is that sarcasm detection, being a holistic, intuitive, and non-rational cognitive process, is argued not to adhere to step-by-step logical reasoning, making CoT less effective in understanding sarcasm compared to its effectiveness in mathematical reasoning tasks.  
2024-08-20 Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution link Tabular data, a prevalent data type across various domains, presents unique challenges due to its heterogeneous nature and complex structural relationships. Achieving high predictive performance and robustness in tabular data analysis holds significant promise for numerous applications. Influenced by recent advancements in natural language processing, particularly transformer architectures, new methods for tabular data modeling have emerged. Early techniques concentrated on pre-training transformers from scratch, often encountering scalability issues. Subsequently, methods leveraging pre-trained language models like BERT have been developed, which require less data and yield enhanced performance. The recent advent of large language models, such as GPT and LLaMA, has further revolutionized the field, facilitating more advanced and diverse applications with minimal fine-tuning. Despite the growing interest, a comprehensive survey of language modeling techniques for tabular data remains absent. This paper fills this gap by providing a systematic review of the development of language modeling for tabular data, encompassing: (1) a categorization of different tabular data structures and data types; (2) a review of key datasets used in model training and tasks used for evaluation; (3) a summary of modeling techniques including widely-adopted data processing methods, popular architectures, and training objectives; (4) the evolution from adapting traditional Pre-training/Pre-trained language models to the utilization of large language models; (5) an identification of persistent challenges and potential future research directions in language modeling for tabular data analysis. GitHub page associated with this survey is available at: https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git.  

(<a href=#updated-on-20241204>back to top</a>)

Transformer

Publish Date Title Code Abstract  
2024-12-03 The Asymptotic Behavior of Attention in Transformers null A key component of transformers is the attention mechanism orchestrating how each token influences the propagation of every other token through a transformer. In this paper we provide a rigorous, mathematical analysis of the asymptotic properties of attention in transformers. Although we present several results based on different assumptions, all of them point to the same conclusion, all tokens asymptotically converge to each other, a phenomenon that has been empirically reported in the literature. Our findings are carefully compared with existing theoretical results and illustrated by simulations and experimental studies using the GPT-2 model.  
2024-12-03 FCL-ViT: Task-Aware Attention Tuning for Continual Learning null Continual Learning (CL) involves adapting the prior Deep Neural Network (DNN) knowledge to new tasks, without forgetting the old ones. However, modern CL techniques focus on provisioning memory capabilities to existing DNN models rather than designing new ones that are able to adapt according to the task at hand. This paper presents the novel Feedback Continual Learning Vision Transformer (FCL-ViT) that uses a feedback mechanism to generate real-time dynamic attention features tailored to the current task. The FCL-ViT operates in two Phases. In phase 1, the generic image features are produced and determine where the Transformer should attend on the current image. In phase 2, task-specific image features are generated that leverage dynamic attention. To this end, Tunable self-Attention Blocks (TABs) and Task Specific Blocks (TSBs) are introduced that operate in both phases and are responsible for tuning the TABs attention, respectively. The FCL-ViT surpasses state-of-the-art performance on Continual Learning compared to benchmark methods, while retaining a small number of trainable DNN parameters.  
2024-12-03 UniForm: A Reuse Attention Mechanism Optimized for Efficient Vision Transformers on Edge Devices null Transformer-based architectures have demonstrated remarkable success across various domains, but their deployment on edge devices remains challenging due to high memory and computational demands. In this paper, we introduce a novel Reuse Attention mechanism, tailored for efficient memory access and computational optimization, enabling seamless operation on resource-constrained platforms without compromising performance. Unlike traditional multi-head attention (MHA), which redundantly computes separate attention matrices for each head, Reuse Attention consolidates these computations into a shared attention matrix, significantly reducing memory overhead and computational complexity. Comprehensive experiments on ImageNet-1K and downstream tasks show that the proposed UniForm models leveraging Reuse Attention achieve state-of-the-art imagenet classification accuracy while outperforming existing attention mechanisms, such as Linear Attention and Flash Attention, in inference speed and memory scalability. Notably, UniForm-l achieves a 76.7% Top-1 accuracy on ImageNet-1K with 21.8ms inference time on edge devices like the Jetson AGX Orin, representing up to a 5x speedup over competing benchmark methods. These results demonstrate the versatility of Reuse Attention across high-performance GPUs and edge platforms, paving the way for broader real-time applications  
2024-12-03 GQWformer: A Quantum-based Transformer for Graph Representation Learning null Graph Transformers (GTs) have demonstrated significant advantages in graph representation learning through their global attention mechanisms. However, the self-attention mechanism in GTs tends to neglect the inductive biases inherent in graph structures, making it chanllenging to effectively capture essential structural information. To address this issue, we propose a novel approach that integrate graph inductive bias into self-attention mechanisms by leveraging quantum technology for structural encoding. In this paper, we introduce the Graph Quantum Walk Transformer (GQWformer), a groundbreaking GNN framework that utilizes quantum walks on attributed graphs to generate node quantum states. These quantum states encapsulate rich structural attributes and serve as inductive biases for the transformer, thereby enabling the generation of more meaningful attention scores. By subsequently incorporating a recurrent neural network, our design amplifies the model’s ability to focus on both local and global information. We conducted comprehensive experiments across five publicly available datasets to evaluate the effectiveness of our model. These results clearly indicate that GQWformer outperforms existing state-of-the-art graph classification algorithms. These findings highlight the significant potential of integrating quantum computing methodologies with traditional GNNs to advance the field of graph representation learning, providing a promising direction for future research and applications.  
2024-12-02 FGATT: A Robust Framework for Wireless Data Imputation Using Fuzzy Graph Attention Networks and Transformer Encoders null Missing data is a pervasive challenge in wireless networks and many other domains, often compromising the performance of machine learning and deep learning models. To address this, we propose a novel framework, FGATT, that combines the Fuzzy Graph Attention Network (FGAT) with the Transformer encoder to perform robust and accurate data imputation. FGAT leverages fuzzy rough sets and graph attention mechanisms to capture spatial dependencies dynamically, even in scenarios where predefined spatial information is unavailable. The Transformer encoder is employed to model temporal dependencies, utilizing its self-attention mechanism to focus on significant time-series patterns. A self-adaptive graph construction method is introduced to enable dynamic connectivity learning, ensuring the framework’s applicability to a wide range of wireless datasets. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods in imputation accuracy and robustness, particularly in scenarios with substantial missing data. The proposed model is well-suited for applications in wireless sensor networks and IoT environments, where data integrity is critical.  
2024-12-03 Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis null This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating ~11% faster sampling and lower memory usage while also achieving slightly better generation quality. Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. By disabling guidance at these scales, we achieve an additional sampling acceleration of ~20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7 times faster.  
2024-12-02 Efficient Semantic Communication Through Transformer-Aided Compression null Transformers, known for their attention mechanisms, have proven highly effective in focusing on critical elements within complex data. This feature can effectively be used to address the time-varying channels in wireless communication systems. In this work, we introduce a channel-aware adaptive framework for semantic communication, where different regions of the image are encoded and compressed based on their semantic content. By employing vision transformers, we interpret the attention mask as a measure of the semantic contents of the patches and dynamically categorize the patches to be compressed at various rates as a function of the instantaneous channel bandwidth. Our method enhances communication efficiency by adapting the encoding resolution to the content’s relevance, ensuring that even in highly constrained environments, critical information is preserved. We evaluate the proposed adaptive transmission framework using the TinyImageNet dataset, measuring both reconstruction quality and accuracy. The results demonstrate that our approach maintains high semantic fidelity while optimizing bandwidth, providing an effective solution for transmitting multi-resolution data in limited bandwidth conditions.  
2024-12-02 Epipolar Attention Field Transformers for Bird’s Eye View Semantic Segmentation null Spatial understanding of the semantics of the surroundings is a key capability needed by autonomous cars to enable safe driving decisions. Recently, purely vision-based solutions have gained increasing research interest. In particular, approaches extracting a bird’s eye view (BEV) from multiple cameras have demonstrated great performance for spatial understanding. This paper addresses the dependency on learned positional encodings to correlate image and BEV feature map elements for transformer-based methods. We propose leveraging epipolar geometric constraints to model the relationship between cameras and the BEV by Epipolar Attention Fields. They are incorporated into the attention mechanism as a novel attribution term, serving as an alternative to learned positional encodings. Experiments show that our method EAFormer outperforms previous BEV approaches by 2% mIoU for map semantic segmentation and exhibits superior generalization capabilities compared to implicitly learning the camera configuration.  
2024-12-02 VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval link Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video analysis. Recent joint prediction transformer models often overlook their cross-task dynamics and video-text alignment and refinement. Moreover, most models typically use limited, uni-directional attention mechanisms, resulting in weakly integrated representations and suboptimal performance in capturing the interdependence between video and text modalities. Although large-language and vision-language models (LLM/LVLMs) have gained prominence across various domains, their application in this field remains relatively underexplored. Here we propose VideoLights, a novel HD/MR framework addressing these limitations through (i) Convolutional Projection and Feature Refinement modules with an alignment loss for better video-text feature alignment, (ii) Bi-Directional Cross-Modal Fusion network for strongly coupled query-aware clip representations, and (iii) Uni-directional joint-task feedback mechanism enhancing both tasks through correlation. In addition, (iv) we introduce hard positive/negative losses for adaptive error penalization and improved learning, and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration and intelligent pretraining using synthetic data generated from LVLMs. Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks demonstrate state-of-the-art performance. Codes and models are available at https://github.com/dpaul06/VideoLights .  
2024-12-02 ReHub: Linear Complexity Graph Transformers with Adaptive Hub-Spoke Reassignment null We present ReHub, a novel graph transformer architecture that achieves linear complexity through an efficient reassignment technique between nodes and virtual nodes. Graph transformers have become increasingly important in graph learning for their ability to utilize long-range node communication explicitly, addressing limitations such as oversmoothing and oversquashing found in message-passing graph networks. However, their dense attention mechanism scales quadratically with the number of nodes, limiting their applicability to large-scale graphs. ReHub draws inspiration from the airline industry’s hub-and-spoke model, where flights are assigned to optimize operational efficiency. In our approach, graph nodes (spokes) are dynamically reassigned to a fixed number of virtual nodes (hubs) at each model layer. Recent work, Neural Atoms (Li et al., 2024), has demonstrated impressive and consistent improvements over GNN baselines by utilizing such virtual nodes; their findings suggest that the number of hubs strongly influences performance. However, increasing the number of hubs typically raises complexity, requiring a trade-off to maintain linear complexity. Our key insight is that each node only needs to interact with a small subset of hubs to achieve linear complexity, even when the total number of hubs is large. To leverage all hubs without incurring additional computational costs, we propose a simple yet effective adaptive reassignment technique based on hub-hub similarity scores, eliminating the need for expensive node-hub computations. Our experiments on LRGB indicate a consistent improvement in results over the base method, Neural Atoms, while maintaining a linear complexity. Remarkably, our sparse model achieves performance on par with its non-sparse counterpart. Furthermore, ReHub outperforms competitive baselines and consistently ranks among top performers across various benchmarks.  
2024-11-29 KV Shifting Attention Enhances Language Modeling null The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model’s induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model’s requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.  
2024-11-28 Quantum feedback control with a transformer neural network architecture null Attention-based neural networks such as transformers have revolutionized various fields such as natural language processing, genomics, and vision. Here, we demonstrate the use of transformers for quantum feedback control through a supervised learning approach. In particular, due to the transformer’s ability to capture long-range temporal correlations and training efficiency, we show that it can surpass some of the limitations of previous control approaches, e.g.~those based on recurrent neural networks trained using a similar approach or reinforcement learning. We numerically show, for the example of state stabilization of a two-level system, that our bespoke transformer architecture can achieve unit fidelity to a target state in a short time even in the presence of inefficient measurement and Hamiltonian perturbations that were not included in the training set. We also demonstrate that this approach generalizes well to the control of non-Markovian systems. Our approach can be used for quantum error correction, fast control of quantum states in the presence of colored noise, as well as real-time tuning, and characterization of quantum devices.  
2024-11-28 Pilot Contamination Aware Transformer for Downlink Power Control in Cell-Free Massive MIMO Networks null Learning-based downlink power control in cell-free massive multiple-input multiple-output (CFmMIMO) systems offers a promising alternative to conventional iterative optimization algorithms, which are computationally intensive due to online iterative steps. Existing learning-based methods, however, often fail to exploit the intrinsic structure of channel data and neglect pilot allocation information, leading to suboptimal performance, especially in large-scale networks with many users. This paper introduces the pilot contamination-aware power control (PAPC) transformer neural network, a novel approach that integrates pilot allocation data into the network, effectively handling pilot contamination scenarios. PAPC employs the attention mechanism with a custom masking technique to utilize structural information and pilot data. The architecture includes tailored preprocessing and post-processing stages for efficient feature extraction and adherence to power constraints. Trained in an unsupervised learning framework, PAPC is evaluated against the accelerated proximal gradient (APG) algorithm, showing comparable spectral efficiency fairness performance while significantly improving computational efficiency. Simulations demonstrate PAPC’s superior performance over fully connected networks (FCNs) that lack pilot information, its scalability to large-scale CFmMIMO networks, and its computational efficiency improvement over APG. Additionally, by employing padding techniques, PAPC adapts to the dynamically varying number of users without retraining.  
2024-11-27 TS3-Codec: Transformer-Based Simple Streaming Single Codec null Neural audio codecs (NACs) have garnered significant attention as key technologies for audio compression as well as audio representation for speech language models. While mainstream NAC models are predominantly convolution-based, the performance of NACs with a purely transformer-based, and convolution-free architecture remains unexplored. This paper introduces TS3-Codec, a Transformer-Based Simple Streaming Single Codec. TS3-Codec consists of only a stack of transformer layers with a few linear layers, offering greater simplicity and expressiveness by fully eliminating convolution layers that require careful hyperparameter tuning and large computations. Under the streaming setup, the proposed TS3-Codec achieves comparable or superior performance compared to the codec with state-of-the-art convolution-based architecture while requiring only 12% of the computation and 77% of bitrate. Furthermore, it significantly outperforms the convolution-based codec when using similar computational resources.  
2024-11-27 HDI-Former: Hybrid Dynamic Interaction ANN-SNN Transformer for Object Detection Using Frames and Events null Combining the complementary benefits of frames and events has been widely used for object detection in challenging scenarios. However, most object detection methods use two independent Artificial Neural Network (ANN) branches, limiting cross-modality information interaction across the two visual streams and encountering challenges in extracting temporal cues from event streams with low power consumption. To address these challenges, we propose HDI-Former, a Hybrid Dynamic Interaction ANN-SNN Transformer, marking the first trial to design a directly trained hybrid ANN-SNN architecture for high-accuracy and energy-efficient object detection using frames and events. Technically, we first present a novel semantic-enhanced self-attention mechanism that strengthens the correlation between image encoding tokens within the ANN Transformer branch for better performance. Then, we design a Spiking Swin Transformer branch to model temporal cues from event streams with low power consumption. Finally, we propose a bio-inspired dynamic interaction mechanism between ANN and SNN sub-networks for cross-modality information interaction. The results demonstrate that our HDI-Former outperforms eleven state-of-the-art methods and our four baselines by a large margin. Our SNN branch also shows comparable performance to the ANN with the same architecture while consuming 10.57 $\times$ less energy on the DSEC-Detection dataset. Our open-source code is available in the supplementary material.  
2024-11-27 PATHS: A Hierarchical Transformer for Efficient Whole Slide Image Analysis null Computational analysis of whole slide images (WSIs) has seen significant research progress in recent years, with applications ranging across important diagnostic and prognostic tasks such as survival or cancer subtype prediction. Many state-of-the-art models process the entire slide - which may be as large as $150,000 \times 150,000$ pixels - as a bag of many patches, the size of which necessitates computationally cheap feature aggregation methods. However, a large proportion of these patches are uninformative, such as those containing only healthy or adipose tissue, adding significant noise and size to the bag. We propose Pathology Transformer with Hierarchical Selection (PATHS), a novel top-down method for hierarchical weakly supervised representation learning on slide-level tasks in computational pathology. PATHS is inspired by the cross-magnification manner in which a human pathologist examines a slide, recursively filtering patches at each magnification level to a small subset relevant to the diagnosis. Our method overcomes the complications of processing the entire slide, enabling quadratic self-attention and providing a simple interpretable measure of region importance. We apply PATHS to five datasets of The Cancer Genome Atlas (TCGA), and achieve superior performance on slide-level prediction tasks when compared to previous methods, despite processing only a small proportion of the slide.  
2024-11-27 Spectral-Spatial Transformer with Active Transfer Learning for Hyperspectral Image Classification link The classification of hyperspectral images (HSI) is a challenging task due to the high spectral dimensionality and limited labeled data typically available for training. In this study, we propose a novel multi-stage active transfer learning (ATL) framework that integrates a Spatial-Spectral Transformer (SST) with an active learning process for efficient HSI classification. Our approach leverages a pre-trained (initially trained) SST model, fine-tuned iteratively on newly acquired labeled samples using an uncertainty-diversity (Spatial-Spectral Neighborhood Diversity) querying mechanism. This mechanism identifies the most informative and diverse samples, thereby optimizing the transfer learning process to reduce both labeling costs and model uncertainty. We further introduce a dynamic freezing strategy, selectively freezing layers of the SST model to minimize computational overhead while maintaining adaptability to spectral variations in new data. One of the key innovations in our work is the self-calibration of spectral and spatial attention weights, achieved through uncertainty-guided active learning. This not only enhances the model’s robustness in handling dynamic and disjoint spectral profiles but also improves generalization across multiple HSI datasets. Additionally, we present a diversity-promoting sampling strategy that ensures the selected samples span distinct spectral regions, preventing overfitting to particular spectral classes. Experiments on benchmark HSI datasets demonstrate that the SST-ATL framework significantly outperforms existing CNN and SST-based methods, offering superior accuracy, efficiency, and computational performance. The source code can be accessed at \url{https://github.com/mahmad000/ATL-SST}.  
2024-11-27 HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution null In the research area of image super-resolution, Swin-transformer-based models are favored for their global spatial modeling and shifting window attention mechanism. However, existing methods often limit self-attention to non overlapping windows to cut costs and ignore the useful information that exists across channels. To address this issue, this paper introduces a novel model, the Hybrid Attention Aggregation Transformer (HAAT), designed to better leverage feature information. HAAT is constructed by integrating Swin-Dense-Residual-Connected Blocks (SDRCB) with Hybrid Grid Attention Blocks (HGAB). SDRCB expands the receptive field while maintaining a streamlined architecture, resulting in enhanced performance. HGAB incorporates channel attention, sparse attention, and window attention to improve nonlocal feature fusion and achieve more visually compelling results. Experimental evaluations demonstrate that HAAT surpasses state-of-the-art methods on benchmark datasets. Keywords: Image super-resolution, Computer vision, Attention mechanism, Transformer  
2024-11-26 Geometric Point Attention Transformer for 3D Shape Reassembly null Shape assembly, which aims to reassemble separate parts into a complete object, has gained significant interest in recent years. Existing methods primarily rely on networks to predict the poses of individual parts, but often fail to effectively capture the geometric interactions between the parts and their poses. In this paper, we present the Geometric Point Attention Transformer (GPAT), a network specifically designed to address the challenges of reasoning about geometric relationships. In the geometric point attention module, we integrate both global shape information and local pairwise geometric features, along with poses represented as rotation and translation vectors for each part. To enable iterative updates and dynamic reasoning, we introduce a geometric recycling scheme, where each prediction is fed into the next iteration for refinement. We evaluate our model on both the semantic and geometric assembly tasks, showing that it outperforms previous methods in absolute pose estimation, achieving accurate pose predictions and high alignment accuracy.  
2024-11-26 TAFM-Net: A Novel Approach to Skin Lesion Segmentation Using Transformer Attention and Focal Modulation null Incorporating modern computer vision techniques into clinical protocols shows promise in improving skin lesion segmentation. The U-Net architecture has been a key model in this area, iteratively improved to address challenges arising from the heterogeneity of dermatologic images due to varying clinical settings, lighting, patient attributes, and hair density. To further improve skin lesion segmentation, we developed TAFM-Net, an innovative model leveraging self-adaptive transformer attention (TA) coupled with focal modulation (FM). Our model integrates an EfficientNetV2B1 encoder, which employs TA to enhance spatial and channel-related saliency, while a densely connected decoder integrates FM within skip connections, enhancing feature emphasis, segmentation performance, and interpretability crucial for medical image analysis. A novel dynamic loss function amalgamates region and boundary information, guiding effective model training. Our model achieves competitive performance, with Jaccard coefficients of 93.64\%, 86.88\% and 92.88\% in the ISIC2016, ISIC2017 and ISIC2018 datasets, respectively, demonstrating its potential in real-world scenarios.  
2024-11-26 GrokFormer: Graph Fourier Kolmogorov-Arnold Transformers link Graph Transformers (GTs) have demonstrated remarkable performance in incorporating various graph structure information, e.g., long-range structural dependency, into graph representation learning. However, self-attention – the core module of GTs – preserves only low-frequency signals on graph features, retaining only homophilic patterns that capture similar features among the connected nodes. Consequently, it has insufficient capacity in modeling complex node label patterns, such as the opposite of homophilic patterns – heterophilic patterns. Some improved GTs deal with the problem by learning polynomial filters or performing self-attention over the first-order graph spectrum. However, these GTs either ignore rich information contained in the whole spectrum or neglect higher-order spectrum information, resulting in limited flexibility and frequency response in their spectral filters. To tackle these challenges, we propose a novel GT network, namely Graph Fourier Kolmogorov-Arnold Transformers (GrokFormer), to go beyond the self-attention in GTs. GrokFormer leverages learnable activation functions in order- $K$ graph spectrum through Fourier series modeling to i) learn eigenvalue-targeted filter functions producing learnable base that can capture a broad range of frequency signals flexibly, and ii) extract first- and higher-order graph spectral information adaptively. In doing so, GrokFormer can effectively capture intricate patterns hidden across different orders and levels of frequency signals, learning expressive, order-and-frequency-adaptive graph representations. Comprehensive experiments conducted on 10 node classification datasets across various domains, scales, and levels of graph heterophily, as well as 5 graph classification datasets, demonstrate that GrokFormer outperforms state-of-the-art GTs and other advanced graph neural networks.  
2024-11-26 MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution null Recent advances in image super-resolution (SR) have significantly benefited from the incorporation of Transformer architectures. However, conventional techniques aimed at enlarging the self-attention window to capture broader contexts come with inherent drawbacks, especially the significantly increased computational demands. Moreover, the feature perception within a fixed-size window of existing models restricts the effective receptive fields and the intermediate feature diversity. This study demonstrates that a flexible integration of attention across diverse spatial extents can yield significant performance enhancements. In line with this insight, we introduce Multi-Range Attention Transformer (MAT) tailored for SR tasks. MAT leverages the computational advantages inherent in dilation operation, in conjunction with self-attention mechanism, to facilitate both multi-range attention (MA) and sparse multi-range attention (SMA), enabling efficient capture of both regional and sparse global features. Further coupled with local feature extraction, MAT adeptly capture dependencies across various spatial ranges, improving the diversity and efficacy of its feature representations. We also introduce the MSConvStar module, which augments the model’s ability for multi-range representation learning. Comprehensive experiments show that our MAT exhibits superior performance to existing state-of-the-art SR models with remarkable efficiency (~3.3 faster than SRFormer-light).  
2024-11-26 Star Attention: Efficient LLM Inference over Long Sequences link Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.  
2024-11-26 ΩSFormer: Dual-Modal Ω-like Super-Resolution Transformer Network for Cross-scale and High-accuracy Terraced Field Vectorization Extraction null Terraced field is a significant engineering practice for soil and water conservation (SWC). Terraced field extraction from remotely sensed imagery is the foundation for monitoring and evaluating SWC. This study is the first to propose a novel dual-modal {\Omega}-like super-resolution Transformer network for intelligent TFVE, offering the following advantages: (1) reducing edge segmentation error from conventional multi-scale downsampling encoder, through fusing original high-resolution features with downsampling features at each step of encoder and leveraging a multi-head attention mechanism; (2) improving the accuracy of TFVE by proposing a {\Omega}-like network structure, which fully integrates rich high-level features from both spectral and terrain data to form cross-scale super-resolution features; (3) validating an optimal fusion scheme for cross-modal and cross-scale (i.e., inconsistent spatial resolution between remotely sensed imagery and DEM) super-resolution feature extraction; (4) mitigating uncertainty between segmentation edge pixels by a coarse-to-fine and spatial topological semantic relationship optimization (STSRO) segmentation strategy; (5) leveraging contour vibration neural network to continuously optimize parameters and iteratively vectorize terraced fields from semantic segmentation results. Moreover, a DMRVD for deep-learning-based TFVE was created for the first time, which covers nine study areas in four provinces of China, with a total coverage area of 22441 square kilometers. To assess the performance of {\Omega}SFormer, classic and SOTA networks were compared. The mIOU of {\Omega}SFormer has improved by 0.165, 0.297 and 0.128 respectively, when compared with best accuracy single-modal remotely sensed imagery, single-modal DEM and dual-modal result.  
2024-11-26 SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation null The Vision Transformer (ViT) has achieved notable success in computer vision, with its variants extensively validated across various downstream tasks, including semantic segmentation. However, designed as general-purpose visual encoders, ViT backbones often overlook the specific needs of task decoders, revealing opportunities to design decoders tailored to efficient semantic segmentation. This paper proposes Strip Cross-Attention (SCASeg), an innovative decoder head explicitly designed for semantic segmentation. Instead of relying on the simple conventional skip connections, we employ lateral connections between the encoder and decoder stages, using encoder features as Queries for the cross-attention modules. Additionally, we introduce a Cross-Layer Block that blends hierarchical feature maps from different encoder and decoder stages to create a unified representation for Keys and Values. To further boost computational efficiency, SCASeg compresses queries and keys into strip-like patterns to optimize memory usage and inference speed over the traditional vanilla cross-attention. Moreover, the Cross-Layer Block incorporates the local perceptual strengths of convolution, enabling SCASeg to capture both global and local context dependencies across multiple layers. This approach facilitates effective feature interaction at different scales, improving the overall performance. Experiments show that the adaptable decoder of SCASeg produces competitive performance across different setups, surpassing leading segmentation architectures on all benchmark datasets, including ADE20K, Cityscapes, COCO-Stuff 164k, and Pascal VOC2012, even under varying computational limitations.  
2024-11-25 Tree Transformers are an Ineffective Model of Syntactic Constituency null Linguists have long held that a key aspect of natural language syntax is the recursive organization of language units into constituent structures, and research has suggested that current state-of-the-art language models lack an inherent bias towards this feature. A number of alternative models have been proposed to provide inductive biases towards constituency, including the Tree Transformer, which utilizes a modified attention mechanism to organize tokens into constituents. We investigate Tree Transformers to study whether they utilize meaningful and/or useful constituent structures. We pretrain a large Tree Transformer on language modeling in order to investigate the learned constituent tree representations of sentences, finding little evidence for meaningful structures. Next, we evaluate Tree Transformers with similar transformer models on error detection tasks requiring constituent structure. We find that while the Tree Transformer models may slightly outperform at these tasks, there is little evidence to suggest a meaningful improvement. In general, we conclude that there is little evidence to support Tree Transformer as an effective model of syntactic constituency.  
2024-11-25 CMAViT: Integrating Climate, Managment, and Remote Sensing Data for Crop Yield Estimation with Multimodel Vision Transformers null Crop yield prediction is essential for agricultural planning but remains challenging due to the complex interactions between weather, climate, and management practices. To address these challenges, we introduce a deep learning-based multi-model called Climate-Management Aware Vision Transformer (CMAViT), designed for pixel-level vineyard yield predictions. CMAViT integrates both spatial and temporal data by leveraging remote sensing imagery and short-term meteorological data, capturing the effects of growing season variations. Additionally, it incorporates management practices, which are represented in text form, using a cross-attention encoder to model their interaction with time-series data. This innovative multi-modal transformer tested on a large dataset from 2016-2019 covering 2,200 hectares and eight grape cultivars including more than 5 million vines, outperforms traditional models like UNet-ConvLSTM, excelling in spatial variability capture and yield prediction, particularly for extreme values in vineyards. CMAViT achieved an R2 of 0.84 and a MAPE of 8.22% on an unseen test dataset. Masking specific modalities lowered performance: excluding management practices, climate data, and both reduced R2 to 0.73, 0.70, and 0.72, respectively, and raised MAPE to 11.92%, 12.66%, and 12.39%, highlighting each modality’s importance for accurate yield prediction. Code is available at https://github.com/plant-ai-biophysics-lab/CMAViT.  
2024-11-25 StructFormer: Document Structure-based Masked Attention and its Impact on Language Model Pre-Training null Most state-of-the-art techniques for Language Models (LMs) today rely on transformer-based architectures and their ubiquitous attention mechanism. However, the exponential growth in computational requirements with longer input sequences confines Transformers to handling short passages. Recent efforts have aimed to address this limitation by introducing selective attention mechanisms, notably local and global attention. While sparse attention mechanisms, akin to full attention in being Turing-complete, have been theoretically established, their practical impact on pre-training remains unexplored. This study focuses on empirically assessing the influence of global attention on BERT pre-training. The primary steps involve creating an extensive corpus of structure-aware text through arXiv data, alongside a text-only counterpart. We carry out pre-training on these two datasets, investigate shifts in attention patterns, and assess their implications for downstream tasks. Our analysis underscores the significance of incorporating document structure into LM models, demonstrating their capacity to excel in more abstract tasks, such as document understanding.  
2024-11-25 J-CaPA : Joint Channel and Pyramid Attention Improves Medical Image Segmentation null Medical image segmentation is crucial for diagnosis and treatment planning. Traditional CNN-based models, like U-Net, have shown promising results but struggle to capture long-range dependencies and global context. To address these limitations, we propose a transformer-based architecture that jointly applies Channel Attention and Pyramid Attention mechanisms to improve multi-scale feature extraction and enhance segmentation performance for medical images. Increasing model complexity requires more training data, and we further improve model generalization with CutMix data augmentation. Our approach is evaluated on the Synapse multi-organ segmentation dataset, achieving a 6.9% improvement in Mean Dice score and a 39.9% improvement in Hausdorff Distance (HD95) over an implementation without our enhancements. Our proposed model demonstrates improved segmentation accuracy for complex anatomical structures, outperforming existing state-of-the-art methods.  
2024-11-22 OminiControl: Minimal and Universal Control for Diffusion Transformer link In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.  
2024-11-22 HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Heads null Diffusion Transformers (DiTs) have exhibited robust capabilities in image generation tasks. However, accurate text-guided image editing for multimodal DiTs (MM-DiTs) still poses a significant challenge. Unlike UNet-based structures that could utilize self/cross-attention maps for semantic editing, MM-DiTs inherently lack support for explicit and consistent incorporated text guidance, resulting in semantic misalignment between the edited results and texts. In this study, we disclose the sensitivity of different attention heads to different image semantics within MM-DiTs and introduce HeadRouter, a training-free image editing framework that edits the source image by adaptively routing the text guidance to different attention heads in MM-DiTs. Furthermore, we present a dual-token refinement module to refine text/image token representations for precise semantic guidance and accurate region expression. Experimental results on multiple benchmarks demonstrate HeadRouter’s performance in terms of editing fidelity and image quality.  
2024-11-22 Point Cloud Understanding via Attention-Driven Contrastive Learning null Recently Transformer-based models have advanced point cloud understanding by leveraging self-attention mechanisms, however, these methods often overlook latent information in less prominent regions, leading to increased sensitivity to perturbations and limited global comprehension. To solve this issue, we introduce PointACL, an attention-driven contrastive learning framework designed to address these limitations. Our method employs an attention-driven dynamic masking strategy that guides the model to focus on under-attended regions, enhancing the understanding of global structures within the point cloud. Then we combine the original pre-training loss with a contrastive learning loss, improving feature discrimination and generalization. Extensive experiments validate the effectiveness of PointACL, as it achieves state-of-the-art performance across a variety of 3D understanding tasks, including object classification, part segmentation, and few-shot learning. Specifically, when integrated with different Transformer backbones like Point-MAE and PointGPT, PointACL demonstrates improved performance on datasets such as ScanObjectNN, ModelNet40, and ShapeNetPart. This highlights its superior capability in capturing both global and local features, as well as its enhanced robustness against perturbations and incomplete data.  
2024-11-22 FLARE: FP-Less PTQ and Low-ENOB ADC Based AMS-PiM for Error-Resilient, Fast, and Efficient Transformer Acceleration null Encoder-based transformers, powered by self-attention layers, have revolutionized machine learning with their context-aware representations. However, their quadratic growth in computational and memory demands presents significant bottlenecks. Analog-Mixed-Signal Process-in-Memory (AMS-PiM) architectures address these challenges by enabling efficient on-chip processing. Traditionally, AMS-PiM relies on Quantization-Aware Training (QAT), which is hardware-efficient but requires extensive retraining to adapt models to AMS-PiMs, making it increasingly impractical for transformer models. Post-Training Quantization (PTQ) mitigates this training overhead but introduces significant hardware inefficiencies. PTQ relies on dequantization-quantization (DQ-Q) processes, floating-point units (FPUs), and high-ENOB (Effective Number of Bits) analog-to-digital converters (ADCs). Particularly, High-ENOB ADCs scale exponentially in area and energy ( $2^{ENOB}$ ), reduce sensing margins, and increase susceptibility to process, voltage, and temperature (PVT) variations, further compounding PTQ’s challenges in AMS-PiM systems. To overcome these limitations, we propose RAP, an AMS-PiM architecture that eliminates DQ-Q processes, introduces FPU- and division-free nonlinear processing, and employs a low-ENOB-ADC-based sparse Matrix Vector multiplication technique. Using the proposed techniques, RAP improves error resiliency, area/energy efficiency, and computational speed while preserving numerical stability. Experimental results demonstrate that RAP outperforms state-of-the-art GPUs and conventional PiM architectures in energy efficiency, latency, and accuracy, making it a scalable solution for the efficient deployment of transformers.  
2024-11-22 Multiset Transformer: Advancing Representation Learning in Persistence Diagrams link To improve persistence diagram representation learning, we propose Multiset Transformer. This is the first neural network that utilizes attention mechanisms specifically designed for multisets as inputs and offers rigorous theoretical guarantees of permutation invariance. The architecture integrates multiset-enhanced attentions with a pool-decomposition scheme, allowing multiplicities to be preserved across equivariant layers. This capability enables full leverage of multiplicities while significantly reducing both computational and spatial complexity compared to the Set Transformer. Additionally, our method can greatly benefit from clustering as a preprocessing step to further minimize complexity, an advantage not possessed by the Set Transformer. Experimental results demonstrate that the Multiset Transformer outperforms existing neural network methods in the realm of persistence diagram representation learning.  
2024-11-21 CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs null Machine Learning (ML) for software engineering (SE) has gained prominence due to its ability to significantly enhance the performance of various SE applications. This progress is largely attributed to the development of generalizable source code representations that effectively capture the syntactic and semantic characteristics of code. In recent years, pre-trained transformer-based models, inspired by natural language processing (NLP), have shown remarkable success in SE tasks. However, source code contains structural and semantic properties embedded within its grammar, which can be extracted from structured code-views like the Abstract Syntax Tree (AST), Data-Flow Graph (DFG), and Control-Flow Graph (CFG). These code-views can complement NLP techniques, further improving SE tasks. Unfortunately, there are no flexible frameworks to infuse arbitrary code-views into existing transformer-based models effectively. Therefore, in this work, we propose CodeSAM, a novel scalable framework to infuse multiple code-views into transformer-based models by creating self-attention masks. We use CodeSAM to fine-tune a small language model (SLM) like CodeBERT on the downstream SE tasks of semantic code search, code clone detection, and program classification. Experimental results show that by using this technique, we improve downstream performance when compared to SLMs like GraphCodeBERT and CodeBERT on all three tasks by utilizing individual code-views or a combination of code-views during fine-tuning. We believe that these results are indicative that techniques like CodeSAM can help create compact yet performant code SLMs that fit in resource constrained settings.  
2024-11-21 Revisiting the Integration of Convolution and Attention for Vision Backbone link Convolutions (Convs) and multi-head self-attentions (MHSAs) are typically considered alternatives to each other for building vision backbones. Although some works try to integrate both, they apply the two operators simultaneously at the finest pixel granularity. With Convs responsible for per-pixel feature extraction already, the question is whether we still need to include the heavy MHSAs at such a fine-grained level. In fact, this is the root cause of the scalability issue w.r.t. the input resolution for vision transformers. To address this important problem, we propose in this work to use MSHAs and Convs in parallel \textbf{at different granularity levels} instead. Specifically, in each layer, we use two different ways to represent an image: a fine-grained regular grid and a coarse-grained set of semantic slots. We apply different operations to these two representations: Convs to the grid for local features, and MHSAs to the slots for global features. A pair of fully differentiable soft clustering and dispatching modules is introduced to bridge the grid and set representations, thus enabling local-global fusion. Through extensive experiments on various vision tasks, we empirically verify the potential of the proposed integration scheme, named \textit{GLMix}: by offloading the burden of fine-grained features to light-weight Convs, it is sufficient to use MHSAs in a few (e.g., 64) semantic slots to match the performance of recent state-of-the-art backbones, while being more efficient. Our visualization results also demonstrate that the soft clustering module produces a meaningful semantic grouping effect with only IN1k classification supervision, which may induce better interpretability and inspire new weakly-supervised semantic segmentation approaches. Code will be available at \url{https://github.com/rayleizhu/GLMix}.  
2024-11-21 Global and Local Attention-Based Transformer for Hyperspectral Image Change Detection link Recently Transformer-based hyperspectral image (HSI) change detection methods have shown remarkable performance. Nevertheless, existing attention mechanisms in Transformers have limitations in local feature representation. To address this issue, we propose Global and Local Attention-based Transformer (GLAFormer), which incorporates a global and local attention module (GLAM) to combine high-frequency and low-frequency signals. Furthermore, we introduce a cross-gating mechanism, called cross-gated feed-forward network (CGFN), to emphasize salient features and suppress noise interference. Specifically, the GLAM splits attention heads into global and local attention components to capture comprehensive spatial-spectral features. The global attention component employs global attention on downsampled feature maps to capture low-frequency information, while the local attention component focuses on high-frequency details using non-overlapping window-based local attention. The CGFN enhances the feature representation via convolutions and cross-gating mechanism in parallel paths. The proposed GLAFormer is evaluated on three HSI datasets. The results demonstrate its superiority over state-of-the-art HSI change detection methods. The source code of GLAFormer is available at \url{https://github.com/summitgao/GLAFormer}.  
2024-11-20 Quantum Attention for Vision Transformers in High Energy Physics null We present a novel hybrid quantum-classical vision transformer architecture incorporating quantum orthogonal neural networks (QONNs) to enhance performance and computational efficiency in high-energy physics applications. Building on advancements in quantum vision transformers, our approach addresses limitations of prior models by leveraging the inherent advantages of QONNs, including stability and efficient parameterization in high-dimensional spaces. We evaluate the proposed architecture using multi-detector jet images from CMS Open Data, focusing on the task of distinguishing quark-initiated from gluon-initiated jets. The results indicate that embedding quantum orthogonal transformations within the attention mechanism can provide robust performance while offering promising scalability for machine learning challenges associated with the upcoming High Luminosity Large Hadron Collider. This work highlights the potential of quantum-enhanced models to address the computational demands of next-generation particle physics experiments.  
2024-11-20 Transformers with Sparse Attention for Granger Causality null Temporal causal analysis means understanding the underlying causes behind observed variables over time. Deep learning based methods such as transformers are increasingly used to capture temporal dynamics and causal relationships beyond mere correlations. Recent works suggest self-attention weights of transformers as a useful indicator of causal links. We leverage this to propose a novel modification to the self-attention module to establish causal links between the variables of multivariate time-series data with varying lag dependencies. Our Sparse Attention Transformer captures causal relationships using a two-fold approach - performing temporal attention first followed by attention between the variables across the time steps masking them individually to compute Granger Causality indices. The key novelty in our approach is the ability of the model to assert importance and pick the most significant past time instances for its prediction task against manually feeding a fixed time lag value. We demonstrate the effectiveness of our approach via extensive experimentation on several synthetic benchmark datasets. Furthermore, we compare the performance of our model with the traditional Vector Autoregression based Granger Causality method that assumes fixed lag length.  
2024-11-20 Topkima-Former: Low-energy, Low-Latency Inference for Transformers using top-k In-memory ADC null Transformer model has gained prominence as a popular deep neural network architecture for neural language processing (NLP) and computer vision (CV) applications. However, the extensive use of nonlinear operations, like softmax, poses a performance bottleneck during transformer inference and comprises up to 40% of the total latency. Hence, we propose innovations at the circuit, architecture, and algorithm levels to accelerate the transformer. At the circuit level, we propose topkima-combining top-k activation selection with in-memory ADC (IMA) to implement a low-energy and low-latency softmax without any sorting latency. Only the k largest activations are sent to the softmax calculation block, reducing the huge computational cost of softmax. Using a modified training scheme with top-k only in the forward pass, experimental results demonstrate only a 0.4% to 1.2% reduction in accuracy across ViT, distilBERT, and BERT-base models when evaluated on CIFAR-10, CIFAR-100, and SQuAD datasets with k=5. At the architecture level, an improved scale-free technique is introduced to reduce the computational cost of attention. The combined system, dubbed Topkima-Former, enhances 1.8x-84x speedup and 1.3x-35x energy efficiency (EE) over prior In-memory computing (IMC) accelerators. Compared to a conventional softmax macro and a digital top-k (Dtopk) softmax macro, our proposed tokima softmax macro achieves about 15x and 8x faster speed respectively.  
2024-11-20 A Theory for Compressibility of Graph Transformers for Transductive Learning null Transductive tasks on graphs differ fundamentally from typical supervised machine learning tasks, as the independent and identically distributed (i.i.d.) assumption does not hold among samples. Instead, all train/test/validation samples are present during training, making them more akin to a semi-supervised task. These differences make the analysis of the models substantially different from other models. Recently, Graph Transformers have significantly improved results on these datasets by overcoming long-range dependency problems. However, the quadratic complexity of full Transformers has driven the community to explore more efficient variants, such as those with sparser attention patterns. While the attention matrix has been extensively discussed, the hidden dimension or width of the network has received less attention. In this work, we establish some theoretical bounds on how and under what conditions the hidden dimension of these networks can be compressed. Our results apply to both sparse and dense variants of Graph Transformers.  
2024-11-20 MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers null In order to reduce the computational complexity of large language models, great efforts have been made to to improve the efficiency of transformer models such as linear attention and flash-attention. However, the model size and corresponding computational complexity are constantly scaled up in pursuit of higher performance. In this work, we present MemoryFormer, a novel transformer architecture which significantly reduces the computational complexity (FLOPs) from a new perspective. We eliminate nearly all the computations of the transformer model except for the necessary computation required by the multi-head attention operation. This is made possible by utilizing an alternative method for feature transformation to replace the linear projection of fully-connected layers. Specifically, we first construct a group of in-memory lookup tables that store a large amount of discrete vectors to replace the weight matrix used in linear projection. We then use a hash algorithm to retrieve a correlated subset of vectors dynamically based on the input embedding. The retrieved vectors combined together will form the output embedding, which provides an estimation of the result of matrix multiplication operation in a fully-connected layer. Compared to conducting matrix multiplication, retrieving data blocks from memory is a much cheaper operation which requires little computations. We train MemoryFormer from scratch and conduct extensive experiments on various benchmarks to demonstrate the effectiveness of the proposed model.  
2024-11-19 Selective Attention: Enhancing Transformer through Principled Context Control link The attention mechanism within the transformer architecture enables the model to weigh and combine tokens based on their relevance to the query. While self-attention has enjoyed major success, it notably treats all queries $q$ in the same way by applying the mapping $V^\top\text{softmax}(Kq)$, where $V,K$ are the value and key embeddings respectively. In this work, we argue that this uniform treatment hinders the ability to control contextual sparsity and relevance. As a solution, we introduce the $\textit{Selective Self-Attention}$ (SSA) layer that augments the softmax nonlinearity with a principled temperature scaling strategy. By controlling temperature, SSA adapts the contextual sparsity of the attention map to the query embedding and its position in the context window. Through theory and experiments, we demonstrate that this alleviates attention dilution, aids the optimization process, and enhances the model’s ability to control softmax spikiness of individual queries. We also incorporate temperature scaling for value embeddings and show that it boosts the model’s ability to suppress irrelevant/noisy tokens. Notably, SSA is a lightweight method which introduces less than 0.5% new parameters through a weight-sharing strategy and can be fine-tuned on existing LLMs. Extensive empirical evaluations demonstrate that SSA-equipped models achieve a noticeable and consistent accuracy improvement on language modeling benchmarks.  
2024-11-19 Benchmarking Positional Encodings for GNNs and Graph Transformers link Recent advances in Graph Neural Networks (GNNs) and Graph Transformers (GTs) have been driven by innovations in architectures and Positional Encodings (PEs), which are critical for augmenting node features and capturing graph topology. PEs are essential for GTs, where topological information would otherwise be lost without message-passing. However, PEs are often tested alongside novel architectures, making it difficult to isolate their effect on established models. To address this, we present a comprehensive benchmark of PEs in a unified framework that includes both message-passing GNNs and GTs. We also establish theoretical connections between MPNNs and GTs and introduce a sparsified GRIT attention mechanism to examine the influence of global connectivity. Our findings demonstrate that previously untested combinations of GNN architectures and PEs can outperform existing methods and offer a more comprehensive picture of the state-of-the-art. To support future research and experimentation in our framework, we make the code publicly available.  
2024-11-19 S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation null The irregular and challenging characteristics of lung adenocarcinoma nodules in computed tomography (CT) images complicate staging diagnosis, making accurate segmentation critical for clinicians to extract detailed lesion information. In this study, we propose a segmentation model, S3TU-Net, which integrates multi-dimensional spatial connectors and a superpixel-based visual transformer. S3TU-Net is built on a multi-view CNN-Transformer hybrid architecture, incorporating superpixel algorithms, structured weighting, and spatial shifting techniques to achieve superior segmentation performance. The model leverages structured convolution blocks (DWF-Conv/D2BR-Conv) to extract multi-scale local features while mitigating overfitting. To enhance multi-scale feature fusion, we introduce the S2-MLP Link, integrating spatial shifting and attention mechanisms at the skip connections. Additionally, the residual-based superpixel visual transformer (RM-SViT) effectively merges global and local features by employing sparse correlation learning and multi-branch attention to capture long-range dependencies, with residual connections enhancing stability and computational efficiency. Experimental results on the LIDC-IDRI dataset demonstrate that S3TU-Net achieves a DSC, precision, and IoU of 89.04%, 90.73%, and 90.70%, respectively. Compared to recent methods, S3TU-Net improves DSC by 4.52% and sensitivity by 3.16%, with other metrics showing an approximate 2% increase. In addition to comparison and ablation studies, we validated the generalization ability of our model on the EPDB private dataset, achieving a DSC of 86.40%.  
2024-11-19 Transformer Neural Processes – Kernel Regression null Stochastic processes model various natural phenomena from disease transmission to stock prices, but simulating and quantifying their uncertainty can be computationally challenging. For example, modeling a Gaussian Process with standard statistical methods incurs an $\mathcal{O}(n^3)$ penalty, and even using state-of-the-art Neural Processes (NPs) incurs an $\mathcal{O}(n^2)$ penalty due to the attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a new architecture that incorporates a novel transformer block we call a Kernel Regression Block (KRBlock), which reduces the computational complexity of attention in transformer-based Neural Processes (TNPs) from $\mathcal{O}((n_C+n_T)^2)$ to $O(n_C^2+n_Cn_T)$ by eliminating masked computations, where $n_C$ is the number of context, and $n_T$ is the number of test points, respectively, and a fast attention variant that further reduces all attention calculations to $\mathcal{O}(n_C)$ in space and time complexity. In benchmarks spanning such tasks as meta-regression, Bayesian optimization, and image completion, we demonstrate that the full variant matches the performance of state-of-the-art methods while training faster and scaling two orders of magnitude higher in number of test points, and the fast variant nearly matches that performance while scaling to millions of both test and context points on consumer hardware.  
2024-11-19 Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation link 3D semantic occupancy prediction, which seeks to provide accurate and comprehensive representations of environment scenes, is important to autonomous driving systems. For autonomous cars equipped with multi-camera and LiDAR, it is critical to aggregate multi-sensor information into a unified 3D space for accurate and robust predictions. Recent methods are mainly built on the 2D-to-3D transformation that relies on sensor calibration to project the 2D image information into the 3D space. These methods, however, suffer from two major limitations: First, they rely on accurate sensor calibration and are sensitive to the calibration noise, which limits their application in real complex environments. Second, the spatial transformation layers are computationally expensive and limit their running on an autonomous vehicle. In this work, we attempt to exploit a Robust and Efficient 3D semantic Occupancy (REO) prediction scheme. To this end, we propose a calibration-free spatial transformation based on vanilla attention to implicitly model the spatial correspondence. In this way, we robustly project the 2D features to a predefined BEV plane without using sensor calibration as input. Then, we introduce 2D and 3D auxiliary training tasks to enhance the discrimination power of 2D backbones on spatial, semantic, and texture features. Last, we propose a query-based prediction scheme to efficiently generate large-scale fine-grained occupancy predictions. By fusing point clouds that provide complementary spatial information, our REO surpasses the existing methods by a large margin on three benchmarks, including OpenOccupancy, Occ3D-nuScenes, and SemanticKITTI Scene Completion. For instance, our REO achieves 19.8 $\times$ speedup compared to Co-Occ, with 1.1 improvements in geometry IoU on OpenOccupancy. Our code will be available at https://github.com/ICEORY/REO.  
2024-11-18 Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers null In this paper, I introduce the retrieval problem, a simple reasoning task that can be solved only by transformers with a minimum number of layers. The task has an adjustable difficulty that can further increase the required number of layers to any arbitrary value. I demonstrate that large language models can solve the task under different prompting formulations without any fine-tuning. To understand how transformers solve the retrieval problem, I train several transformers on a minimal formulation. I find that successful learning occurs only under the presence of an implicit curriculum. I uncover the learned mechanisms by studying the attention maps in the trained transformers. I also study the training process, uncovering that attention heads always emerge in a specific sequence.  
2024-11-18 Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion link Multimodal medical image fusion is a crucial task that combines complementary information from different imaging modalities into a unified representation, thereby enhancing diagnostic accuracy and treatment planning. While deep learning methods, particularly Convolutional Neural Networks (CNNs) and Transformers, have significantly advanced fusion performance, some of the existing CNN-based methods fall short in capturing fine-grained multiscale and edge features, leading to suboptimal feature integration. Transformer-based models, on the other hand, are computationally intensive in both the training and fusion stages, making them impractical for real-time clinical use. Moreover, the clinical application of fused images remains unexplored. In this paper, we propose a novel CNN-based architecture that addresses these limitations by introducing a Dilated Residual Attention Network Module for effective multiscale feature extraction, coupled with a gradient operator to enhance edge detail learning. To ensure fast and efficient fusion, we present a parameter-free fusion strategy based on the weighted nuclear norm of softmax, which requires no additional computations during training or inference. Extensive experiments, including a downstream brain tumor classification task, demonstrate that our approach outperforms various baseline methods in terms of visual quality, texture preservation, and fusion speed, making it a possible practical solution for real-world clinical applications. The code will be released at https://github.com/simonZhou86/en_dran.  
2024-11-18 Transformer networks for Heavy flavor jet tagging null In this article, we review recent machine learning methods used in challenging particle identification of heavy-boosted particles at high-energy colliders. Our primary focus is on attention-based Transformer networks. We report the performance of state-of-the-art deep learning networks and further improvement coming from the modification of networks based on physics insights. Additionally, we discuss interpretable methods to understand network decision-making, which are crucial when employing highly complex and deep networks.  
2024-11-18 DeforHMR: Vision Transformer with Deformable Cross-Attention for 3D Human Mesh Recovery null Human Mesh Recovery (HMR) is an important yet challenging problem with applications across various domains including motion capture, augmented reality, and biomechanics. Accurately predicting human pose parameters from a single image remains a challenging 3D computer vision task. In this work, we introduce DeforHMR, a novel regression-based monocular HMR framework designed to enhance the prediction of human pose parameters using deformable attention transformers. DeforHMR leverages a novel query-agnostic deformable cross-attention mechanism within the transformer decoder to effectively regress the visual features extracted from a frozen pretrained vision transformer (ViT) encoder. The proposed deformable cross-attention mechanism allows the model to attend to relevant spatial features more flexibly and in a data-dependent manner. Equipped with a transformer decoder capable of spatially-nuanced attention, DeforHMR achieves state-of-the-art performance for single-frame regression-based methods on the widely used 3D HMR benchmarks 3DPW and RICH. By pushing the boundary on the field of 3D human mesh recovery through deformable attention, we introduce an new, effective paradigm for decoding local spatial information from large pretrained vision encoders in computer vision.  
2024-11-17 Freqformer: Frequency-Domain Transformer for 3-D Visualization and Quantification of Human Retinal Circulation null We introduce Freqformer, a novel Transformer-based architecture designed for 3-D, high-definition visualization of human retinal circulation from a single scan in commercial optical coherence tomography angiography (OCTA). Freqformer addresses the challenge of limited signal-to-noise ratio in OCTA volume by utilizing a complex-valued frequency-domain module (CFDM) and a simplified multi-head attention (Sim-MHA) mechanism. Using merged volumes as ground truth, Freqformer enables accurate reconstruction of retinal vasculature across the depth planes, allowing for 3-D quantification of capillary segments (count, density, and length). Our method outperforms state-of-the-art convolutional neural networks (CNNs) and several Transformer-based models, with superior performance in peak signal-to-noise ratio (PSNR), structural similarity index measure (SSIM), and learned perceptual image patch similarity (LPIPS). Furthermore, Freqformer demonstrates excellent generalizability across lower scanning density, effectively enhancing OCTA scans with larger fields of view (from 3 $\times$3 $mm^{2}$ to 6$\times$6 $mm^{2}$ and 12$\times$12 $mm^{2}$ ). These results suggest that Freqformer can significantly improve the understanding and characterization of retinal circulation, offering potential clinical applications in diagnosing and managing retinal vascular diseases.  
2024-11-16 FIAS: Feature Imbalance-Aware Medical Image Segmentation with Dynamic Fusion and Mixing Attention null With the growing application of transformer in computer vision, hybrid architecture that combine convolutional neural networks (CNNs) and transformers demonstrates competitive ability in medical image segmentation. However, direct fusion of features from CNNs and transformers often leads to feature imbalance and redundant information. To address these issues, we propose a Feaure Imbalance-Aware Segmentation (FIAS) network, which incorporates a dual-path encoder and a novel Mixing Attention (MixAtt) decoder. The dual-branches encoder integrates a DilateFormer for long-range global feature extraction and a Depthwise Multi-Kernel (DMK) convolution for capturing fine-grained local details. A Context-Aware Fusion (CAF) block dynamically balances the contribution of these global and local features, preventing feature imbalance. The MixAtt decoder further enhances segmentation accuracy by combining self-attention and Monte Carlo attention, enabling the model to capture both small details and large-scale dependencies. Experimental results on the Synapse multi-organ and ACDC datasets demonstrate the strong competitiveness of our approach in medical image segmentation tasks.  
2024-11-15 Probabilistic Prior Driven Attention Mechanism Based on Diffusion Model for Imaging Through Atmospheric Turbulence null Atmospheric turbulence introduces severe spatial and geometric distortions, challenging traditional image restoration methods. We propose the Probabilistic Prior Turbulence Removal Network (PPTRN), which combines probabilistic diffusion-based prior modeling with Transformer-driven feature extraction to address this issue. PPTRN employs a two-stage approach: first, a latent encoder and Transformer are jointly trained on clear images to establish robust feature representations. Then, a Denoising Diffusion Probabilistic Model (DDPM) models prior distributions over latent vectors, guiding the Transformer in capturing diverse feature variations essential for restoration. A key innovation in PPTRN is the Probabilistic Prior Driven Cross Attention mechanism, which integrates the DDPM-generated prior with feature embeddings to reduce artifacts and enhance spatial coherence. Extensive experiments validate that PPTRN significantly improves restoration quality on turbulence-degraded images, setting a new benchmark in clarity and structural fidelity.  
2024-11-15 Morpho-Aware Global Attention for Image Matting null Vision Transformers (ViTs) and Convolutional Neural Networks (CNNs) face inherent challenges in image matting, particularly in preserving fine structural details. ViTs, with their global receptive field enabled by the self-attention mechanism, often lose local details such as hair strands. Conversely, CNNs, constrained by their local receptive field, rely on deeper layers to approximate global context but struggle to retain fine structures at greater depths. To overcome these limitations, we propose a novel Morpho-Aware Global Attention (MAGA) mechanism, designed to effectively capture the morphology of fine structures. MAGA employs Tetris-like convolutional patterns to align the local shapes of fine structures, ensuring optimal local correspondence while maintaining sensitivity to morphological details. The extracted local morphology information is used as query embeddings, which are projected onto global key embeddings to emphasize local details in a broader context. Subsequently, by projecting onto value embeddings, MAGA seamlessly integrates these emphasized morphological details into a unified global structure. This approach enables MAGA to simultaneously focus on local morphology and unify these details into a coherent whole, effectively preserving fine structures. Extensive experiments show that our MAGA-based ViT achieves significant performance gains, outperforming state-of-the-art methods across two benchmarks with average improvements of 4.3% in SAD and 39.5% in MSE.  
2024-11-15 A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift null Transformer-based Super-Resolution (SR) models have recently advanced image reconstruction quality, yet challenges remain due to computational complexity and an over-reliance on large patch sizes, which constrain fine-grained detail enhancement. In this work, we propose TaylorIR to address these limitations by utilizing a patch size of 1x1, enabling pixel-level processing in any transformer-based SR model. To address the significant computational demands under the traditional self-attention mechanism, we employ the TaylorShift attention mechanism, a memory-efficient alternative based on Taylor series expansion, achieving full token-to-token interactions with linear complexity. Experimental results demonstrate that our approach achieves new state-of-the-art SR performance while reducing memory consumption by up to 60% compared to traditional self-attention-based transformers.  
2024-11-15 Memorization in Attention-only Transformers link Recent research has explored the memorization capacity of multi-head attention, but these findings are constrained by unrealistic limitations on the context size. We present a novel proof for language-based Transformers that extends the current hypothesis to any context size. Our approach improves upon the state-of-the-art by achieving more effective exact memorization with an attention layer, while also introducing the concept of approximate memorization of distributions. Through experimental validation, we demonstrate that our proposed bounds more accurately reflect the true memorization capacity of language models, and provide a precise comparison with prior work.  
2024-11-14 On the Surprising Effectiveness of Attention Transfer for Vision Transformers link Conventional wisdom suggests that pre-training Vision Transformers (ViT) improves downstream performance by learning useful representations. Is this actually true? We investigate this question and find that the features and representations learned during pre-training are not essential. Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance. We show this by introducing a simple method called attention transfer, where only the attention patterns from a pre-trained teacher ViT are transferred to a student, either by copying or distilling the attention maps. Since attention transfer lets the student learn its own features, ensembling it with a fine-tuned teacher also further improves accuracy on ImageNet. We systematically study various aspects of our findings on the sufficiency of attention maps, including distribution shift settings where they underperform fine-tuning. We hope our exploration provides a better understanding of what pre-training accomplishes and leads to a useful alternative to the standard practice of fine-tuning  
2024-11-14 SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers null Image classification is a computer vision task where a model analyzes an image to categorize it into a specific label. Vision Transformers (ViT) improve this task by leveraging self-attention to capture complex patterns and long range relationships between image patches. However, a key challenge for ViTs is efficiently incorporating multiscale feature representations, which is inherent in CNNs through their hierarchical structure. In this paper, we introduce the Scale-Aware Graph Attention Vision Transformer (SAG-ViT), a novel framework that addresses this challenge by integrating multi-scale features. Using EfficientNet as a backbone, the model extracts multi-scale feature maps, which are divided into patches to preserve semantic information. These patches are organized into a graph based on spatial and feature similarities, with a Graph Attention Network (GAT) refining the node embeddings. Finally, a Transformer encoder captures long-range dependencies and complex interactions. The SAG-ViT is evaluated on benchmark datasets, demonstrating its effectiveness in enhancing image classification performance.  
2024-11-14 Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery link Vision Transformers (ViT) have recently brought a new wave of research in the field of computer vision. These models have done particularly well in the field of image classification and segmentation. Research on semantic and instance segmentation has emerged to accelerate with the inception of the new architecture, with over 80\% of the top 20 benchmarks for the iSAID dataset being either based on the ViT architecture or the attention mechanism behind its success. This paper focuses on the heuristic comparison of three key factors of using (or not using) ViT for semantic segmentation of remote sensing aerial images on the iSAID. The experimental results observed during the course of the research were under the scrutinization of the following objectives: 1. Use of weighted fused loss function for the maximum mean Intersection over Union (mIoU) score, Dice score, and minimization or conservation of entropy or class representation, 2. Comparison of transfer learning on Meta’s MaskFormer, a ViT-based semantic segmentation model, against generic UNet Convolutional Neural Networks (CNNs) judged over mIoU, Dice scores, training efficiency, and inference time, and 3. What do we lose for what we gain? i.e., the comparison of the two models against current state-of-art segmentation models. We show the use of the novel combined weighted loss function significantly boosts the CNN model’s performance capacities as compared to transfer learning the ViT. The code for this implementation can be found on \url{https://github.com/ashimdahal/ViT-vs-CNN-ImageSegmentation}.  
2024-11-13 TRACE: Transformer-based Risk Assessment for Clinical Evaluation null We present TRACE (Transformer-based Risk Assessment for Clinical Evaluation), a novel method for clinical risk assessment based on clinical data, leveraging the self-attention mechanism for enhanced feature interaction and result interpretation. Our approach is able to handle different data modalities, including continuous, categorical and multiple-choice (checkbox) attributes. The proposed architecture features a shared representation of the clinical data obtained by integrating specialized embeddings of each data modality, enabling the detection of high-risk individuals using Transformer encoder layers. To assess the effectiveness of the proposed method, a strong baseline based on non-negative multi-layer perceptrons (MLPs) is introduced. The proposed method outperforms various baselines widely used in the domain of clinical risk assessment, while effectively handling missing values. In terms of explainability, our Transformer-based method offers easily interpretable results via attention weights, further enhancing the clinicians’ decision-making process.  
2024-11-12 Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer null The evolution of 3D visualization techniques has fundamentally transformed how we interact with digital content. At the forefront of this change is point cloud technology, offering an immersive experience that surpasses traditional 2D representations. However, the massive data size of point clouds presents significant challenges in data compression. Current methods for lossy point cloud attribute compression (PCAC) generally focus on reconstructing the original point clouds with minimal error. However, for point cloud visualization scenarios, the reconstructed point clouds with distortion still need to undergo a complex rendering process, which affects the final user-perceived quality. In this paper, we propose an end-to-end deep learning framework that seamlessly integrates PCAC with differentiable rendering, denoted as rendering-oriented PCAC (RO-PCAC), directly targeting the quality of rendered multiview images for viewing. In a differentiable manner, the impact of the rendering process on the reconstructed point clouds is taken into account. Moreover, we characterize point clouds as sparse tensors and propose a sparse tensor-based transformer, called SP-Trans. By aligning with the local density of the point cloud and utilizing an enhanced local attention mechanism, SP-Trans captures the intricate relationships within the point cloud, further improving feature analysis and synthesis within the framework. Extensive experiments demonstrate that the proposed RO-PCAC achieves state-of-the-art compression performance, compared to existing reconstruction-oriented methods, including traditional, learning-based, and hybrid methods.  
2024-11-12 Joint multi-dimensional dynamic attention and transformer for general image restoration link Outdoor images often suffer from severe degradation due to rain, haze, and noise, impairing image quality and challenging high-level tasks. Current image restoration methods struggle to handle complex degradation while maintaining efficiency. This paper introduces a novel image restoration architecture that combines multi-dimensional dynamic attention and self-attention within a U-Net framework. To leverage the global modeling capabilities of transformers and the local modeling capabilities of convolutions, we integrate sole CNNs in the encoder-decoder and sole transformers in the latent layer. Additionally, we design convolutional kernels with selected multi-dimensional dynamic attention to capture diverse degraded inputs efficiently. A transformer block with transposed self-attention further enhances global feature extraction while maintaining efficiency. Extensive experiments demonstrate that our method achieves a better balance between performance and computational complexity across five image restoration tasks: deraining, deblurring, denoising, dehazing, and enhancement, as well as superior performance for high-level vision tasks. The source code will be available at https://github.com/House-yuyu/MDDA-former.  
2024-11-14 Breaking the Low-Rank Dilemma of Linear Attention link The Softmax attention mechanism in Transformer models is notoriously computationally expensive, particularly due to its quadratic complexity, posing significant challenges in vision applications. In contrast, linear attention provides a far more efficient solution by reducing the complexity to linear levels. However, compared to Softmax attention, linear attention often experiences significant performance degradation. Our experiments indicate that this performance drop is due to the low-rank nature of linear attention’s feature map, which hinders its ability to adequately model complex spatial information. In this paper, to break the low-rank dilemma of linear attention, we conduct rank analysis from two perspectives: the KV buffer and the output features. Consequently, we introduce Rank-Augmented Linear Attention (RALA), which rivals the performance of Softmax attention while maintaining linear complexity and high efficiency. Based on RALA, we construct the Rank-Augmented Vision Linear Transformer (RAVLT). Extensive experiments demonstrate that RAVLT achieves excellent performance across various vision tasks. Specifically, without using any additional labels, data, or supervision during training, RAVLT achieves an 84.4% Top-1 accuracy on ImageNet-1k with only 26M parameters and 4.6G FLOPs. This result significantly surpasses previous linear attention mechanisms, fully illustrating the potential of RALA. Code will be available at https://github.com/qhfan/RALA.  
2024-11-12 Circuit Complexity Bounds for RoPE-based Transformer Architecture null Characterizing the express power of the Transformer architecture is critical to understanding its capacity limits and scaling law. Recent works provide the circuit complexity bounds to Transformer-like architecture. On the other hand, Rotary Position Embedding ( $\mathsf{RoPE}$) has emerged as a crucial technique in modern large language models, offering superior performance in capturing positional information compared to traditional position embeddings, which shows great potential in application prospects, particularly for the long context scenario. Empirical evidence also suggests that $\mathsf{RoPE}$-based Transformer architectures demonstrate greater generalization capabilities compared to conventional Transformer models. In this work, we establish a tighter circuit complexity bound for Transformers with $\mathsf{RoPE}$ attention. Our key contribution is that we show that unless $\mathsf{TC}^0 = \mathsf{NC}^1$, a $\mathsf{RoPE}$-based Transformer with $\mathrm{poly}(n)$-precision, $O(1)$ layers, hidden dimension $d \leq O(n)$ cannot solve the arithmetic problem or the Boolean formula value problem. This result significantly demonstrates the fundamental limitation of the expressivity of the $\mathsf{RoPE}$-based Transformer architecture, although it achieves giant empirical success. Our theoretical framework not only establishes tighter complexity bounds but also may instruct further work on the $\mathsf{RoPE}$ -based Transformer.  
2024-11-12 Unraveling the Gradient Descent Dynamics of Transformers null While the Transformer architecture has achieved remarkable success across various domains, a thorough theoretical foundation explaining its optimization dynamics is yet to be fully developed. In this study, we aim to bridge this understanding gap by answering the following two core questions: (1) Which types of Transformer architectures allow Gradient Descent (GD) to achieve guaranteed convergence? and (2) Under what initial conditions and architectural specifics does the Transformer achieve rapid convergence during training? By analyzing the loss landscape of a single Transformer layer using Softmax and Gaussian attention kernels, our work provides concrete answers to these questions. Our findings demonstrate that, with appropriate weight initialization, GD can train a Transformer model (with either kernel type) to achieve a global optimal solution, especially when the input embedding dimension is large. Nonetheless, certain scenarios highlight potential pitfalls: training a Transformer using the Softmax attention kernel may sometimes lead to suboptimal local solutions. In contrast, the Gaussian attention kernel exhibits a much favorable behavior. Our empirical study further validate the theoretical findings.  
2024-11-11 Spiking Transformer Hardware Accelerators in 3D Integration null Spiking neural networks (SNNs) are powerful models of spatiotemporal computation and are well suited for deployment on resource-constrained edge devices and neuromorphic hardware due to their low power consumption. Leveraging attention mechanisms similar to those found in their artificial neural network counterparts, recently emerged spiking transformers have showcased promising performance and efficiency by capitalizing on the binary nature of spiking operations. Recognizing the current lack of dedicated hardware support for spiking transformers, this paper presents the first work on 3D spiking transformer hardware architecture and design methodology. We present an architecture and physical design co-optimization approach tailored specifically for spiking transformers. Through memory-on-logic and logic-on-logic stacking enabled by 3D integration, we demonstrate significant energy and delay improvements compared to conventional 2D CMOS integration.  
2024-11-11 More Expressive Attention with Negative Weights link We propose a novel attention mechanism, named Cog Attention, that enables attention weights to be negative for enhanced expressiveness, which stems from two key factors: (1) Cog Attention can shift the token deletion and copying function from a static OV matrix to dynamic QK inner products, with the OV matrix now focusing more on refinement or modification. The attention head can simultaneously delete, copy, or retain tokens by assigning them negative, positive, or minimal attention weights, respectively. As a result, a single attention head becomes more flexible and expressive. (2) Cog Attention improves the model’s robustness against representational collapse, which can occur when earlier tokens are over-squashed into later positions, leading to homogeneous representations. Negative weights reduce effective information paths from earlier to later tokens, helping to mitigate this issue. We develop Transformer-like models which use Cog Attention as attention modules, including decoder-only models for language modeling and U-ViT diffusion models for image generation. Experiments show that models using Cog Attention exhibit superior performance compared to those employing traditional softmax attention modules. Our approach suggests a promising research direction for rethinking and breaking the entrenched constraints of traditional softmax attention, such as the requirement for non-negative weights.  
2024-11-11 ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition link Transformer models have demonstrated remarkable success in many domains such as natural language processing (NLP) and computer vision. With the growing interest in transformer-based architectures, they are now utilized for gesture recognition. So, we also explore and devise a novel ConvMixFormer architecture for dynamic hand gestures. The transformers use quadratic scaling of the attention features with the sequential data, due to which these models are computationally complex and heavy. We have considered this drawback of the transformer and designed a resource-efficient model that replaces the self-attention in the transformer with the simple convolutional layer-based token mixer. The computational cost and the parameters used for the convolution-based mixer are comparatively less than the quadratic self-attention. Convolution-mixer helps the model capture the local spatial features that self-attention struggles to capture due to their sequential processing nature. Further, an efficient gate mechanism is employed instead of a conventional feed-forward network in the transformer to help the model control the flow of features within different stages of the proposed model. This design uses fewer learnable parameters which is nearly half the vanilla transformer that helps in fast and efficient training. The proposed method is evaluated on NVidia Dynamic Hand Gesture and Briareo datasets and our model has achieved state-of-the-art results on single and multimodal inputs. We have also shown the parameter efficiency of the proposed ConvMixFormer model compared to other methods. The source code is available at https://github.com/mallikagarg/ConvMixFormer.  
2024-11-12 SPARTAN: A Sparse Transformer Learning Local Causation null Causal structures play a central role in world models that flexibly adapt to changes in the environment. While recent works motivate the benefits of discovering local causal graphs for dynamics modelling, in this work we demonstrate that accurately capturing these relationships in complex settings remains challenging for the current state-of-the-art. To remedy this shortcoming, we postulate that sparsity is a critical ingredient for the discovery of such local causal structures. To this end we present the SPARse TrANsformer World model (SPARTAN), a Transformer-based world model that learns local causal structures between entities in a scene. By applying sparsity regularisation on the attention pattern between object-factored tokens, SPARTAN identifies sparse local causal models that accurately predict future object states. Furthermore, we extend our model to capture sparse interventions with unknown targets on the dynamics of the environment. This results in a highly interpretable world model that can efficiently adapt to changes. Empirically, we evaluate SPARTAN against the current state-of-the-art in object-centric world models on observation-based environments and demonstrate that our model can learn accurate local causal graphs and achieve significantly improved few-shot adaptation to changes in the dynamics of the environment as well as robustness against removing irrelevant distractors.  
2024-11-11 Spatially Constrained Transformer with Efficient Global Relation Modelling for Spatio-Temporal Prediction link Accurate spatio-temporal prediction is crucial for the sustainable development of smart cities. However, current approaches often struggle to capture important spatio-temporal relationships, particularly overlooking global relations among distant city regions. Most existing techniques predominantly rely on Convolutional Neural Networks (CNNs) to capture global relations. However, CNNs exhibit neighbourhood bias, making them insufficient for capturing distant relations. To address this limitation, we propose ST-SampleNet, a novel transformer-based architecture that combines CNNs with self-attention mechanisms to capture both local and global relations effectively. Moreover, as the number of regions increases, the quadratic complexity of self-attention becomes a challenge. To tackle this issue, we introduce a lightweight region sampling strategy that prunes non-essential regions and enhances the efficiency of our approach. Furthermore, we introduce a spatially constrained position embedding that incorporates spatial neighbourhood information into the self-attention mechanism, aiding in semantic interpretation and improving the performance of ST-SampleNet. Our experimental evaluation on three real-world datasets demonstrates the effectiveness of ST-SampleNet. Additionally, our efficient variant achieves a 40% reduction in computational costs with only a marginal compromise in performance, approximately 1%.  
2024-11-08 AuthFormer: Adaptive Multimodal biometric authentication transformer for middle-aged and elderly people null Multimodal biometric authentication methods address the limitations of unimodal biometric technologies in security, robustness, and user adaptability. However, most existing methods depend on fixed combinations and numbers of biometric modalities, which restricts flexibility and adaptability in real-world applications. To overcome these challenges, we propose an adaptive multimodal biometric authentication model, AuthFormer, tailored for elderly users. AuthFormer is trained on the LUTBIO multimodal biometric database, containing biometric data from elderly individuals. By incorporating a cross-attention mechanism and a Gated Residual Network (GRN), the model improves adaptability to physiological variations in elderly users. Experiments show that AuthFormer achieves an accuracy of 99.73%. Additionally, its encoder requires only two layers to perform optimally, reducing complexity compared to traditional Transformer-based models.  
2024-11-07 Clustering in Causal Attention Masking null This work presents a modification of the self-attention dynamics proposed by Geshkovski et al. (arXiv:2312.10794) to better reflect the practically relevant, causally masked attention used in transformer architectures for generative AI. This modification translates into an interacting particle system that cannot be interpreted as a mean-field gradient flow. Despite this loss of structure, we significantly strengthen the results of Geshkovski et al. (arXiv:2312.10794) in this context: While previous rigorous results focused on cases where all three matrices (Key, Query, and Value) were scaled identities, we prove asymptotic convergence to a single cluster for arbitrary key-query matrices and a value matrix equal to the identity. Additionally, we establish a connection to the classical R'enyi parking problem from combinatorial geometry to make initial theoretical steps towards demonstrating the existence of meta-stable states.  
2024-11-07 AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation null Neural network architecture design requires making many crucial decisions. The common desiderata is that similar decisions, with little modifications, can be reused in a variety of tasks and applications. To satisfy that, architectures must provide promising latency and performance trade-offs, support a variety of tasks, scale efficiently with respect to the amounts of data and compute, leverage available data from other tasks, and efficiently support various hardware. To this end, we introduce AsCAN – a hybrid architecture, combining both convolutional and transformer blocks. We revisit the key design principles of hybrid architectures and propose a simple and effective \emph{asymmetric} architecture, where the distribution of convolutional and transformer blocks is \emph{asymmetric}, containing more convolutional blocks in the earlier stages, followed by more transformer blocks in later stages. AsCAN supports a variety of tasks: recognition, segmentation, class-conditional image generation, and features a superior trade-off between performance and latency. We then scale the same architecture to solve a large-scale text-to-image task and show state-of-the-art performance compared to the most recent public and commercial models. Notably, even without any computation optimization for transformer blocks, our models still yield faster inference speed than existing works featuring efficient attention mechanisms, highlighting the advantages and the value of our approach.  
2024-11-07 High Entropy Alloy property predictions using Transformer-based language model null This study introduces a language transformer-based machine learning model to predict key mechanical properties of high-entropy alloys (HEAs), addressing the challenges due to their complex, multi-principal element compositions and limited experimental data. By pre-training the transformer on extensive synthetic materials data and fine-tuning it with specific HEA datasets, the model effectively captures intricate elemental interactions through self-attention mechanisms. This approach mitigates data scarcity issues via transfer learning, enhancing predictive accuracy for properties like elongation (%) and ultimate tensile strength (UTS) compared to traditional regression models such as Random Forests and Gaussian Processes. The model’s interpretability is enhanced by visualizing attention weights, revealing significant elemental relationships that align with known metallurgical principles. This work demonstrates the potential of transformer models to accelerate materials discovery and optimization, enabling accurate property predictions, thereby advancing the field of materials informatics.  
2024-11-07 How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis null Large language models (LLMs) have shown amazing performance on tasks that require planning and reasoning. Motivated by this, we investigate the internal mechanisms that underpin a network’s ability to perform complex logical reasoning. We first construct a synthetic propositional logic problem that serves as a concrete test-bed for network training and evaluation. Crucially, this problem demands nontrivial planning to solve, but we can train a small transformer to achieve perfect accuracy. Building on our set-up, we then pursue an understanding of precisely how a three-layer transformer, trained from scratch, solves this problem. We are able to identify certain “planning” and “reasoning” circuits in the network that necessitate cooperation between the attention blocks to implement the desired logic. To expand our findings, we then study a larger model, Mistral 7B. Using activation patching, we characterize internal components that are critical in solving our logic problem. Overall, our work systemically uncovers novel aspects of small and large transformers, and continues the study of how they plan and reason.  
2024-11-07 $k$NN Attention Demystified: A Theoretical Exploration for Scalable Transformers link Despite their power, Transformers face challenges with long sequences due to the quadratic complexity of self-attention. To address this limitation, methods like $k$-Nearest-Neighbor ($k$NN) attention have been introduced [Roy, Saffar, Vaswani, Grangier, 2021] enabling each token to attend to only its $k$ closest tokens. While $k$NN attention has shown empirical success in making Transformers more efficient, its exact approximation guarantees have not been theoretically analyzed. In this work, we establish a theoretical framework for $k$NN attention, reformulating self-attention as expectations over softmax distributions and leveraging lazy Gumbel sampling [Mussmann, Levy, Ermon, 2017] with $k$ NN indices for efficient approximation. Building on this framework, we also propose novel sub-quadratic algorithms that approximate self-attention gradients by leveraging efficient sampling techniques, such as Markov Chain-based estimation. Finally, we demonstrate the practical effectiveness of these algorithms through empirical experiments, showcasing their benefits in both training and inference.  
2024-11-05 LASER: Attention with Exponential Transformation null Transformers have had tremendous impact for several sequence related tasks, largely due to their ability to retrieve from any part of the sequence via softmax based dot-product attention. This mechanism plays a crucial role in Transformer’s performance. We analyze the gradients backpropagated through the softmax operation in the attention mechanism and observe that these gradients can often be small. This poor gradient signal backpropagation can lead to inefficient learning of parameters preceeding the attention operations. To this end, we introduce a new attention mechanism called LASER, which we analytically show to admit a larger gradient signal. We show that LASER Attention can be implemented by making small modifications to existing attention implementations. We conduct experiments on autoregressive large language models (LLMs) with upto 2.2 billion parameters where we show upto 3.38% and an average of ~1% improvement over standard attention on downstream evaluations. Using LASER gives the following relative improvements in generalization performance across a variety of tasks (vision, text and speech): 4.67% accuracy in Vision Transformer (ViT) on Imagenet, 2.25% error rate in Conformer on the Librispeech speech-to-text and 0.93% fraction of incorrect predictions in BERT with 2.2 billion parameters.  
2024-11-05 Enhanced Real-Time Threat Detection in 5G Networks: A Self-Attention RNN Autoencoder Approach for Spectral Intrusion Analysis null In the rapidly evolving landscape of 5G technology, safeguarding Radio Frequency (RF) environments against sophisticated intrusions is paramount, especially in dynamic spectrum access and management. This paper presents an enhanced experimental model that integrates a self-attention mechanism with a Recurrent Neural Network (RNN)-based autoencoder for the detection of anomalous spectral activities in 5G networks at the waveform level. Our approach, grounded in time-series analysis, processes in-phase and quadrature (I/Q) samples to identify irregularities that could indicate potential jamming attacks. The model’s architecture, augmented with a self-attention layer, extends the capabilities of RNN autoencoders, enabling a more nuanced understanding of temporal dependencies and contextual relationships within the RF spectrum. Utilizing a simulated 5G Radio Access Network (RAN) test-bed constructed with srsRAN 5G and Software Defined Radios (SDRs), we generated a comprehensive stream of data that reflects real-world RF spectrum conditions and attack scenarios. The model is trained to reconstruct standard signal behavior, establishing a normative baseline against which deviations, indicative of security threats, are identified. The proposed architecture is designed to balance between detection precision and computational efficiency, so the LSTM network, enriched with self-attention, continues to optimize for minimal execution latency and power consumption. Conducted on a real-world SDR-based testbed, our results demonstrate the model’s improved performance and accuracy in threat detection. Keywords: self-attention, real-time intrusion detection, RNN autoencoder, Transformer architecture, LSTM, time series anomaly detection, 5G Security, spectrum access security.  
2024-11-07 DiT4Edit: Diffusion Transformer for Image Editing null Despite recent advances in UNet-based image editing, methods for shape-aware object editing in high-resolution images are still lacking. Compared to UNet, Diffusion Transformers (DiT) demonstrate superior capabilities to effectively capture the long-range dependencies among patches, leading to higher-quality image generation. In this paper, we propose DiT4Edit, the first Diffusion Transformer-based image editing framework. Specifically, DiT4Edit uses the DPM-Solver inversion algorithm to obtain the inverted latents, reducing the number of steps compared to the DDIM inversion algorithm commonly used in UNet-based frameworks. Additionally, we design unified attention control and patches merging, tailored for transformer computation streams. This integration allows our framework to generate higher-quality edited images faster. Our design leverages the advantages of DiT, enabling it to surpass UNet structures in image editing, especially in high-resolution and arbitrary-size images. Extensive experiments demonstrate the strong performance of DiT4Edit across various editing scenarios, highlighting the potential of Diffusion Transformers in supporting image editing.  
2024-11-05 Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need link State-of-the-art methods for Transformer-based semantic segmentation typically adopt Transformer decoders that are used to extract additional embeddings from image embeddings via cross-attention, refine either or both types of embeddings via self-attention, and project image embeddings onto the additional embeddings via dot-product. Despite their remarkable success, these empirical designs still lack theoretical justifications or interpretations, thus hindering potentially principled improvements. In this paper, we argue that there are fundamental connections between semantic segmentation and compression, especially between the Transformer decoders and Principal Component Analysis (PCA). From such a perspective, we derive a white-box, fully attentional DEcoder for PrIncipled semantiC segemenTation (DEPICT), with the interpretations as follows: 1) the self-attention operator refines image embeddings to construct an ideal principal subspace that aligns with the supervision and retains most information; 2) the cross-attention operator seeks to find a low-rank approximation of the refined image embeddings, which is expected to be a set of orthonormal bases of the principal subspace and corresponds to the predefined classes; 3) the dot-product operation yields compact representation for image embeddings as segmentation masks. Experiments conducted on dataset ADE20K find that DEPICT consistently outperforms its black-box counterpart, Segmenter, and it is light weight and more robust.  
2024-11-05 Transformer-Based Fault-Tolerant Control for Fixed-Wing UAVs Using Knowledge Distillation and In-Context Adaptation null This study presents a transformer-based approach for fault-tolerant control in fixed-wing Unmanned Aerial Vehicles (UAVs), designed to adapt in real time to dynamic changes caused by structural damage or actuator failures. Unlike traditional Flight Control Systems (FCSs) that rely on classical control theory and struggle under severe alterations in dynamics, our method directly maps outer-loop reference values – altitude, heading, and airspeed – into control commands using the in-context learning and attention mechanisms of transformers, thus bypassing inner-loop controllers and fault-detection layers. Employing a teacher-student knowledge distillation framework, the proposed approach trains a student agent with partial observations by transferring knowledge from a privileged expert agent with full observability, enabling robust performance across diverse failure scenarios. Experimental results demonstrate that our transformer-based controller outperforms industry-standard FCS and state-of-the-art reinforcement learning (RL) methods, maintaining high tracking accuracy and stability in nominal conditions and extreme failure cases, highlighting its potential for enhancing UAV operational safety and reliability.  
2024-11-04 Adaptive Caching for Faster Video Generation with Diffusion Transformers null Generating temporally-consistent high-fidelity videos can be computationally expensive, especially over longer temporal spans. More-recent Diffusion Transformers (DiTs) – despite making significant headway in this context – have only heightened such challenges as they rely on larger models and heavier attention mechanisms, resulting in slower inference speeds. In this paper, we introduce a training-free method to accelerate video DiTs, termed Adaptive Caching (AdaCache), which is motivated by the fact that “not all videos are created equal”: meaning, some videos require fewer denoising steps to attain a reasonable quality than others. Building on this, we not only cache computations through the diffusion process, but also devise a caching schedule tailored to each video generation, maximizing the quality-latency trade-off. We further introduce a Motion Regularization (MoReg) scheme to utilize video information within AdaCache, essentially controlling the compute allocation based on motion content. Altogether, our plug-and-play contributions grant significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video generation) without sacrificing the generation quality, across multiple video DiT baselines.  
2024-11-04 Training-free Regional Prompting for Diffusion Transformers link Diffusion models have demonstrated excellent capabilities in text-to-image generation. Their semantic understanding (i.e., prompt following) ability has also been greatly improved with large language models (e.g., T5, Llama). However, existing models cannot perfectly handle long and complex text prompts, especially when the text prompts contain various objects with numerous attributes and interrelated spatial relationships. While many regional prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but there are still no implementations based on the recent Diffusion Transformer (DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and implement regional prompting for FLUX.1 based on attention manipulation, which enables DiT with fined-grained compositional text-to-image generation capability in a training-free manner. Code is available at https://github.com/antonioo-c/Regional-Prompting-FLUX.  
2024-11-04 Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning null Transformer-based large language models (LLMs) have displayed remarkable creative prowess and emergence capabilities. Existing empirical studies have revealed a strong connection between these LLMs’ impressive emergence abilities and their in-context learning (ICL) capacity, allowing them to solve new tasks using only task-specific prompts without further fine-tuning. On the other hand, existing empirical and theoretical studies also show that there is a linear regularity of the multi-concept encoded semantic representation behind transformer-based LLMs. However, existing theoretical work fail to build up an understanding of the connection between this regularity and the innovative power of ICL. Additionally, prior work often focuses on simplified, unrealistic scenarios involving linear transformers or unrealistic loss functions, and they achieve only linear or sub-linear convergence rates. In contrast, this work provides a fine-grained mathematical analysis to show how transformers leverage the multi-concept semantics of words to enable powerful ICL and excellent out-of-distribution ICL abilities, offering insights into how transformers innovate solutions for certain unseen tasks encoded with multiple cross-concept semantics. Inspired by empirical studies on the linear latent geometry of LLMs, the analysis is based on a concept-based low-noise sparse coding prompt model. Leveraging advanced techniques, this work showcases the exponential 0-1 loss convergence over the highly non-convex training dynamics, which pioneeringly incorporates the challenges of softmax self-attention, ReLU-activated MLPs, and cross-entropy loss. Empirical simulations corroborate the theoretical findings.  
2024-11-04 Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention link Improving the effectiveness and efficiency of large language models (LLMs) simultaneously is a critical yet challenging research goal. In this paper, we find that low-rank pre-training, normally considered as efficient methods that will compromise performance, can be scalably effective when reduced parameters are precisely targeted. Specifically, applying the low-dimensional module only to the attention layer – resolves this issue and enhances both effectiveness and efficiency. We refer to this structure as Low-dimensional Projected Attention (LPA) and provide an explanatory analysis. Through extensive experimentation at parameter scales of 130M, 370M, and scaling up to 3B, we have validated the effectiveness and scalability of LPA. Our results show that LPA model can save up to 12.4% in time while achieving an approximate 5% improvement in test perplexity (ppl) and on downstream tasks compared with the vanilla Transformer.  
2024-11-04 UnSegMedGAT: Unsupervised Medical Image Segmentation using Graph Attention Networks Clustering link The data-intensive nature of supervised classification drives the interest of the researchers towards unsupervised approaches, especially for problems such as medical image segmentation, where labeled data is scarce. Building on the recent advancements of Vision transformers (ViT) in computer vision, we propose an unsupervised segmentation framework using a pre-trained Dino-ViT. In the proposed method, we leverage the inherent graph structure within the image to realize a significant performance gain for segmentation in medical images. For this, we introduce a modularity-based loss function coupled with a Graph Attention Network (GAT) to effectively capture the inherent graph topology within the image. Our method achieves state-of-the-art performance, even significantly surpassing or matching that of existing (semi)supervised technique such as MedSAM which is a Segment Anything Model in medical images. We demonstrate this using two challenging medical image datasets ISIC-2018 and CVC-ColonDB. This work underscores the potential of unsupervised approaches in advancing medical image analysis in scenarios where labeled data is scarce. The github repository of the code is available on [https://github.com/mudit-adityaja/UnSegMedGAT].  
2024-11-04 ElasTST: Towards Robust Varied-Horizon Forecasting with Elastic Time-Series Transformer link Numerous industrial sectors necessitate models capable of providing robust forecasts across various horizons. Despite the recent strides in crafting specific architectures for time-series forecasting and developing pre-trained universal models, a comprehensive examination of their capability in accommodating varied-horizon forecasting during inference is still lacking. This paper bridges this gap through the design and evaluation of the Elastic Time-Series Transformer (ElasTST). The ElasTST model incorporates a non-autoregressive design with placeholders and structured self-attention masks, warranting future outputs that are invariant to adjustments in inference horizons. A tunable version of rotary position embedding is also integrated into ElasTST to capture time-series-specific periods and enhance adaptability to different horizons. Additionally, ElasTST employs a multi-scale patch design, effectively integrating both fine-grained and coarse-grained information. During the training phase, ElasTST uses a horizon reweighting strategy that approximates the effect of random sampling across multiple horizons with a single fixed horizon setting. Through comprehensive experiments and comparisons with state-of-the-art time-series architectures and contemporary foundation models, we demonstrate the efficacy of ElasTST’s unique design elements. Our findings position ElasTST as a robust solution for the practical necessity of varied-horizon forecasting.  
2024-11-05 MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation null Recently, transformer-based techniques incorporating superpoints have become prevalent in 3D instance segmentation. However, they often encounter an over-segmentation problem, especially noticeable with large objects. Additionally, unreliable mask predictions stemming from superpoint mask prediction further compound this issue. To address these challenges, we propose a novel framework called MSTA3D. It leverages multi-scale feature representation and introduces a twin-attention mechanism to effectively capture them. Furthermore, MSTA3D integrates a box query with a box regularizer, offering a complementary spatial constraint alongside semantic queries. Experimental evaluations on ScanNetV2, ScanNet200 and S3DIS datasets demonstrate that our approach surpasses state-of-the-art 3D instance segmentation methods.  
2024-10-31 Length-Induced Embedding Collapse in Transformer-based Models null Text embeddings enable various applications, but their performance deteriorates on longer texts. In this paper, we find that the performance degradation is due to a phenomenon called Length Collapse, where longer text embeddings collapse into a narrow space. This collapse results in a distributional inconsistency between embeddings of different text lengths, ultimately hurting the performance of downstream tasks. Theoretically, by considering the self-attention mechanism inherently functions as a low-pass filter, we prove that long sequences increase the attenuation rate of the low-pass filter effect of the self-attention mechanism. With layers going deeper, excessive low-pass filtering causes the token signals to retain only their Direct-Current (DC) component, which means the input token feature maps will collapse into a narrow space, especially in long texts. Based on the above analysis, we propose to mitigate the undesirable length collapse limitation by introducing a temperature in softmax(), which achieves a higher low-filter attenuation rate. The tuning-free method, called TempScale, can be plugged into multiple transformer-based embedding models. Empirically, we demonstrate that TempScale can improve existing embedding models, especially on long text inputs, bringing up to 0.53% performance gains on 40 datasets from Massive Text Embedding Benchmark (MTEB) and 0.82% performance gains on 4 datasets from LongEmbed, which specifically focuses on long context retrieval.  
2024-10-31 Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting link Although transformer-based methods have achieved great success in multi-scale temporal pattern interaction modeling, two key challenges limit their further development: (1) Individual time points contain less semantic information, and leveraging attention to model pair-wise interactions may cause the information utilization bottleneck. (2) Multiple inherent temporal variations (e.g., rising, falling, and fluctuating) entangled in temporal patterns. To this end, we propose Adaptive Multi-Scale Hypergraph Transformer (Ada-MSHyper) for time series forecasting. Specifically, an adaptive hypergraph learning module is designed to provide foundations for modeling group-wise interactions, then a multi-scale interaction module is introduced to promote more comprehensive pattern interactions at different scales. In addition, a node and hyperedge constraint mechanism is introduced to cluster nodes with similar semantic information and differentiate the temporal variations within each scales. Extensive experiments on 11 real-world datasets demonstrate that Ada-MSHyper achieves state-of-the-art performance, reducing prediction errors by an average of 4.56%, 10.38%, and 4.97% in MSE for long-range, short-range, and ultra-long-range time series forecasting, respectively. Code is available at https://github.com/shangzongjiang/Ada-MSHyper.  
2024-10-31 Weight decay induces low-rank attention layers null The effect of regularizers such as weight decay when training deep neural networks is not well understood. We study the influence of weight decay as well as $L2$-regularization when training neural network models in which parameter matrices interact multiplicatively. This combination is of particular interest as this parametrization is common in attention layers, the workhorse of transformers. Here, key-query, as well as value-projection parameter matrices, are multiplied directly with each other: $W_K^TW_Q$ and $PW_V$. We extend previous results and show on one hand that any local minimum of a $L2$-regularized loss of the form$ L(AB^\top) + \lambda (|A|  
2024-11-01 Human Action Recognition (HAR) Using Skeleton-based Spatial Temporal Relative Transformer Network: ST-RTR null Human Action Recognition (HAR) is an interesting research area in human-computer interaction used to monitor the activities of elderly and disabled individuals affected by physical and mental health. In the recent era, skeleton-based HAR has received much attention because skeleton data has shown that it can handle changes in striking, body size, camera views, and complex backgrounds. One key characteristic of ST-GCN is automatically learning spatial and temporal patterns from skeleton sequences. It has some limitations, as this method only works for short-range correlation due to its limited receptive field. Consequently, understanding human action requires long-range interconnection. To address this issue, we developed a spatial-temporal relative transformer ST-RTR model. The ST-RTR includes joint and relay nodes, which allow efficient communication and data transmission within the network. These nodes help to break the inherent spatial and temporal skeleton topologies, which enables the model to understand long-range human action better. Furthermore, we combine ST-RTR with a fusion model for further performance improvements. To assess the performance of the ST-RTR method, we conducted experiments on three skeleton-based HAR benchmarks: NTU RGB+D 60, NTU RGB+D 120, and UAV-Human. It boosted CS and CV by 2.11 % and 1.45% on NTU RGB+D 60, 1.25% and 1.05% on NTU RGB+D 120. On UAV-Human datasets, accuracy improved by 2.54%. The experimental outcomes explain that the proposed ST-RTR model significantly improves action recognition associated with the standard ST-GCN method.  
2024-10-31 EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching link Transformer-based Diffusion Probabilistic Models (DPMs) have shown more potential than CNN-based DPMs, yet their extensive computational requirements hinder widespread practical applications. To reduce the computation budget of transformer-based DPMs, this work proposes the Efficient Diffusion Transformer (EDT) framework. The framework includes a lightweight-design diffusion model architecture, and a training-free Attention Modulation Matrix and its alternation arrangement in EDT inspired by human-like sketching. Additionally, we propose a token relation-enhanced masking training strategy tailored explicitly for EDT to augment its token relation learning capability. Our extensive experiments demonstrate the efficacy of EDT. The EDT framework reduces training and inference costs and surpasses existing transformer-based diffusion models in image synthesis performance, thereby achieving a significant overall enhancement. With lower FID, EDT-S, EDT-B, and EDT-XL attained speed-ups of 3.93x, 2.84x, and 1.92x respectively in the training phase, and 2.29x, 2.29x, and 2.22x respectively in inference, compared to the corresponding sizes of MDTv2. The source code is released at https://github.com/xinwangChen/EDT.  
2024-11-01 In-Context LoRA for Diffusion Transformers link Recent research arXiv:2410.15027 has explored the use of diffusion transformers (DiTs) for task-agnostic image generation by simply concatenating attention tokens across images. However, despite substantial computational resources, the fidelity of the generated images remains suboptimal. In this study, we reevaluate and streamline this framework by hypothesizing that text-to-image DiTs inherently possess in-context generation capabilities, requiring only minimal tuning to activate them. Through diverse task experiments, we qualitatively demonstrate that existing text-to-image DiTs can effectively perform in-context generation without any tuning. Building on this insight, we propose a remarkably simple pipeline to leverage the in-context abilities of DiTs: (1) concatenate images instead of tokens, (2) perform joint captioning of multiple images, and (3) apply task-specific LoRA tuning using small datasets (e.g., $20\sim 100$ samples) instead of full-parameter tuning with large datasets. We name our models In-Context LoRA (IC-LoRA). This approach requires no modifications to the original DiT models, only changes to the training data. Remarkably, our pipeline generates high-fidelity image sets that better adhere to prompts. While task-specific in terms of tuning data, our framework remains task-agnostic in architecture and pipeline, offering a powerful tool for the community and providing valuable insights for further research on product-level task-agnostic generation systems. We release our code, data, and models at https://github.com/ali-vilab/In-Context-LoRA  
2024-10-31 MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation link Recent advancements in medical imaging have resulted in more complex and diverse images, with challenges such as high anatomical variability, blurred tissue boundaries, low organ contrast, and noise. Traditional segmentation methods struggle to address these challenges, making deep learning approaches, particularly U-shaped architectures, increasingly prominent. However, the quadratic complexity of standard self-attention makes Transformers computationally prohibitive for high-resolution images. To address these challenges, we propose MLLA-UNet (Mamba-Like Linear Attention UNet), a novel architecture that achieves linear computational complexity while maintaining high segmentation accuracy through its innovative combination of linear attention and Mamba-inspired adaptive mechanisms, complemented by an efficient symmetric sampling structure for enhanced feature processing. Our architecture effectively preserves essential spatial features while capturing long-range dependencies at reduced computational complexity. Additionally, we introduce a novel sampling strategy for multi-scale feature fusion. Experiments demonstrate that MLLA-UNet achieves state-of-the-art performance on six challenging datasets with 24 different segmentation tasks, including but not limited to FLARE22, AMOS CT, and ACDC, with an average DSC of 88.32%. These results underscore the superiority of MLLA-UNet over existing methods. Our contributions include the novel 2D segmentation architecture and its empirical validation. The code is available via https://github.com/csyfjiang/MLLA-UNet.  
2024-10-31 Context-Aware Token Selection and Packing for Enhanced Vision Transformer null In recent years, the long-range attention mechanism of vision transformers has driven significant performance breakthroughs across various computer vision tasks. However, the traditional self-attention mechanism, which processes both informative and non-informative tokens, suffers from inefficiency and inaccuracies. While sparse attention mechanisms have been introduced to mitigate these issues by pruning tokens involved in attention, they often lack context-awareness and intelligence. These mechanisms frequently apply a uniform token selection strategy across different inputs for batch training or optimize efficiency only for the inference stage. To overcome these challenges, we propose a novel algorithm: Select and Pack Attention (SPA). SPA dynamically selects informative tokens using a low-cost gating layer supervised by selection labels and packs these tokens into new batches, enabling a variable number of tokens to be used in parallelized GPU batch training and inference. Extensive experiments across diverse datasets and computer vision tasks demonstrate that SPA delivers superior performance and efficiency, including a 0.6 mAP improvement in object detection and a 16.4% reduction in computational costs.  
2024-10-30 A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization null Marmoset, a highly vocalized primate, has become a popular animal model for studying social-communicative behavior and its underlying mechanism. In the study of vocal communication, it is vital to know the caller identities, call contents, and vocal exchanges. Previous work of a CNN has achieved a joint model for call segmentation, classification, and caller identification for marmoset vocalizations. However, the CNN has limitations in modeling long-range acoustic patterns; the Transformer architecture that has been shown to outperform CNNs, utilizes the self-attention mechanism that efficiently segregates information parallelly over long distances and captures the global structure of marmoset vocalization. We propose using the Transformer to jointly segment and classify the marmoset calls and identify the callers for each vocalization.  
2024-10-30 DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PET link Diagnosing dementia, particularly for Alzheimer’s Disease (AD) and frontotemporal dementia (FTD), is complex due to overlapping symptoms. While magnetic resonance imaging (MRI) and positron emission tomography (PET) data are critical for the diagnosis, integrating these modalities in deep learning faces challenges, often resulting in suboptimal performance compared to using single modalities. Moreover, the potential of multi-modal approaches in differential diagnosis, which holds significant clinical importance, remains largely unexplored. We propose a novel framework, DiaMond, to address these issues with vision Transformers to effectively integrate MRI and PET. DiaMond is equipped with self-attention and a novel bi-attention mechanism that synergistically combine MRI and PET, alongside a multi-modal normalization to reduce redundant dependency, thereby boosting the performance. DiaMond significantly outperforms existing multi-modal methods across various datasets, achieving a balanced accuracy of 92.4% in AD diagnosis, 65.2% for AD-MCI-CN classification, and 76.5% in differential diagnosis of AD and FTD. We also validated the robustness of DiaMond in a comprehensive ablation study. The code is available at https://github.com/ai-med/DiaMond.  
2024-10-29 Abrupt Learning in Transformers: A Case Study on Matrix Completion null Recent analysis on the training dynamics of Transformers has unveiled an interesting characteristic: the training loss plateaus for a significant number of training steps, and then suddenly (and sharply) drops to near–optimal values. To understand this phenomenon in depth, we formulate the low-rank matrix completion problem as a masked language modeling (MLM) task, and show that it is possible to train a BERT model to solve this task to low error. Furthermore, the loss curve shows a plateau early in training followed by a sudden drop to near-optimal values, despite no changes in the training procedure or hyper-parameters. To gain interpretability insights into this sudden drop, we examine the model’s predictions, attention heads, and hidden states before and after this transition. Concretely, we observe that (a) the model transitions from simply copying the masked input to accurately predicting the masked entries; (b) the attention heads transition to interpretable patterns relevant to the task; and (c) the embeddings and hidden states encode information relevant to the problem. We also analyze the training dynamics of individual model components to understand the sudden drop in loss.  
2024-10-29 MAPUNetR: A Hybrid Vision Transformer and U-Net Architecture for Efficient and Interpretable Medical Image Segmentation null Medical image segmentation is pivotal in healthcare, enhancing diagnostic accuracy, informing treatment strategies, and tracking disease progression. This process allows clinicians to extract critical information from visual data, enabling personalized patient care. However, developing neural networks for segmentation remains challenging, especially when preserving image resolution, which is essential in detecting subtle details that influence diagnoses. Moreover, the lack of transparency in these deep learning models has slowed their adoption in clinical practice. Efforts in model interpretability are increasingly focused on making these models’ decision-making processes more transparent. In this paper, we introduce MAPUNetR, a novel architecture that synergizes the strengths of transformer models with the proven U-Net framework for medical image segmentation. Our model addresses the resolution preservation challenge and incorporates attention maps highlighting segmented regions, increasing accuracy and interpretability. Evaluated on the BraTS 2020 dataset, MAPUNetR achieved a dice score of 0.88 and a dice coefficient of 0.92 on the ISIC 2018 dataset. Our experiments show that the model maintains stable performance and potential as a powerful tool for medical image segmentation in clinical practice.  
2024-10-29 Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech null Autoregressive (AR) Transformer-based sequence models are known to have difficulty generalizing to sequences longer than those seen during training. When applied to text-to-speech (TTS), these models tend to drop or repeat words or produce erratic output, especially for longer utterances. In this paper, we introduce enhancements aimed at AR Transformer-based encoder-decoder TTS systems that address these robustness and length generalization issues. Our approach uses an alignment mechanism to provide cross-attention operations with relative location information. The associated alignment position is learned as a latent property of the model via backprop and requires no external alignment information during training. While the approach is tailored to the monotonic nature of TTS input-output alignment, it is still able to benefit from the flexible modeling power of interleaved multi-head self- and cross-attention operations. A system incorporating these improvements, which we call Very Attentive Tacotron, matches the naturalness and expressiveness of a baseline T5-based TTS system, while eliminating problems with repeated or dropped words and enabling generalization to any practical utterance length.  
2024-10-29 PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement null Scene rearrangement, like table tidying, is a challenging task in robotic manipulation due to the complexity of predicting diverse object arrangements. Web-scale trained generative models such as Stable Diffusion can aid by generating natural scenes as goals. To facilitate robot execution, object-level representations must be extracted to match the real scenes with the generated goals and to calculate object pose transformations. Current methods typically use a multi-step design that involves separate models for generation, segmentation, and feature encoding, which can lead to a low success rate due to error accumulation. Furthermore, they lack control over the viewing perspectives of the generated goals, restricting the tasks to 3-DoF settings. In this paper, we propose PACA, a zero-shot pipeline for scene rearrangement that leverages perspective-aware cross-attention representation derived from Stable Diffusion. Specifically, we develop a representation that integrates generation, segmentation, and feature encoding into a single step to produce object-level representations. Additionally, we introduce perspective control, thus enabling the matching of 6-DoF camera views and extending past approaches that were limited to 3-DoF top-down views. The efficacy of our method is demonstrated through its zero-shot performance in real robot experiments across various scenes, achieving an average matching accuracy and execution success rate of 87% and 67%, respectively.  
2024-10-29 FakeFormer: Efficient Vulnerability-Driven Transformers for Generalisable Deepfake Detection null Recently, Vision Transformers (ViTs) have achieved unprecedented effectiveness in the general domain of image classification. Nonetheless, these models remain underexplored in the field of deepfake detection, given their lower performance as compared to Convolution Neural Networks (CNNs) in that specific context. In this paper, we start by investigating why plain ViT architectures exhibit a suboptimal performance when dealing with the detection of facial forgeries. Our analysis reveals that, as compared to CNNs, ViT struggles to model localized forgery artifacts that typically characterize deepfakes. Based on this observation, we propose a deepfake detection framework called FakeFormer, which extends ViTs to enforce the extraction of subtle inconsistency-prone information. For that purpose, an explicit attention learning guided by artifact-vulnerable patches and tailored to ViTs is introduced. Extensive experiments are conducted on diverse well-known datasets, including FF++, Celeb-DF, WildDeepfake, DFD, DFDCP, and DFDC. The results show that FakeFormer outperforms the state-of-the-art in terms of generalization and computational cost, without the need for large-scale training datasets. The code is available at \url{https://github.com/10Ring/FakeFormer}.  
2024-10-29 Spatio-temporal Transformers for Action Unit Classification with Event Cameras null Face analysis has been studied from different angles to infer emotion, poses, shapes, and landmarks. Traditionally RGB cameras are used, yet for fine-grained tasks standard sensors might not be up to the task due to their latency, making it impossible to record and detect micro-movements that carry a highly informative signal, which is necessary for inferring the true emotions of a subject. Event cameras have been increasingly gaining interest as a possible solution to this and similar high-frame rate tasks. We propose a novel spatiotemporal Vision Transformer model that uses Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA) to enhance the accuracy of Action Unit classification from event streams. We also address the lack of labeled event data in the literature, which can be considered one of the main causes of an existing gap between the maturity of RGB and neuromorphic vision models. Gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. To this end, we present FACEMORPHIC, a temporally synchronized multimodal face dataset composed of RGB videos and event streams. The dataset is annotated at a video level with facial Action Units and contains streams collected with various possible applications, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space. Our proposed model outperforms baseline methods by effectively capturing spatial and temporal information, crucial for recognizing subtle facial micro-expressions.  
2024-10-28 On Inductive Biases That Enable Generalization of Diffusion Transformers link Recent work studying the generalization of diffusion models with UNet-based denoisers reveals inductive biases that can be expressed via geometry-adaptive harmonic bases. However, in practice, more recent denoising networks are often based on transformers, e.g., the diffusion transformer (DiT). This raises the question: do transformer-based denoising networks exhibit inductive biases that can also be expressed via geometry-adaptive harmonic bases? To our surprise, we find that this is not the case. This discrepancy motivates our search for the inductive bias that can lead to good generalization in DiT models. Investigating the pivotal attention modules of a DiT, we find that locality of attention maps are closely associated with generalization. To verify this finding, we modify the generalization of a DiT by restricting its attention windows. We inject local attention windows to a DiT and observe an improvement in generalization. Furthermore, we empirically find that both the placement and the effective attention size of these local attention windows are crucial factors. Experimental results on the CelebA, ImageNet, and LSUN datasets show that strengthening the inductive bias of a DiT can improve both generalization and generation quality when less training data is available. Source code will be released publicly upon paper publication. Project page: dit-generalization.github.io/.  
2024-10-29 Enhancing Learned Image Compression via Cross Window-based Attention null In recent years, learned image compression methods have demonstrated superior rate-distortion performance compared to traditional image compression methods. Recent methods utilize convolutional neural networks (CNN), variational autoencoders (VAE), invertible neural networks (INN), and transformers. Despite their significant contributions, a main drawback of these models is their poor performance in capturing local redundancy. Therefore, to leverage global features along with local redundancy, we propose a CNN-based solution integrated with a feature encoding module. The feature encoding module encodes important features before feeding them to the CNN and then utilizes cross-scale window-based attention, which further captures local redundancy. Cross-scale window-based attention is inspired by the attention mechanism in transformers and effectively enlarges the receptive field. Both the feature encoding module and the cross-scale window-based attention module in our architecture are flexible and can be incorporated into any other network architecture. We evaluate our method on the Kodak and CLIC datasets and demonstrate that our approach is effective and on par with state-of-the-art methods.  
2024-10-28 LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition null Group Activity Recognition (GAR) remains challenging in computer vision due to the complex nature of multi-agent interactions. This paper introduces LiGAR, a LIDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition. LiGAR leverages LiDAR data as a structural backbone to guide the processing of visual and textual information, enabling robust handling of occlusions and complex spatial arrangements. Our framework incorporates a Multi-Scale LIDAR Transformer, Cross-Modal Guided Attention, and an Adaptive Fusion Module to integrate multi-modal data at different semantic levels effectively. LiGAR’s hierarchical architecture captures group activities at various granularities, from individual actions to scene-level dynamics. Extensive experiments on the JRDB-PAR, Volleyball, and NBA datasets demonstrate LiGAR’s superior performance, achieving state-of-the-art results with improvements of up to 10.6% in F1-score on JRDB-PAR and 5.9% in Mean Per Class Accuracy on the NBA dataset. Notably, LiGAR maintains high performance even when LiDAR data is unavailable during inference, showcasing its adaptability. Our ablation studies highlight the significant contributions of each component and the effectiveness of our multi-modal, multi-scale approach in advancing the field of group activity recognition.  
2024-10-28 Pay Attention to Attention for Sequential Recommendation null Transformer-based approaches have demonstrated remarkable success in various sequence-based tasks. However, traditional self-attention models may not sufficiently capture the intricate dependencies within items in sequential recommendation scenarios. This is due to the lack of explicit emphasis on attention weights, which play a critical role in allocating attention and understanding item-to-item correlations. To better exploit the potential of attention weights and improve the capability of sequential recommendation in learning high-order dependencies, we propose a novel sequential recommendation (SR) approach called attention weight refinement (AWRSR). AWRSR enhances the effectiveness of self-attention by additionally paying attention to attention weights, allowing for more refined attention distributions of correlations among items. We conduct comprehensive experiments on multiple real-world datasets, demonstrating that our approach consistently outperforms state-of-the-art SR models. Moreover, we provide a thorough analysis of AWRSR’s effectiveness in capturing higher-level dependencies. These findings suggest that AWRSR offers a promising new direction for enhancing the performance of self-attention architecture in SR tasks, with potential applications in other sequence-based problems as well.  
2024-10-25 Capsule Endoscopy Multi-classification via Gated Attention and Wavelet Transformations null Abnormalities in the gastrointestinal tract significantly influence the patient’s health and require a timely diagnosis for effective treatment. With such consideration, an effective automatic classification of these abnormalities from a video capsule endoscopy (VCE) frame is crucial for improvement in diagnostic workflows. The work presents the process of developing and evaluating a novel model designed to classify gastrointestinal anomalies from a VCE video frame. Integration of Omni Dimensional Gated Attention (OGA) mechanism and Wavelet transformation techniques into the model’s architecture allowed the model to focus on the most critical areas in the endoscopy images, reducing noise and irrelevant features. This is particularly advantageous in capsule endoscopy, where images often contain a high degree of variability in texture and color. Wavelet transformations contributed by efficiently capturing spatial and frequency-domain information, improving feature extraction, especially for detecting subtle features from the VCE frames. Furthermore, the features extracted from the Stationary Wavelet Transform and Discrete Wavelet Transform are concatenated channel-wise to capture multiscale features, which are essential for detecting polyps, ulcerations, and bleeding. This approach improves classification accuracy on imbalanced capsule endoscopy datasets. The proposed model achieved 92.76% and 91.19% as training and validation accuracies respectively. At the same time, Training and Validation losses are 0.2057 and 0.2700. The proposed model achieved a Balanced Accuracy of 94.81%, AUC of 87.49%, F1-score of 91.11%, precision of 91.17%, recall of 91.19% and specificity of 98.44%. Additionally, the model’s performance is benchmarked against two base models, VGG16 and ResNet50, demonstrating its enhanced ability to identify and classify a range of gastrointestinal abnormalities accurately.  
2024-10-24 DCT-HistoTransformer: Efficient Lightweight Vision Transformer with DCT Integration for histopathological image analysis null In recent years, the integration of advanced imaging techniques and deep learning methods has significantly advanced computer-aided diagnosis (CAD) systems for breast cancer detection and classification. Transformers, which have shown great promise in computer vision, are now being applied to medical image analysis. However, their application to histopathological images presents challenges due to the need for extensive manual annotations of whole-slide images (WSIs), as these models require large amounts of data to work effectively, which is costly and time-consuming. Furthermore, the quadratic computational cost of Vision Transformers (ViTs) is particularly prohibitive for large, high-resolution histopathological images, especially on edge devices with limited computational resources. In this study, we introduce a novel lightweight breast cancer classification approach using transformers that operates effectively without large datasets. By incorporating parallel processing pathways for Discrete Cosine Transform (DCT) Attention and MobileConv, we convert image data from the spatial domain to the frequency domain to utilize the benefits such as filtering out high frequencies in the image, which reduces computational cost. This demonstrates the potential of our approach to improve breast cancer classification in histopathological images, offering a more efficient solution with reduced reliance on extensive annotated datasets. Our proposed model achieves an accuracy of 96.00% $\pm$ 0.48% for binary classification and 87.85% $\pm$ 0.93% for multiclass classification, which is comparable to state-of-the-art models while significantly reducing computational costs. This demonstrates the potential of our approach to improve breast cancer classification in histopathological images, offering a more efficient solution with reduced reliance on extensive annotated datasets.  
2024-10-24 Attention-based Citywide Electric Vehicle Charging Demand Prediction Approach Considering Urban Region and Dynamic Influences null Electric vehicle charging demand prediction is important for vacant charging pile recommendation and charging infrastructure planning, thus facilitating vehicle electrification and green energy development. The performance of previous spatio-temporal studies is still far from satisfactory because the traditional graphs are difficult to model non-pairwise spatial relationships and multivariate temporal features are not adequately taken into account. To tackle these issues, we propose an attention-based heterogeneous multivariate data fusion approach (AHMDF) for citywide electric vehicle charging demand prediction, which incorporates geo-based clustered hypergraph and multivariate gated Transformer to considers both static and dynamic influences. To learn non-pairwise relationships, we cluster service areas by the types and numbers of points of interest in the areas and develop attentive hypergraph networks accordingly. Graph attention mechanisms are used for information propagation between neighboring areas. Additionally, we improve the Transformer encoder utilizing gated mechanisms so that it can selectively learn dynamic auxiliary information and temporal features. Experiments on an electric vehicle charging benchmark dataset demonstrate the effectiveness of our proposed approach compared with a broad range of competing baselines. Furthermore, we demonstrate the impact of dynamic influences on prediction results in different areas of the city and the effectiveness of our clustering method.  
2024-10-24 Rethinking Softmax: Self-Attention with Polynomial Activations null This paper challenges the conventional belief that softmax attention in transformers is effective primarily because it generates a probability distribution for attention allocation. Instead, we theoretically show that its success lies in its ability to implicitly regularize the Frobenius norm of the attention matrix during training. We then explore alternative activations that regularize the Frobenius norm of the attention matrix, demonstrating that certain polynomial activations can achieve this effect, making them suitable for attention-based architectures. Empirical results indicate these activations perform comparably or better than softmax across various computer vision and language tasks, suggesting new possibilities for attention mechanisms beyond softmax.  
2024-10-24 Taipan: Efficient and Expressive State Space Language Models with Selective Attention null Efficient long-context language modeling remains a significant challenge in Natural Language Processing (NLP). While Transformers dominate language tasks, they struggle with long sequences due to quadratic computational complexity in training and linearly scaling memory costs during inference. Recent State Space Models (SSMs) such as Mamba offer alternatives with constant memory usage, but they underperform in tasks requiring extensive in-context retrieval. We introduce Taipan, a novel hybrid architecture that combines Mamba-2 with Selective Attention Layers (SALs). These SALs identify tokens requiring long-range interactions, remove less important features, and then augment their representations using the attention module. This approach balances Mamba’s efficiency with Transformer-like performance in memory-intensive tasks. By constraining the attention budget, Taipan extends accurate predictions to context lengths of up to 1 million tokens while preserving computational efficiency. Our experiments demonstrate Taipan’s superior performance across various scales and tasks, offering a promising solution for efficient long-context language modeling.  
2024-10-24 Local and Global Graph Modeling with Edge-weighted Graph Attention Network for Handwritten Mathematical Expression Recognition null In this paper, we present a novel approach to Handwritten Mathematical Expression Recognition (HMER) by leveraging graph-based modeling techniques. We introduce an End-to-end model with an Edge-weighted Graph Attention Mechanism (EGAT), designed to perform simultaneous node and edge classification. This model effectively integrates node and edge features, facilitating the prediction of symbol classes and their relationships within mathematical expressions. Additionally, we propose a stroke-level Graph Modeling method for both local (LGM) and global (GGM) information, which applies an end-to-end model to Online HMER tasks, transforming the recognition problem into node and edge classification tasks in graph structure. By capturing both local and global graph features, our method ensures comprehensive understanding of the expression structure. Through the combination of these components, our system demonstrates superior performance in symbol detection, relation classification, and expression-level recognition.  
2024-10-24 On Explaining with Attention Matrices link This paper explores the much discussed, possible explanatory link between attention weights (AW) in transformer models and predicted output. Contrary to intuition and early research on attention, more recent prior research has provided formal arguments and empirical evidence that AW are not explanatorily relevant. We show that the formal arguments are incorrect. We introduce and effectively compute efficient attention, which isolates the effective components of attention matrices in tasks and models in which AW play an explanatory role. We show that efficient attention has a causal role (provides minimally necessary and sufficient conditions) for predicting model output in NLP tasks requiring contextual information, and we show, contrary to [7], that efficient attention matrices are probability distributions and are effectively calculable. Thus, they should play an important part in the explanation of attention based model behavior. We offer empirical experiments in support of our method illustrating various properties of efficient attention with various metrics on four datasets.  
2024-10-24 SFB-net for cardiac segmentation: Bridging the semantic gap with attention null In the past few years, deep learning algorithms have been widely used for cardiac image segmentation. However, most of these architectures rely on convolutions that hardly model long-range dependencies, limiting their ability to extract contextual information. In order to tackle this issue, this article introduces the Swin Filtering Block network (SFB-net) which takes advantage of both conventional and swin transformer layers. The former are used to introduce spatial attention at the bottom of the network, while the latter are applied to focus on high level semantically rich features between the encoder and decoder. An average Dice score of 92.4 was achieved on the ACDC dataset. To the best of our knowledge, this result outperforms any other work on this dataset. The average Dice score of 87.99 obtained on the M\&M’s dataset demonstrates that the proposed method generalizes well to data from different vendors and centres.  
2024-10-23 Value Residual Learning For Alleviating Attention Concentration In Transformers link Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.  
2024-10-23 Anomaly Resilient Temporal QoS Prediction using Hypergraph Convoluted Transformer Network null Quality-of-Service (QoS) prediction is a critical task in the service lifecycle, enabling precise and adaptive service recommendations by anticipating performance variations over time in response to evolving network uncertainties and user preferences. However, contemporary QoS prediction methods frequently encounter data sparsity and cold-start issues, which hinder accurate QoS predictions and limit the ability to capture diverse user preferences. Additionally, these methods often assume QoS data reliability, neglecting potential credibility issues such as outliers and the presence of greysheep users and services with atypical invocation patterns. Furthermore, traditional approaches fail to leverage diverse features, including domain-specific knowledge and complex higher-order patterns, essential for accurate QoS predictions. In this paper, we introduce a real-time, trust-aware framework for temporal QoS prediction to address the aforementioned challenges, featuring an end-to-end deep architecture called the Hypergraph Convoluted Transformer Network (HCTN). HCTN combines a hypergraph structure with graph convolution over hyper-edges to effectively address high-sparsity issues by capturing complex, high-order correlations. Complementing this, the transformer network utilizes multi-head attention along with parallel 1D convolutional layers and fully connected dense blocks to capture both fine-grained and coarse-grained dynamic patterns. Additionally, our approach includes a sparsity-resilient solution for detecting greysheep users and services, incorporating their unique characteristics to improve prediction accuracy. Trained with a robust loss function resistant to outliers, HCTN demonstrated state-of-the-art performance on the large-scale WSDREAM-2 datasets for response time and throughput.  
2024-10-23 PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context null Following their success in natural language processing (NLP), there has been a shift towards transformer models in computer vision. While transformers perform well and offer promising multi-tasking performance, due to their high compute requirements, many resource-constrained applications still rely on convolutional or hybrid models that combine the benefits of convolution and attention layers and achieve the best results in the sub 100M parameter range. Simultaneously, task adaptation techniques that allow for the use of one shared transformer backbone for multiple downstream tasks, resulting in great storage savings at negligible cost in performance, have not yet been adopted for hybrid transformers. In this work, we investigate how to achieve the best task-adaptation performance and introduce PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers. We further combine PETAH adaptation with pruning to achieve highly performant and storage friendly models for multi-tasking. In our extensive evaluation on classification and other vision tasks, we demonstrate that our PETAH-adapted hybrid models outperform established task-adaptation techniques for ViTs while requiring fewer parameters and being more efficient on mobile hardware.  
2024-10-23 Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement link Surgical scene segmentation is a fundamental task for robotic-assisted laparoscopic surgery understanding. It often contains various anatomical structures and surgical instruments, where similar local textures and fine-grained structures make the segmentation a difficult task. Vision-specific transformer method is a promising way for surgical scene understanding. However, there are still two main challenges. Firstly, the absence of inner-patch information fusion leads to poor segmentation performance. Secondly, the specific characteristics of anatomy and instruments are not specifically modeled. To tackle the above challenges, we propose a novel Transformer-based framework with an Asymmetric Feature Enhancement module (TAFE), which enhances local information and then actively fuses the improved feature pyramid into the embeddings from transformer encoders by a multi-scale interaction attention strategy. The proposed method outperforms the SOTA methods in several different surgical segmentation tasks and additionally proves its ability of fine-grained structure recognition. Code is available at https://github.com/cyuan-sjtu/ViT-asym.  
2024-10-22 From Attention to Activation: Unravelling the Enigmas of Large Language Models null We study two strange phenomena in auto-regressive Transformers: (1) the dominance of the first token in attention heads; (2) the occurrence of large outlier activations in the hidden states. We find that popular large language models, such as Llama attend maximally to the first token in 98% of attention heads, a behaviour we attribute to the softmax function. To mitigate this issue, we propose a reformulation of softmax to softmax-1. Furthermore, we identify adaptive optimisers, e.g. Adam, as the primary contributor to the large outlier activations and introduce OrthoAdam, a novel optimiser that utilises orthogonal matrices to transform gradients, to address this issue. Finally, not only do our methods prevent these phenomena from occurring, but additionally, they enable Transformers to sustain their performance when quantised using basic algorithms, something that standard methods are unable to do. In summary, our methods reduce the attention proportion on the first token from 65% to 3.3%, the activation kurtosis in the hidden states from 1657 to 3.1, and perplexity penalty under 4-bit weight quantisation from 3565 to 0.3.  
2024-10-22 A Comparison of Baseline Models and a Transformer Network for SOC Prediction in Lithium-Ion Batteries null Accurately predicting the state of charge of Lithium-ion batteries is essential to the performance of battery management systems of electric vehicles. One of the main reasons for the slow global adoption of electric cars is driving range anxiety. The ability of a battery management system to accurately estimate the state of charge can help alleviate this problem. In this paper, a comparison between data-driven state-of-charge estimation methods is conducted. The paper compares different neural network-based models and common regression models for SOC estimation. These models include several ablated transformer networks, a neural network, a lasso regression model, a linear regression model and a decision tree. Results of various experiments conducted on data obtained from natural driving cycles of the BMW i3 battery show that the decision tree outperformed all other models including the more complex transformer network with self-attention and positional encoding.  
2024-10-20 Advancing Gasoline Consumption Forecasting: A Novel Hybrid Model Integrating Transformers, LSTM, and CNN null Iran, endowed with abundant hydrocarbon resources, plays a crucial role in the global energy landscape. Gasoline, as a critical fuel, significantly supports the nation’s transportation sector. Accurate forecasting of gasoline consumption is essential for strategic resource management and environmental planning. This research introduces a novel approach to predicting monthly gasoline consumption using a hybrid Transformer-LSTM-CNN model, which integrates the strengths of Transformer networks, Long Short-Term Memory (LSTM) networks, and Convolutional Neural Networks (CNN). This advanced architecture offers a superior alternative to conventional methods such as artificial neural networks and regression models by capturing both short- and long-term dependencies in time series data. By leveraging the self-attention mechanism of Transformers, the temporal memory of LSTMs, and the local pattern detection of CNNs, our hybrid model delivers improved prediction accuracy. Implemented using Python, the model provides precise future gasoline consumption forecasts and evaluates the environmental impact through the analysis of greenhouse gas emissions. This study examines gasoline consumption trends from 2007 to 2021, which rose from 64.5 million liters per day in 2007 to 99.80 million liters per day in 2021. Our proposed model forecasts consumption levels up to 2031, offering a valuable tool for policymakers and energy analysts. The results highlight the superiority of this hybrid model in improving the accuracy of gasoline consumption forecasts, reinforcing the need for advanced machine learning techniques to optimize resource management and mitigate environmental risks in the energy sector.  
2024-10-21 MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report link In this paper, we introduce a novel Multi-Modal Contrastive Pre-training Framework that synergistically combines X-rays, electrocardiograms (ECGs), and radiology/cardiology reports. Our approach leverages transformers to encode these diverse modalities into a unified representation space, aiming to enhance diagnostic accuracy and facilitate comprehensive patient assessments. We utilize LoRA-Peft to significantly reduce trainable parameters in the LLM and incorporate recent linear attention dropping strategy in the Vision Transformer(ViT) for smoother attention. Furthermore, we provide novel multimodal attention explanations and retrieval for our model. To the best of our knowledge, we are the first to propose an integrated model that combines X-ray, ECG, and Radiology/Cardiology Report with this approach. By utilizing contrastive loss, MoRE effectively aligns modality-specific features into a coherent embedding, which supports various downstream tasks such as zero-shot classification and multimodal retrieval. Employing our proposed methodology, we achieve state-of-the-art (SOTA) on the Mimic-IV, CheXpert, Edema Severity, and PtbXl downstream datasets, surpassing existing multimodal approaches. Our proposed framework shows significant improvements in capturing intricate inter-modal relationships and its robustness in medical diagnosis that establishes a framework for future research in multimodal learning in the healthcare sector.  
2024-10-21 An Explainable Contrastive-based Dilated Convolutional Network with Transformer for Pediatric Pneumonia Detection null Pediatric pneumonia remains a significant global threat, posing a larger mortality risk than any other communicable disease. According to UNICEF, it is a leading cause of mortality in children under five and requires prompt diagnosis. Early diagnosis using chest radiographs is the prevalent standard, but limitations include low radiation levels in unprocessed images and data imbalance issues. This necessitates the development of efficient, computer-aided diagnosis techniques. To this end, we propose a novel EXplainable Contrastive-based Dilated Convolutional Network with Transformer (XCCNet) for pediatric pneumonia detection. XCCNet harnesses the spatial power of dilated convolutions and the global insights from contrastive-based transformers for effective feature refinement. A robust chest X-ray processing module tackles low-intensity radiographs, while adversarial-based data augmentation mitigates the skewed distribution of chest X-rays in the dataset. Furthermore, we actively integrate an explainability approach through feature visualization, directly aligning it with the attention region that pinpoints the presence of pneumonia or normality in radiographs. The efficacy of XCCNet is comprehensively assessed on four publicly available datasets. Extensive performance evaluation demonstrates the superiority of XCCNet compared to state-of-the-art methods.  
2024-10-21 START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation null Domain Generalization (DG) aims to enable models to generalize to unseen target domains by learning from multiple source domains. Existing DG methods primarily rely on convolutional neural networks (CNNs), which inherently learn texture biases due to their limited receptive fields, making them prone to overfitting source domains. While some works have introduced transformer-based methods (ViTs) for DG to leverage the global receptive field, these methods incur high computational costs due to the quadratic complexity of self-attention. Recently, advanced state space models (SSMs), represented by Mamba, have shown promising results in supervised learning tasks by achieving linear complexity in sequence length during training and fast RNN-like computation during inference. Inspired by this, we investigate the generalization ability of the Mamba model under domain shifts and find that input-dependent matrices within SSMs could accumulate and amplify domain-specific features, thus hindering model generalization. To address this issue, we propose a novel SSM-based architecture with saliency-based token-aware transformation (namely START), which achieves state-of-the-art (SOTA) performances and offers a competitive alternative to CNNs and ViTs. Our START can selectively perturb and suppress domain-specific features in salient tokens within the input-dependent matrices of SSMs, thus effectively reducing the discrepancy between different domains. Extensive experiments on five benchmarks demonstrate that START outperforms existing SOTA DG methods with efficient linear complexity. Our code is available at https://github.com/lingeringlight/START.  
2024-10-21 All You Need is an Improving Column: Enhancing Column Generation for Parallel Machine Scheduling via Transformers null We present a neural network-enhanced column generation (CG) approach for a parallel machine scheduling problem. The proposed approach utilizes an encoder-decoder attention model, namely the transformer and pointer architectures, to develop job sequences with negative reduced cost and thus generate columns to add to the master problem. By training the neural network offline and using it in inference mode to predict negative reduced costs columns, we achieve significant computational time savings compared to dynamic programming (DP). Since the exact DP procedure is used to verify that no further columns with negative reduced cost can be identified at termination, the optimality guarantee of the original CG procedure is preserved. For small to medium-sized instances, our approach achieves an average 45% reduction in computation time compared to solving the subproblems with DP. Furthermore, the model generalizes not only to unseen, larger problem instances from the same probability distribution but also to instances from different probability distributions than those presented at training time. For large-sized instances, the proposed approach achieves an 80% improvement in the objective value in under 500 seconds, demonstrating both its scalability and efficiency.  
2024-10-21 Generalized Probabilistic Attention Mechanism in Transformers null The Transformer architecture has become widely adopted due to its demonstrated success, attributed to the attention mechanism at its core. Despite these successes, the attention mechanism of Transformers is associated with two well-known issues: rank-collapse and gradient vanishing. In this paper, we present a theoretical analysis that it is inherently difficult to address both issues simultaneously in the conventional attention mechanism. To handle these issues, we introduce a novel class of attention mechanism, referred to as generalized probabilistic attention mechanism (GPAM), and its dual-attention implementation within the Transformer architecture. Unlike conventional attention mechanisms, GPAM allows for negative attention scores while preserving a fixed total sum. We provide theoretical evidence that the proposed dual-attention GPAM (daGPAM) effectively mitigates both the rank-collapse and gradient vanishing issues which are difficult to resolve simultaneously with the conventional attention mechanisms. Furthermore, we empirically validate this theoretical evidence, demonstrating the superiority of daGPAM compared to other alternative attention mechanisms that were proposed to address the same issues. Additionally, we demonstrate the practical benefits of GPAM in natural language processing tasks, such as language modeling and neural machine translation.  
2024-10-20 SEA: State-Exchange Attention for High-Fidelity Physics-Based Transformers link Current approaches using sequential networks have shown promise in estimating field variables for dynamical systems, but they are often limited by high rollout errors. The unresolved issue of rollout error accumulation results in unreliable estimations as the network predicts further into the future, with each step’s error compounding and leading to an increase in inaccuracy. Here, we introduce the State-Exchange Attention (SEA) module, a novel transformer-based module enabling information exchange between encoded fields through multi-head cross-attention. The cross-field multidirectional information exchange design enables all state variables in the system to exchange information with one another, capturing physical relationships and symmetries between fields. In addition, we incorporate a ViT-like architecture to generate spatially coherent mesh embeddings, further improving the model’s ability to capture spatial dependencies in the data. This enhances the model’s ability to represent complex interactions between the field variables, resulting in improved rollout error accumulation. Our results show that the Transformer model integrated with the State-Exchange Attention (SEA) module outperforms competitive baseline models, including the PbGMR-GMUS Transformer-RealNVP and GMR-GMUS Transformer, with a reduction in error of 88\% and 91\%, respectively, achieving state-of-the-art performance. Furthermore, we demonstrate that the SEA module alone can reduce errors by 97\% for state variables that are highly dependent on other states of the system.  
2024-10-19 EViT-Unet: U-Net Like Efficient Vision Transformer for Medical Image Segmentation on Mobile and Edge Devices link With the rapid development of deep learning, CNN-based U-shaped networks have succeeded in medical image segmentation and are widely applied for various tasks. However, their limitations in capturing global features hinder their performance in complex segmentation tasks. The rise of Vision Transformer (ViT) has effectively compensated for this deficiency of CNNs and promoted the application of ViT-based U-networks in medical image segmentation. However, the high computational demands of ViT make it unsuitable for many medical devices and mobile platforms with limited resources, restricting its deployment on resource-constrained and edge devices. To address this, we propose EViT-UNet, an efficient ViT-based segmentation network that reduces computational complexity while maintaining accuracy, making it ideal for resource-constrained medical devices. EViT-UNet is built on a U-shaped architecture, comprising an encoder, decoder, bottleneck layer, and skip connections, combining convolutional operations with self-attention mechanisms to optimize efficiency. Experimental results demonstrate that EViT-UNet achieves high accuracy in medical image segmentation while significantly reducing computational complexity.  
2024-10-18 SignAttention: On the Interpretability of Transformer Models for Sign Language Translation null This paper presents the first comprehensive interpretability analysis of a Transformer-based Sign Language Translation (SLT) model, focusing on the translation from video-based Greek Sign Language to glosses and text. Leveraging the Greek Sign Language Dataset, we examine the attention mechanisms within the model to understand how it processes and aligns visual input with sequential glosses. Our analysis reveals that the model pays attention to clusters of frames rather than individual ones, with a diagonal alignment pattern emerging between poses and glosses, which becomes less distinct as the number of glosses increases. We also explore the relative contributions of cross-attention and self-attention at each decoding step, finding that the model initially relies on video frames but shifts its focus to previously predicted tokens as the translation progresses. This work contributes to a deeper understanding of SLT models, paving the way for the development of more transparent and reliable translation systems essential for real-world applications.  
2024-10-18 Mixed Attention Transformer Enhanced Channel Estimation for Extremely Large-Scale MIMO Systems null Extremely large-scale massive multiple-input multiple-output (XL-MIMO) is one of the key technologies for next-generation wireless communication systems. However, acquiring the accurate high-dimensional channel matrix of XL-MIMO remains a pressing challenge due to the intractable channel property and the high complexity. In this paper, a Mixed Attention Transformer based Channel Estimation Neural Network (MAT-CENet) is developed, which is inspired by the Transformer encoder structure as well as organically integrates the feature map attention and spatial attention mechanisms to better grasp the unique characteristics of the XL-MIMO channel. By incorporating the multi-head attention layer as the core enabler, the insightful feature importance is captured and exploited effectively. A comprehensive complexity analysis for the proposed MAT-CENet is also provided. Simulation results show that MAT-CENet outperforms the state of the art in different propagation scenarios of near-, far- and hybrid-fields.  
2024-10-18 Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis link Histopathology Whole Slide Image (WSI) analysis serves as the gold standard for clinical cancer diagnosis in the daily routines of doctors. To develop computer-aided diagnosis model for WSIs, previous methods typically employ Multi-Instance Learning to enable slide-level prediction given only slide-level labels. Among these models, vanilla attention mechanisms without pairwise interactions have traditionally been employed but are unable to model contextual information. More recently, self-attention models have been utilized to address this issue. To alleviate the computational complexity of long sequences in large WSIs, methods like HIPT use region-slicing, and TransMIL employs approximation of full self-attention. Both approaches suffer from suboptimal performance due to the loss of key information. Moreover, their use of absolute positional embedding struggles to effectively handle long contextual dependencies in shape-varying WSIs. In this paper, we first analyze how the low-rank nature of the long-sequence attention matrix constrains the representation ability of WSI modelling. Then, we demonstrate that the rank of attention matrix can be improved by focusing on local interactions via a local attention mask. Our analysis shows that the local mask aligns with the attention patterns in the lower layers of the Transformer. Furthermore, the local attention mask can be implemented during chunked attention calculation, reducing the quadratic computational complexity to linear with a small local bandwidth. Building on this, we propose a local-global hybrid Transformer for both computational acceleration and local-global information interactions modelling. Our method, Long-contextual MIL (LongMIL), is evaluated through extensive experiments on various WSI tasks to validate its superiority. Our code will be available at github.com/invoker-LL/Long-MIL.  
2024-10-18 Provable In-context Learning for Mixture of Linear Regressions using Transformers null We theoretically investigate the in-context learning capabilities of transformers in the context of learning mixtures of linear regression models. For the case of two mixtures, we demonstrate the existence of transformers that can achieve an accuracy, relative to the oracle predictor, of order $\mathcal{\tilde{O}}((d/n)^{1/4})$ in the low signal-to-noise ratio (SNR) regime and $\mathcal{\tilde{O}}(\sqrt{d/n})$ in the high SNR regime, where $n$ is the length of the prompt, and $d$ is the dimension of the problem. Additionally, we derive in-context excess risk bounds of order $\mathcal{O}(L/\sqrt{B})$, where $B$ denotes the number of (training) prompts, and $L$ represents the number of attention layers. The order of $L$ depends on whether the SNR is low or high. In the high SNR regime, we extend the results to $K$-component mixture models for finite $K$ . Extensive simulations also highlight the advantages of transformers for this task, outperforming other baselines such as the Expectation-Maximization algorithm.  
2024-10-17 MarineFormer: A Transformer-based Navigation Policy Model for Collision Avoidance in Marine Environment null In this work, we investigate the problem of Unmanned Surface Vehicle (USV) navigation in a dense marine environment with a high-intensity current flow. The complexities arising from static and dynamic obstacles and the disturbance forces caused by current flow render existing navigation protocols inadequate for ensuring safety and avoiding collisions at sea. To learn a safe and efficient robot policy, we propose a novel methodology that leverages attention mechanisms to capture heterogeneous interactions of the agents with the static and moving obstacles and the flow disturbances from the environment in space and time. In particular, we refine a temporal function with MarineFormer, a Transformer navigation policy for spatially variable Marine environment, trained end-to-end with reinforcement learning (RL). MarineFormer uses foundational spatio-temporal graph attention with transformer architecture to process spatial attention and temporal sequences in an environment that simulates a 2D turbulent marine condition. We propose architectural modifications that improve the stability and learning speed of the recurrent models. The flow velocity estimation, which can be derived from flow simulations or sensors, is incorporated into a model-free RL framework to prevent the robot from entering into high-intensity current flow regions including intense vortices, while potentially leveraging the flow to assist in transportation. The investigated 2D marine environment encompasses flow singularities, including vortices, sinks, and sources, representing fundamental planar flow patterns associated with flood or maritime thunderstorms. Our proposed method is trained with a new reward model to deal with static and dynamic obstacles and disturbances from the current flow.  
2024-10-17 Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs link Practitioners have consistently observed three puzzling phenomena in transformer-based large language models (LLMs): attention sinks, value-state drains, and residual-state peaks, collectively referred to as extreme-token phenomena. These phenomena are characterized by certain so-called “sink tokens” receiving disproportionately high attention weights, exhibiting significantly smaller value states, and having much larger residual-state norms than those of other tokens. These extreme tokens give rise to various challenges in LLM inference, quantization, and interpretability. We elucidate the mechanisms behind extreme-token phenomena. First, we show that these phenomena arise in very simple architectures – transformers with one to three layers – trained on a toy model, the Bigram-Backcopy (BB) task. In this setting, we identify an active-dormant mechanism, where attention heads become sinks for specific input domains while remaining non-sinks for others. Our theoretical analysis of the training dynamics reveals that these phenomena are driven by a mutual reinforcement mechanism. Building on these insights, we propose strategies to mitigate extreme-token phenomena during pretraining, including replacing softmax with ReLU and Adam with SGD. Next, we extend our analysis to pretrained LLMs, including Llama and OLMo, showing that many attention heads exhibit a similar active-dormant mechanism as in the BB task, and that the mutual reinforcement mechanism also governs the emergence of extreme-token phenomena during LLM pretraining. Our results reveal that many of the static and dynamic properties of extreme-token phenomena predicted by the BB task align with observations in pretrained LLMs.  
2024-10-17 Reducing the Transformer Architecture to a Minimum null Transformers are a widespread and successful model architecture, particularly in Natural Language Processing (NLP) and Computer Vision (CV). The essential innovation of this architecture is the Attention Mechanism, which solves the problem of extracting relevant context information from long sequences in NLP and realistic scenes in CV. A classical neural network component, a Multi-Layer Perceptron (MLP), complements the attention mechanism. Its necessity is frequently justified by its capability of modeling nonlinear relationships. However, the attention mechanism itself is nonlinear through its internal use of similarity measures. A possible hypothesis is that this nonlinearity is sufficient for modeling typical application problems. As the MLPs usually contain the most trainable parameters of the whole model, their omission would substantially reduce the parameter set size. Further components can also be reorganized to reduce the number of parameters. Under some conditions, query and key matrices can be collapsed into a single matrix of the same size. The same is true about value and projection matrices, which can also be omitted without eliminating the substance of the attention mechanism. Initially, the similarity measure was defined asymmetrically, with peculiar properties such as that a token is possibly dissimilar to itself. A possible symmetric definition requires only half of the parameters. We have laid the groundwork by testing widespread CV benchmarks: MNIST and CIFAR-10. The tests have shown that simplified transformer architectures (a) without MLP, (b) with collapsed matrices, and (c) symmetric similarity matrices exhibit similar performance as the original architecture, saving up to 90% of parameters without hurting the classification performance.  
2024-10-17 DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition null The integration of Unmanned Aerial Vehicles (UAVs) with artificial intelligence (AI) models for aerial imagery processing in disaster assessment, necessitates models that demonstrate exceptional accuracy, computational efficiency, and real-time processing capabilities. Traditionally Convolutional Neural Networks (CNNs), demonstrate efficiency in local feature extraction but are limited by their potential for global context interpretation. On the other hand, Vision Transformers (ViTs) show promise for improved global context interpretation through the use of attention mechanisms, although they still remain underinvestigated in UAV-based disaster response applications. Bridging this research gap, we introduce DiRecNetV2, an improved hybrid model that utilizes convolutional and transformer layers. It merges the inductive biases of CNNs for robust feature extraction with the global context understanding of Transformers, maintaining a low computational load ideal for UAV applications. Additionally, we introduce a new, compact multi-label dataset of disasters, to set an initial benchmark for future research, exploring how models trained on single-label data perform in a multi-label test set. The study assesses lightweight CNNs and ViTs on the AIDERSv2 dataset, based on the frames per second (FPS) for efficiency and the weighted F1 scores for classification performance. DiRecNetV2 not only achieves a weighted F1 score of 0.964 on a single-label test set but also demonstrates adaptability, with a score of 0.614 on a complex multi-label test set, while functioning at 176.13 FPS on the Nvidia Orin Jetson device.  
2024-10-17 360U-Former: HDR Illumination Estimation with Panoramic Adapted Vision Transformers null Recent illumination estimation methods have focused on enhancing the resolution and improving the quality and diversity of the generated textures. However, few have explored tailoring the neural network architecture to the Equirectangular Panorama (ERP) format utilised in image-based lighting. Consequently, high dynamic range images (HDRI) results usually exhibit a seam at the side borders and textures or objects that are warped at the poles. To address this shortcoming we propose a novel architecture, 360U-Former, based on a U-Net style Vision-Transformer which leverages the work of PanoSWIN, an adapted shifted window attention tailored to the ERP format. To the best of our knowledge, this is the first purely Vision-Transformer model used in the field of illumination estimation. We train 360U-Former as a GAN to generate HDRI from a limited field of view low dynamic range image (LDRI). We evaluate our method using current illumination estimation evaluation protocols and datasets, demonstrating that our approach outperforms existing and state-of-the-art methods without the artefacts typically associated with the use of the ERP format.  
2024-10-17 Precipitation Nowcasting Using Diffusion Transformer with Causal Attention null Short-term precipitation forecasting remains challenging due to the difficulty in capturing long-term spatiotemporal dependencies. Current deep learning methods fall short in establishing effective dependencies between conditions and forecast results, while also lacking interpretability. To address this issue, we propose a Precipitation Nowcasting Using Diffusion Transformer with Causal Attention model. Our model leverages Transformer and combines causal attention mechanisms to establish spatiotemporal queries between conditional information (causes) and forecast results (results). This design enables the model to effectively capture long-term dependencies, allowing forecast results to maintain strong causal relationships with input conditions over a wide range of time and space. We explore four variants of spatiotemporal information interactions for DTCA, demonstrating that global spatiotemporal labeling interactions yield the best performance. In addition, we introduce a Channel-To-Batch shift operation to further enhance the model’s ability to represent complex rainfall dynamics. We conducted experiments on two datasets. Compared to state-of-the-art U-Net-based methods, our approach improved the CSI (Critical Success Index) for predicting heavy precipitation by approximately 15% and 8% respectively, achieving state-of-the-art performance.  
2024-10-17 DurIAN-E 2: Duration Informed Attention Network with Adaptive Variational Autoencoder and Adversarial Learning for Expressive Text-to-Speech Synthesis null This paper proposes an improved version of DurIAN-E (DurIAN-E 2), which is also a duration informed attention neural network for expressive and high-fidelity text-to-speech (TTS) synthesis. Similar with the DurIAN-E model, multiple stacked SwishRNN-based Transformer blocks are utilized as linguistic encoders and Style-Adaptive Instance Normalization (SAIN) layers are also exploited into frame-level encoders to improve the modeling ability of expressiveness in the proposed the DurIAN-E 2. Meanwhile, motivated by other TTS models using generative models such as VITS, the proposed DurIAN-E 2 utilizes variational autoencoders (VAEs) augmented with normalizing flows and a BigVGAN waveform generator with adversarial training strategy, which further improve the synthesized speech quality and expressiveness. Both objective test and subjective evaluation results prove that the proposed expressive TTS model DurIAN-E 2 can achieve better performance than several state-of-the-art approaches besides DurIAN-E.  
2024-10-17 An Evolved Universal Transformer Memory link Prior methods propose to offset the escalating costs of modern foundation models by dropping specific parts of their contexts with hand-designed rules, while attempting to preserve their original performance. We overcome this trade-off with Neural Attention Memory Models (NAMMs), introducing a learned network for memory management that improves both the performance and efficiency of transformers. We evolve NAMMs atop pre-trained transformers to provide different latent contexts focusing on the most relevant information for individual layers and attention heads.NAMMs are universally applicable to any model using self-attention as they condition exclusively on the values in the produced attention matrices. Learning NAMMs on a small set of problems, we achieve substantial performance improvements across multiple long-context benchmarks while cutting the model’s input contexts up to a fraction of the original sizes. We show the generality of our conditioning enables zero-shot transfer of NAMMs trained only on language to entirely new transformer architectures even across input modalities, with their benefits carrying over to vision and reinforcement learning.  
2024-10-16 SWIM: An Attention-Only Model for Speech Quality Assessment Under Subjective Variance null Speech quality is best evaluated by human feedback using mean opinion scores (MOS). However, variance in ratings between listeners can introduce noise in the true quality label of an utterance. Currently, deep learning networks including convolutional, recurrent, and attention-based architectures have been explored for quality estimation. This paper proposes an exclusively attention-based model involving a Swin Transformer for MOS estimation (SWIM). Our network captures local and global dependencies that reflect the acoustic properties of an utterance. To counteract subjective variance in MOS labels, we propose a normal distance-based objective that accounts for standard deviation in each label, and we avail a multistage self-teaching strategy to improve generalization further. Our model is significantly more compact than existing attention-based networks for quality estimation. Finally, our experiments on the Samsung Open Mean Opinion Score (SOMOS) dataset show improvement over existing baseline models when trained from scratch.  
2024-10-16 ExoTST: Exogenous-Aware Temporal Sequence Transformer for Time Series Prediction null Accurate long-term predictions are the foundations for many machine learning applications and decision-making processes. Traditional time series approaches for prediction often focus on either autoregressive modeling, which relies solely on past observations of the target endogenous variables'', or forward modeling, which considers only current covariate driversexogenous variables’’. However, effectively integrating past endogenous and past exogenous with current exogenous variables remains a significant challenge. In this paper, we propose ExoTST, a novel transformer-based framework that effectively incorporates current exogenous variables alongside past context for improved time series prediction. To integrate exogenous information efficiently, ExoTST leverages the strengths of attention mechanisms and introduces a novel cross-temporal modality fusion module. This module enables the model to jointly learn from both past and current exogenous series, treating them as distinct modalities. By considering these series separately, ExoTST provides robustness and flexibility in handling data uncertainties that arise from the inherent distribution shift between historical and current exogenous variables. Extensive experiments on real-world carbon flux datasets and time series benchmarks demonstrate ExoTST’s superior performance compared to state-of-the-art baselines, with improvements of up to 10\% in prediction accuracy. Moreover, ExoTST exhibits strong robustness against missing values and noise in exogenous drivers, maintaining consistent performance in real-world situations where these imperfections are common.  
2024-10-15 MoH: Multi-Head Attention as Mixture-of-Head Attention link In this work, we upgrade the multi-head attention mechanism, the core of the Transformer model, to improve efficiency while maintaining or surpassing the previous accuracy level. We show that multi-head attention can be expressed in the summation form. Drawing on the insight that not all attention heads hold equal significance, we propose Mixture-of-Head attention (MoH), a new architecture that treats attention heads as experts in the Mixture-of-Experts (MoE) mechanism. MoH has two significant advantages: First, MoH enables each token to select the appropriate attention heads, enhancing inference efficiency without compromising accuracy or increasing the number of parameters. Second, MoH replaces the standard summation in multi-head attention with a weighted summation, introducing flexibility to the attention mechanism and unlocking extra performance potential. Extensive experiments on ViT, DiT, and LLMs demonstrate that MoH outperforms multi-head attention by using only 50%-90% of the attention heads. Moreover, we demonstrate that pre-trained multi-head attention models, such as LLaMA3-8B, can be further continue-tuned into our MoH models. Notably, MoH-LLaMA3-8B achieves an average accuracy of 64.0% across 14 benchmarks, outperforming LLaMA3-8B by 2.4% by utilizing only 75% of the attention heads. We believe the proposed MoH is a promising alternative to multi-head attention and provides a strong foundation for developing advanced and efficient attention-based models.  
2024-10-15 Light-Weight Fault Tolerant Attention for Large Language Model Training null Large Language Models (LLMs) have demonstrated remarkable performance in various natural language processing tasks. However, the training of these models is computationally intensive and susceptible to faults, particularly in the attention mechanism, which is a critical component of transformer-based LLMs. In this paper, we investigate the impact of faults on LLM training, focusing on INF, NaN, and near-INF values in the computation results with systematic fault injection experiments. We observe the propagation patterns of these errors, which can trigger non-trainable states in the model and disrupt training, forcing the procedure to load from checkpoints.To mitigate the impact of these faults, we propose ATTNChecker, the first Algorithm-Based Fault Tolerance (ABFT) technique tailored for the attention mechanism in LLMs. ATTNChecker is designed based on fault propagation patterns of LLM and incorporates performance optimization to adapt to both system reliability and model vulnerability while providing lightweight protection for fast LLM training. Evaluations on four LLMs show that ATTNChecker on average incurs on average 7% overhead on training while detecting and correcting all extreme errors. Compared with the state-of-the-art checkpoint/restore approach, ATTNChecker reduces recovery overhead by up to 49x.  
2024-10-15 CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction null Convolutional neural networks (CNNs) and vision transformers (ViTs) have become essential in computer vision for local and global feature extraction. However, aggregating these architectures in existing methods often results in inefficiencies. To address this, the CNN-Transformer Aggregation Network (CTA-Net) was developed. CTA-Net combines CNNs and ViTs, with transformers capturing long-range dependencies and CNNs extracting localized features. This integration enables efficient processing of detailed local and broader contextual information. CTA-Net introduces the Light Weight Multi-Scale Feature Fusion Multi-Head Self-Attention (LMF-MHSA) module for effective multi-scale feature integration with reduced parameters. Additionally, the Reverse Reconstruction CNN-Variants (RRCV) module enhances the embedding of CNNs within the transformer architecture. Extensive experiments on small-scale datasets with fewer than 100,000 samples show that CTA-Net achieves superior performance (TOP-1 Acc 86.76\%), fewer parameters (20.32M), and greater efficiency (FLOPs 2.83B), making it a highly efficient and lightweight solution for visual tasks on small-scale datasets (fewer than 100,000).  
2024-10-15 Implementing Derivations of Definite Logic Programs with Self-Attention Networks null In this paper we propose that a restricted version of logical inference can be implemented with self-attention networks. We are aiming at showing that LLMs (Large Language Models) constructed with transformer networks can make logical inferences. We would reveal the potential of LLMs by analyzing self-attention networks, which are main components of transformer networks. Our approach is not based on semantics of natural languages but operations of logical inference. %point of view. We show that hierarchical constructions of self-attention networks with feed forward networks (FFNs) can implement top-down derivations for a class of logical formulae. We also show bottom-up derivations are also implemented for the same class. We believe that our results show that LLMs implicitly have the power of logical inference.  
2024-10-15 SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection null Multimodal object detection leverages diverse modal information to enhance the accuracy and robustness of detectors. By learning long-term dependencies, Transformer can effectively integrate multimodal features in the feature extraction stage, which greatly improves the performance of multimodal object detection. However, current methods merely stack Transformer-guided fusion techniques without exploring their capability to extract features at various depth layers of network, thus limiting the improvements in detection performance. In this paper, we introduce an accurate and efficient object detection method named SeaDATE. Initially, we propose a novel dual attention Feature Fusion (DTF) module that, under Transformer’s guidance, integrates local and global information through a dual attention mechanism, strengthening the fusion of modal features from orthogonal perspectives using spatial and channel tokens. Meanwhile, our theoretical analysis and empirical validation demonstrate that the Transformer-guided fusion method, treating images as sequences of pixels for fusion, performs better on shallow features’ detail information compared to deep semantic information. To address this, we designed a contrastive learning (CL) module aimed at learning features of multimodal samples, remedying the shortcomings of Transformer-guided fusion in extracting deep semantic features, and effectively utilizing cross-modal information. Extensive experiments and ablation studies on the FLIR, LLVIP, and M3FD datasets have proven our method to be effective, achieving state-of-the-art detection performance.  
2024-10-15 Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix null Large Language Models (LLMs) have shown immense potential in enhancing various aspects of our daily lives, from conversational AI to search and AI assistants. However, their growing capabilities come at the cost of extremely large model sizes, making deployment on edge devices challenging due to memory and computational constraints. This paper introduces a novel approach to LLM weight pruning that directly optimizes for approximating the attention matrix, a core component of transformer architectures. Unlike existing methods that focus on linear approximations, our approach accounts for the non-linear nature of the Softmax attention mechanism. We provide theoretical guarantees for the convergence of our Gradient Descent-based optimization method to a near-optimal pruning mask solution. Our preliminary empirical results demonstrate the effectiveness of this approach in maintaining model performance while significantly reducing computational costs. This work establishes a new theoretical foundation for pruning algorithm design in LLMs, potentially paving the way for more efficient LLM inference on resource-constrained devices.  
2024-10-15 Rethinking Graph Transformer Architecture Design for Node Classification null Graph Transformer (GT), as a special type of Graph Neural Networks (GNNs), utilizes multi-head attention to facilitate high-order message passing. However, this also imposes several limitations in node classification applications: 1) nodes are susceptible to global noise; 2) self-attention computation cannot scale well to large graphs. In this work, we conduct extensive observational experiments to explore the adaptability of the GT architecture in node classification tasks and draw several conclusions: the current multi-head self-attention module in GT can be completely replaceable, while the feed-forward neural network module proves to be valuable. Based on this, we decouple the propagation (P) and transformation (T) of GNNs and explore a powerful GT architecture, named GNNFormer, which is based on the P/T combination message passing and adapted for node classification in both homophilous and heterophilous scenarios. Extensive experiments on 12 benchmark datasets demonstrate that our proposed GT architecture can effectively adapt to node classification tasks without being affected by global noise and computational efficiency limitations.  
2024-10-14 What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis null The Transformer architecture has inarguably revolutionized deep learning, overtaking classical architectures like multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs). At its core, the attention block differs in form and functionality from most other architectural components in deep learning – to the extent that Transformers are often accompanied by adaptive optimizers, layer normalization, learning rate warmup, and more, in comparison to MLPs/CNNs. The root causes behind these outward manifestations, and the precise mechanisms that govern them, remain poorly understood. In this work, we bridge this gap by providing a fundamental understanding of what distinguishes the Transformer from the other architectures – grounded in a theoretical comparison of the (loss) Hessian. Concretely, for a single self-attention layer, (a) we first entirely derive the Transformer’s Hessian and express it in matrix derivatives; (b) we then characterize it in terms of data, weight, and attention moment dependencies; and (c) while doing so further highlight the important structural differences to the Hessian of classical networks. Our results suggest that various common architectural and optimization choices in Transformers can be traced back to their highly non-linear dependencies on the data and weight matrices, which vary heterogeneously across parameters. Ultimately, our findings provide a deeper understanding of the Transformer’s unique optimization landscape and the challenges it poses.  
2024-10-14 Hybrid Transformer for Early Alzheimer’s Detection: Integration of Handwriting-Based 2D Images and 1D Signal Features null Alzheimer’s Disease (AD) is a prevalent neurodegenerative condition where early detection is vital. Handwriting, often affected early in AD, offers a non-invasive and cost-effective way to capture subtle motor changes. State-of-the-art research on handwriting, mostly online, based AD detection has predominantly relied on manually extracted features, fed as input to shallow machine learning models. Some recent works have proposed deep learning (DL)-based models, either 1D-CNN or 2D-CNN architectures, with performance comparing favorably to handcrafted schemes. These approaches, however, overlook the intrinsic relationship between the 2D spatial patterns of handwriting strokes and their 1D dynamic characteristics, thus limiting their capacity to capture the multimodal nature of handwriting data. Moreover, the application of Transformer models remains basically unexplored. To address these limitations, we propose a novel approach for AD detection, consisting of a learnable multimodal hybrid attention model that integrates simultaneously 2D handwriting images with 1D dynamic handwriting signals. Our model leverages a gated mechanism to combine similarity and difference attention, blending the two modalities and learning robust features by incorporating information at different scales. Our model achieved state-of-the-art performance on the DARWIN dataset, with an F1-score of 90.32\% and accuracy of 90.91\% in Task 8 (‘L’ writing), surpassing the previous best by 4.61% and 6.06% respectively.  
2024-10-14 Domain-Conditioned Transformer for Fully Test-time Adaptation link Fully test-time adaptation aims to adapt a network model online based on sequential analysis of input samples during the inference stage. We observe that, when applying a transformer network model into a new domain, the self-attention profiles of image samples in the target domain deviate significantly from those in the source domain, which results in large performance degradation during domain changes. To address this important issue, we propose a new structure for the self-attention modules in the transformer. Specifically, we incorporate three domain-conditioning vectors, called domain conditioners, into the query, key, and value components of the self-attention module. We learn a network to generate these three domain conditioners from the class token at each transformer network layer. We find that, during fully online test-time adaptation, these domain conditioners at each transform network layer are able to gradually remove the impact of domain shift and largely recover the original self-attention profile. Our extensive experimental results demonstrate that the proposed domain-conditioned transformer significantly improves the online fully test-time domain adaptation performance and outperforms existing state-of-the-art methods by large margins.  
2024-10-11 AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation link This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models’ attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.  
2024-10-11 Extra Global Attention Designation Using Keyword Detection in Sparse Transformer Architectures null In this paper, we propose an extension to Longformer Encoder-Decoder, a popular sparse transformer architecture. One common challenge with sparse transformers is that they can struggle with encoding of long range context, such as connections between topics discussed at a beginning and end of a document. A method to selectively increase global attention is proposed and demonstrated for abstractive summarization tasks on several benchmark data sets. By prefixing the transcript with additional keywords and encoding global attention on these keywords, improvement in zero-shot, few-shot, and fine-tuned cases is demonstrated for some benchmark data sets.  
2024-10-11 On-Chip Learning via Transformer In-Context Learning null Autoregressive decoder-only transformers have become key components for scalable sequence processing and generation models. However, the transformer’s self-attention mechanism requires transferring prior token projections from the main memory at each time step (token), thus severely limiting their performance on conventional processors. Self-attention can be viewed as a dynamic feed-forward layer, whose matrix is input sequence-dependent similarly to the result of local synaptic plasticity. Using this insight, we present a neuromorphic decoder-only transformer model that utilizes an on-chip plasticity processor to compute self-attention. Interestingly, the training of transformers enables them to ``learn’’ the input context during inference. We demonstrate this in-context learning ability of transformers on the Loihi 2 processor by solving a few-shot classification problem. With this we emphasize the importance of pretrained models especially their ability to find simple, local, backpropagation free, learning rules enabling on-chip learning and adaptation in a hardware friendly manner.  
2024-10-11 Small Tunes Transformer: Exploring Macro & Micro-Level Hierarchies for Skeleton-Conditioned Melody Generation null Recently, symbolic music generation has become a focus of numerous deep learning research. Structure as an important part of music, contributes to improving the quality of music, and an increasing number of works start to study the hierarchical structure. In this study, we delve into the multi-level structures within music from macro-level and micro-level hierarchies. At the macro-level hierarchy, we conduct phrase segmentation algorithm to explore how phrases influence the overall development of music, and at the micro-level hierarchy, we design skeleton notes extraction strategy to explore how skeleton notes within each phrase guide the melody generation. Furthermore, we propose a novel Phrase-level Cross-Attention mechanism to capture the intrinsic relationship between macro-level hierarchy and micro-level hierarchy. Moreover, in response to the current lack of research on Chinese-style music, we construct our Small Tunes Dataset: a substantial collection of MIDI files comprising 10088 Small Tunes, a category of traditional Chinese Folk Songs. This dataset serves as the focus of our study. We generate Small Tunes songs utilizing the extracted skeleton notes as conditions, and experiment results indicate that our proposed model, Small Tunes Transformer, outperforms other state-of-the-art models. Besides, we design three novel objective evaluation metrics to evaluate music from both rhythm and melody dimensions.  
2024-10-11 DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention link Vision Transformers with various attention modules have demonstrated superior performance on vision tasks. While using sparsity-adaptive attention, such as in DAT, has yielded strong results in image classification, the key-value pairs selected by deformable points lack semantic relevance when fine-tuning for semantic segmentation tasks. The query-aware sparsity attention in BiFormer seeks to focus each query on top-k routed regions. However, during attention calculation, the selected key-value pairs are influenced by too many irrelevant queries, reducing attention on the more important ones. To address these issues, we propose the Deformable Bi-level Routing Attention (DBRA) module, which optimizes the selection of key-value pairs using agent queries and enhances the interpretability of queries in attention maps. Based on this, we introduce the Deformable Bi-level Routing Attention Transformer (DeBiFormer), a novel general-purpose vision transformer built with the DBRA module. DeBiFormer has been validated on various computer vision tasks, including image classification, object detection, and semantic segmentation, providing strong evidence of its effectiveness.Code is available at {https://github.com/maclong01/DeBiFormer}  
2024-10-10 Self-Attention Mechanism in Multimodal Context for Banking Transaction Flow null Banking Transaction Flow (BTF) is a sequential data found in a number of banking activities such as marketing, credit risk or banking fraud. It is a multimodal data composed of three modalities: a date, a numerical value and a wording. We propose in this work an application of self-attention mechanism to the processing of BTFs. We trained two general models on a large amount of BTFs in a self-supervised way: one RNN-based model and one Transformer-based model. We proposed a specific tokenization in order to be able to process BTFs. The performance of these two models was evaluated on two banking downstream tasks: a transaction categorization task and a credit risk task. The results show that fine-tuning these two pre-trained models allowed to perform better than the state-of-the-art approaches for both tasks.  
2024-10-10 Pretraining Graph Transformers with Atom-in-a-Molecule Quantum Properties for Improved ADMET Modeling link We evaluate the impact of pretraining Graph Transformer architectures on atom-level quantum-mechanical features for the modeling of absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of drug-like compounds. We compare this pretraining strategy with two others: one based on molecular quantum properties (specifically the HOMO-LUMO gap) and one using a self-supervised atom masking technique. After fine-tuning on Therapeutic Data Commons ADMET datasets, we evaluate the performance improvement in the different models observing that models pretrained with atomic quantum mechanical properties produce in general better results. We then analyse the latent representations and observe that the supervised strategies preserve the pretraining information after finetuning and that different pretrainings produce different trends in latent expressivity across layers. Furthermore, we find that models pretrained on atomic quantum mechanical properties capture more low-frequency laplacian eigenmodes of the input graph via the attention weights and produce better representations of atomic environments within the molecule. Application of the analysis to a much larger non-public dataset for microsomal clearance illustrates generalizability of the studied indicators. In this case the performances of the models are in accordance with the representation analysis and highlight, especially for the case of masking pretraining and atom-level quantum property pretraining, how model types with similar performance on public benchmarks can have different performances on large scale pharmaceutical data.  
2024-10-11 BA-Net: Bridge Attention in Deep Neural Networks null Attention mechanisms, particularly channel attention, have become highly influential in numerous computer vision tasks. Despite their effectiveness, many existing methods primarily focus on optimizing performance through complex attention modules applied at individual convolutional layers, often overlooking the synergistic interactions that can occur across multiple layers. In response to this gap, we introduce bridge attention, a novel approach designed to facilitate more effective integration and information flow between different convolutional layers. Our work extends the original bridge attention model (BAv1) by introducing an adaptive selection operator, which reduces information redundancy and optimizes the overall information exchange. This enhancement results in the development of BAv2, which achieves substantial performance improvements in the ImageNet classification task, obtaining Top-1 accuracies of 80.49% and 81.75% when using ResNet50 and ResNet101 as backbone networks, respectively. These results surpass the retrained baselines by 1.61% and 0.77%, respectively. Furthermore, BAv2 outperforms other existing channel attention techniques, such as the classical SENet101, exceeding its retrained performance by 0.52% Additionally, integrating BAv2 into advanced convolutional networks and vision transformers has led to significant gains in performance across a wide range of computer vision tasks, underscoring its broad applicability.  
2024-10-10 Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers null Attention layers are the core component of transformers, the current state-of-the-art neural network architecture. However, \softmaxx-based attention puts transformers’ trainability at risk. Even \textit{at initialisation}, the propagation of signals and gradients through the random network can be pathological, resulting in known issues such as (i) vanishing/exploding gradients and (ii) \textit{rank collapse}, i.e. when all tokens converge to a single representation \textit{with depth}. This paper examines signal propagation in \textit{attention-only} transformers from a random matrix perspective, illuminating the origin of such issues, as well as unveiling a new phenomenon – (iii) rank collapse \textit{in width}. Modelling \softmaxx-based attention at initialisation with Random Markov matrices, our theoretical analysis reveals that a \textit{spectral gap} between the two largest singular values of the attention matrix causes (iii), which, in turn, exacerbates (i) and (ii). Building on this insight, we propose a novel, yet simple, practical solution to resolve rank collapse in width by removing the spectral gap. Moreover, we validate our findings and discuss the training benefits of the proposed fix through experiments that also motivate a revision of some of the default parameter scaling. Our attention model accurately describes the standard key-query attention in a single-layer transformer, making this work a significant first step towards a better understanding of the initialisation dynamics in the multi-layer case.  
2024-10-10 Benign Overfitting in Single-Head Attention null The phenomenon of benign overfitting, where a trained neural network perfectly fits noisy training data but still achieves near-optimal test performance, has been extensively studied in recent years for linear models and fully-connected/convolutional networks. In this work, we study benign overfitting in a single-head softmax attention model, which is the fundamental building block of Transformers. We prove that under appropriate conditions, the model exhibits benign overfitting in a classification setting already after two steps of gradient descent. Moreover, we show conditions where a minimum-norm/maximum-margin interpolator exhibits benign overfitting. We study how the overfitting behavior depends on the signal-to-noise ratio (SNR) of the data distribution, namely, the ratio between norms of signal and noise tokens, and prove that a sufficiently large SNR is both necessary and sufficient for benign overfitting.  
2024-10-10 Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM null Dropout, a network operator, when enabled is likely to dramatically impact the performance of Flash-Attention, which in turn increases the end-to-end training time of Large-Language-Models (LLMs). The main contributor to such performance degradation is the Random Number Generation (RNG) phase that is traditionally fused into the Flash-Attention kernel. As RNG and Attention have the same hardware bottlenecks, RNG latency can hardly be hidden within the Attention kernel. We propose overlapping RNG with previous GEMM layers in the network to hide RNG runtime and improve end-to-end performance. RNG and GEMM have distinct resource requirements and hardware bottlenecks, so they can run in parallel without compromising each other’s performance. Our fine-grained performance model, cross-validated by silicon results, shows 1.14x speedup on one transformer block (including multi-head attention and feed-forward layers) for Llama2, and up to 1.23x speedup when varying workload sizes, on GH100 GPUs with FP8 precision. Further, we extend our theoretical model to different RNG implementations and hardware architectures, and discuss the widely applicable benefits for overlapping RNG with GEMM layers.  
2024-10-09 VIRT: Vision Instructed Transformer for Robotic Manipulation null Robotic manipulation, owing to its multi-modal nature, often faces significant training ambiguity, necessitating explicit instructions to clearly delineate the manipulation details in tasks. In this work, we highlight that vision instruction is naturally more comprehensible to recent robotic policies than the commonly adopted text instruction, as these policies are born with some vision understanding ability like human infants. Building on this premise and drawing inspiration from cognitive science, we introduce the robotic imagery paradigm, which realizes large-scale robotic data pre-training without text annotations. Additionally, we propose the robotic gaze strategy that emulates the human eye gaze mechanism, thereby guiding subsequent actions and focusing the attention of the policy on the manipulated object. Leveraging these innovations, we develop VIRT, a fully Transformer-based policy. We design comprehensive tasks using both a physical robot and simulated environments to assess the efficacy of VIRT. The results indicate that VIRT can complete very competitive tasks like ``opening the lid of a tightly sealed bottle’’, and the proposed techniques boost the success rates of the baseline policy on diverse challenging tasks from nearly 0% to more than 65%.  
2024-10-09 Stanceformer: Target-Aware Transformer for Stance Detection null The task of Stance Detection involves discerning the stance expressed in a text towards a specific subject or target. Prior works have relied on existing transformer models that lack the capability to prioritize targets effectively. Consequently, these models yield similar performance regardless of whether we utilize or disregard target information, undermining the task’s significance. To address this challenge, we introduce Stanceformer, a target-aware transformer model that incorporates enhanced attention towards the targets during both training and inference. Specifically, we design a \textit{Target Awareness} matrix that increases the self-attention scores assigned to the targets. We demonstrate the efficacy of the Stanceformer with various BERT-based models, including state-of-the-art models and Large Language Models (LLMs), and evaluate its performance across three stance detection datasets, alongside a zero-shot dataset. Our approach Stanceformer not only provides superior performance but also generalizes even to other domains, such as Aspect-based Sentiment Analysis. We make the code publicly available.\footnote{\scriptsize\url{https://github.com/kgarg8/Stanceformer}}  
2024-10-09 InAttention: Linear Context Scaling for Transformers null VRAM requirements for transformer models scale quadratically with context length due to the self-attention mechanism. In this paper we modify the decoder-only transformer, replacing self-attention with InAttention, which scales linearly with context length during inference by having tokens attend only to initial states. Benchmarking shows that InAttention significantly reduces VRAM usage during inference, enabling handling of long sequences on consumer GPUs. We corroborate that fine-tuning extends context length efficiently, improving performance on long sequences without high training costs. InAttention offers a scalable solution for long-range dependencies in transformer models, paving the way for further optimization.  
2024-10-09 Dynamic metastability in the self-attention model link We consider the self-attention model - an interacting particle system on the unit sphere, which serves as a toy model for Transformers, the deep neural network architecture behind the recent successes of large language models. We prove the appearance of dynamic metastability conjectured in [GLPR23] - although particles collapse to a single cluster in infinite time, they remain trapped near a configuration of several clusters for an exponentially long period of time. By leveraging a gradient flow interpretation of the system, we also connect our result to an overarching framework of slow motion of gradient flows proposed by Otto and Reznikoff [OR07] in the context of coarsening and the Allen-Cahn equation. We finally probe the dynamics beyond the exponentially long period of metastability, and illustrate that, under an appropriate time-rescaling, the energy reaches its global maximum in finite time and has a staircase profile, with trajectories manifesting saddle-to-saddle-like behavior, reminiscent of recent works in the analysis of training dynamics via gradient descent for two-layer neural networks.  
2024-10-09 Cluster-wise Graph Transformer with Dual-granularity Kernelized Attention link In the realm of graph learning, there is a category of methods that conceptualize graphs as hierarchical structures, utilizing node clustering to capture broader structural information. While generally effective, these methods often rely on a fixed graph coarsening routine, leading to overly homogeneous cluster representations and loss of node-level information. In this paper, we envision the graph as a network of interconnected node sets without compressing each cluster into a single embedding. To enable effective information transfer among these node sets, we propose the Node-to-Cluster Attention (N2C-Attn) mechanism. N2C-Attn incorporates techniques from Multiple Kernel Learning into the kernelized attention framework, effectively capturing information at both node and cluster levels. We then devise an efficient form for N2C-Attn using the cluster-wise message-passing framework, achieving linear time complexity. We further analyze how N2C-Attn combines bi-level feature maps of queries and keys, demonstrating its capability to merge dual-granularity information. The resulting architecture, Cluster-wise Graph Transformer (Cluster-GT), which uses node clusters as tokens and employs our proposed N2C-Attn module, shows superior performance on various graph-level tasks. Code is available at https://github.com/LUMIA-Group/Cluster-wise-Graph-Transformer.  
2024-10-07 Differential Transformer link Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.  
2024-10-07 TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention link 大型语言模型(LLM)在各种自然语言处理任务中取得了重大进展,其中长上下文模型在处理扩展输入方面表现突出。然而,Transformer 架构所需的不断扩大的键值(KV)缓存大小加剧了内存限制,特别是在解码阶段,造成了显著的瓶颈。现有的旨在解决此瓶颈的稀疏注意力机制有两个局限性:(1)它们通常无法可靠地识别与注意力最相关的标记,以及(2)它们忽略了跨连续 Transformer 层的标记选择的空間一致性,这可能导致性能下降和标记选择中的大量开销。本文介绍了 TidalDecode,这是一种简单而有效的算法和系统,可通过位置持久性稀疏注意力实现快速准确的 LLM 解码。TidalDecode 利用现有稀疏注意力方法选择的标记的空间一致性,并引入了一些执行完全注意力的标记选择层,以识别具有最高注意力分数的标记,而所有其他层都对预先选择的标记执行稀疏注意力。这种设计使 TidalDecode 能够在不牺牲生成结果质量的情况下,大幅减少稀疏注意力的标记选择开销。对各种 LLM 和任务的评估表明,TidalDecode 在生成性能上与完全注意力方法非常接近,同时将 LLM 解码延迟降低了高达 2.1 倍。  
2024-10-07 On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent null The Adam optimizer is widely used for transformer optimization in practice, which makes understanding the underlying optimization mechanisms an important problem. However, due to the Adam’s complexity, theoretical analysis of how it optimizes transformers remains a challenging task. Fortunately, Sign Gradient Descent (SignGD) serves as an effective surrogate for Adam. Despite its simplicity, theoretical understanding of how SignGD optimizes transformers still lags behind. In this work, we study how SignGD optimizes a two-layer transformer – consisting of a softmax attention layer with trainable query-key parameterization followed by a linear layer – on a linearly separable noisy dataset. We identify four stages in the training dynamics, each exhibiting intriguing behaviors. Based on the training dynamics, we prove the fast convergence but poor generalization of the learned transformer on the noisy dataset. We also show that Adam behaves similarly to SignGD in terms of both optimization and generalization in this setting. Additionally, we find that the poor generalization of SignGD is not solely due to data noise, suggesting that both SignGD and Adam requires high-quality data for real-world tasks. Finally, experiments on synthetic and real-world datasets empirically support our theoretical results.  
2024-10-07 Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering null The goal of this paper is to improve the performance of pretrained Vision Transformer (ViT) models, particularly DINOv2, in image clustering task without requiring re-training or fine-tuning. As model size increases, high-norm artifacts anomaly appears in the patches of multi-head attention. We observe that this anomaly leads to reduced accuracy in zero-shot image clustering. These artifacts are characterized by disproportionately large values in the attention map compared to other patch tokens. To address these artifacts, we propose an approach called Inference-Time Attention Engineering (ITAE), which manipulates attention function during inference. Specifically, we identify the artifacts by investigating one of the Query-Key-Value (QKV) patches in the multi-head attention and attenuate their corresponding attention values inside the pretrained models. ITAE shows improved clustering accuracy on multiple datasets by exhibiting more expressive features in latent space. Our findings highlight the potential of ITAE as a practical solution for reducing artifacts in pretrained ViT models and improving model performance in clustering tasks without the need for re-training or fine-tuning.  
2024-10-07 DAPE V2: Process Attention Score as Feature Map for Length Extrapolation link The attention mechanism is a fundamental component of the Transformer model, contributing to interactions among distinct tokens, in contrast to earlier feed-forward neural networks. In general, the attention scores are determined simply by the key-query products. However, this work’s occasional trial (combining DAPE and NoPE) of including additional MLPs on attention scores without position encoding indicates that the classical key-query multiplication may limit the performance of Transformers. In this work, we conceptualize attention as a feature map and apply the convolution operator (for neighboring attention scores across different heads) to mimic the processing methods in computer vision. Specifically, the main contribution of this paper is identifying and interpreting the Transformer length extrapolation problem as a result of the limited expressiveness of the naive query and key dot product, and we successfully translate the length extrapolation issue into a well-understood feature map processing problem. The novel insight, which can be adapted to various attention-related models, reveals that the current Transformer architecture has the potential for further evolution. Extensive experiments demonstrate that treating attention as a feature map and applying convolution as a processing method significantly enhances Transformer performance.  
2024-10-07 PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners link Spatiotemporal predictive learning methods generally fall into two categories: recurrent-based approaches, which face challenges in parallelization and performance, and recurrent-free methods, which employ convolutional neural networks (CNNs) as encoder-decoder architectures. These methods benefit from strong inductive biases but often at the expense of scalability and generalization. This paper proposes PredFormer, a pure transformer-based framework for spatiotemporal predictive learning. Motivated by the Vision Transformers (ViT) design, PredFormer leverages carefully designed Gated Transformer blocks, following a comprehensive analysis of 3D attention mechanisms, including full-, factorized-, and interleaved- spatial-temporal attention. With its recurrent-free, transformer-based design, PredFormer is both simple and efficient, significantly outperforming previous methods by large margins. Extensive experiments on synthetic and real-world datasets demonstrate that PredFormer achieves state-of-the-art performance. On Moving MNIST, PredFormer achieves a 51.3% reduction in MSE relative to SimVP. For TaxiBJ, the model decreases MSE by 33.1% and boosts FPS from 533 to 2364. Additionally, on WeatherBench, it reduces MSE by 11.1% while enhancing FPS from 196 to 404. These performance gains in both accuracy and efficiency demonstrate PredFormer’s potential for real-world applications. The source code will be released at https://github.com/yyyujintang/PredFormer.  
2024-10-07 Efficient transformer with reinforced position embedding for language models null In this paper, we propose an efficient transformer architecture that uses reinforced positional embedding to obtain superior performance with half the number of encoder decoder layers. We demonstrate that concatenating positional encoding with trainable token embeddings, normalizing columns in the token embedding matrix, and using the normalized token embedding matrix as the value of the attention layer improve the training and validation loss and the training time in an encoder-decoder Transformer model for a Portuguese-English translation task with 10 epochs or 12 hours of training across 10 trials. Our method, with roughly a threefold parameter reduction compared to the baseline model, yields a mean training loss of 1.21, a mean validation loss of 1.51, and an average training time of 1352.27 seconds per epoch, surpassing the baseline model with the same embedding dimension that employs addition of positional encoding and token embeddings, which achieves a mean training loss of 1.96, a validation loss of 2.18, and an average training time of 4297.79 seconds per epoch. Additionally, we evaluated our proposed architecture and the baseline across 14 diverse translation datasets from TensorFlow. The results indicate that our method consistently achieves lower or comparable training and validation losses, suggesting enhanced learning efficiency.  
2024-10-07 Low-Rank Continual Pyramid Vision Transformer: Incrementally Segment Whole-Body Organs in CT with Light-Weighted Adaptation null Deep segmentation networks achieve high performance when trained on specific datasets. However, in clinical practice, it is often desirable that pretrained segmentation models can be dynamically extended to enable segmenting new organs without access to previous training datasets or without training from scratch. This would ensure a much more efficient model development and deployment paradigm accounting for the patient privacy and data storage issues. This clinically preferred process can be viewed as a continual semantic segmentation (CSS) problem. Previous CSS works would either experience catastrophic forgetting or lead to unaffordable memory costs as models expand. In this work, we propose a new continual whole-body organ segmentation model with light-weighted low-rank adaptation (LoRA). We first train and freeze a pyramid vision transformer (PVT) base segmentation model on the initial task, then continually add light-weighted trainable LoRA parameters to the frozen model for each new learning task. Through a holistically exploration of the architecture modification, we identify three most important layers (i.e., patch-embedding, multi-head attention and feed forward layers) that are critical in adapting to the new segmentation tasks, while retaining the majority of the pretrained parameters fixed. Our proposed model continually segments new organs without catastrophic forgetting and meanwhile maintaining a low parameter increasing rate. Continually trained and tested on four datasets covering different body parts of a total of 121 organs, results show that our model achieves high segmentation accuracy, closely reaching the PVT and nnUNet upper bounds, and significantly outperforms other regularization-based CSS methods. When comparing to the leading architecture-based CSS method, our model has a substantial lower parameter increasing rate while achieving comparable performance.  
2024-10-06 DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination null Despite the great success of Large Vision-Language Models (LVLMs), they inevitably suffer from hallucination. As we know, both the visual encoder and the Large Language Model (LLM) decoder in LVLMs are Transformer-based, allowing the model to extract visual information and generate text outputs via attention mechanisms. We find that the attention distribution of LLM decoder on image tokens is highly consistent with the visual encoder and both distributions tend to focus on particular background tokens rather than the referred objects in the image. We attribute to the unexpected attention distribution to an inherent flaw in the visual encoder itself, which misguides LLMs to over emphasize the redundant information and generate object hallucination. To address the issue, we propose DAMRO, a novel training-free strategy that $D$ive into $A$ttention $M$echanism of LVLM to $R$educe $O$ bject Hallucination. Specifically, our approach employs classification token (CLS) of ViT to filter out high-attention outlier tokens scattered in the background and then eliminate their influence during decoding stage. We evaluate our method on LVLMs including LLaVA-1.5, LLaVA-NeXT and InstructBLIP, using various benchmarks such as POPE, CHAIR, MME and GPT-4V Aided Evaluation. The results demonstrate that our approach significantly reduces the impact of these outlier tokens, thus effectively alleviating the hallucination of LVLMs. The code of our method will be released soon.  
2024-10-05 Fundamental Limitations on Subquadratic Alternatives to Transformers null The Transformer architecture is widely deployed in many popular and impactful Large Language Models. At its core is the attention mechanism for calculating correlations between pairs of tokens. Performing an attention computation takes quadratic time in the input size, and had become the time bottleneck for transformer operations. In order to circumvent this, researchers have used a variety of approaches, including designing heuristic algorithms for performing attention computations faster, and proposing alternatives to the attention mechanism which can be computed more quickly. For instance, state space models such as Mamba were designed to replace attention with an almost linear time alternative. In this paper, we prove that any such approach cannot perform important tasks that Transformer is able to perform (assuming a popular conjecture from fine-grained complexity theory). We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm. Thus, any model which can be evaluated in subquadratic time - whether because of subquadratic-time heuristics for attention, faster attention replacements like Mamba, or any other reason - cannot perform this task. In other words, in order to perform tasks that (implicitly or explicitly) involve document similarity, one may as well use Transformer and cannot avoid its quadratic running time.  
2024-10-04 Linear Transformer Topological Masking with Graph Random Features null When training transformers on graph-structured data, incorporating information about the underlying topology is crucial for good performance. Topological masking, a type of relative position encoding, achieves this by upweighting or downweighting attention depending on the relationship between the query and keys in a graph. In this paper, we propose to parameterise topological masks as a learnable function of a weighted adjacency matrix – a novel, flexible approach which incorporates a strong structural inductive bias. By approximating this mask with graph random features (for which we prove the first known concentration bounds), we show how this can be made fully compatible with linear attention, preserving $\mathcal{O}(N)$ time and space complexity with respect to the number of input tokens. The fastest previous alternative was $\mathcal{O}(N \log N)$ and only suitable for specific graphs. Our efficient masking algorithms provide strong performance gains for tasks on image and point cloud data, including with $>30$ k nodes.  
2024-10-04 Error Correction Code Transformer: From Non-Unified to Unified null Channel coding is vital for reliable data transmission in modern wireless systems, and its significance will increase with the emergence of sixth-generation (6G) networks, which will need to support various error correction codes. However, traditional decoders were typically designed as fixed hardware circuits tailored to specific decoding algorithms, leading to inefficiencies and limited flexibility. To address these challenges, this paper proposes a unified, code-agnostic Transformer-based decoding architecture capable of handling multiple linear block codes, including Polar, Low-Density Parity-Check (LDPC), and Bose-Chaudhuri-Hocquenghem (BCH), within a single framework. To achieve this, standardized units are employed to harmonize parameters across different code types, while the redesigned unified attention module compresses the structural information of various codewords. Additionally, a sparse mask, derived from the sparsity of the parity-check matrix, is introduced to enhance the model’s ability to capture inherent constraints between information and parity-check bits, resulting in improved decoding accuracy and robustness. Extensive experimental results demonstrate that the proposed unified Transformer-based decoder not only outperforms existing methods but also provides a flexible, efficient, and high-performance solution for next-generation wireless communication systems.  
2024-10-04 Selective Transformer for Hyperspectral Image Classification null Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.  
2024-10-04 Autoregressive Moving-average Attention Mechanism for Time Series Forecasting link We propose an Autoregressive (AR) Moving-average (MA) attention structure that can adapt to various linear attention mechanisms, enhancing their ability to capture long-range and local temporal patterns in time series. In this paper, we first demonstrate that, for the time series forecasting (TSF) task, the previously overlooked decoder-only autoregressive Transformer model can achieve results comparable to the best baselines when appropriate tokenization and training methods are applied. Moreover, inspired by the ARMA model from statistics and recent advances in linear attention, we introduce the full ARMA structure into existing autoregressive attention mechanisms. By using an indirect MA weight generation method, we incorporate the MA term while maintaining the time complexity and parameter size of the underlying efficient attention models. We further explore how indirect parameter generation can produce implicit MA weights that align with the modeling requirements for local temporal impacts. Experimental results show that incorporating the ARMA structure consistently improves the performance of various AR attentions on TSF tasks, achieving state-of-the-art results.  
2024-10-03 Towards Understanding the Universality of Transformers for Next-Token Prediction null Causal Transformers are trained to predict the next token for a given context. While it is widely accepted that self-attention is crucial for encoding the causal structure of sequences, the precise underlying mechanism behind this in-context autoregressive learning ability remains unclear. In this paper, we take a step towards understanding this phenomenon by studying the approximation ability of Transformers for next-token prediction. Specifically, we explore the capacity of causal Transformers to predict the next token $x_{t+1}$ given an autoregressive sequence $(x_1, \dots, x_t)$ as a prompt, where $ x_{t+1} = f(x_t) $, and $ f $ is a context-dependent function that varies with each sequence. On the theoretical side, we focus on specific instances, namely when $ f $ is linear or when $ (x_t){t \geq 1} $ is periodic. We explicitly construct a Transformer (with linear, exponential, or softmax attention) that learns the mapping $f$ in-context through a causal kernel descent method. The causal kernel descent method we propose provably estimates $x{t+1} $ based solely on past and current observations $ (x_1, \dots, x_t) $, with connections to the Kaczmarz algorithm in Hilbert spaces. We present experimental results that validate our theoretical findings and suggest their applicability to more general mappings $f$ .  
2024-10-03 Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient null We introduce refined variants of the Local Learning Coefficient (LLC), a measure of model complexity grounded in singular learning theory, to study the development of internal structure in transformer language models during training. By applying these \textit{refined LLCs} (rLLCs) to individual components of a two-layer attention-only transformer, we gain novel insights into the progressive differentiation and specialization of attention heads. Our methodology reveals how attention heads differentiate into distinct functional roles over the course of training, analyzes the types of data these heads specialize to process, and discovers a previously unidentified multigram circuit. These findings demonstrate that rLLCs provide a principled, quantitative toolkit for \textit{developmental interpretability}, which aims to understand models through their evolution across the learning process. More broadly, this work takes a step towards establishing the correspondence between data distributional structure, geometric properties of the loss landscape, learning dynamics, and emergent computational structures in neural networks.  
2024-10-03 GABIC: Graph-based Attention Block for Image Compression link While standardized codecs like JPEG and HEVC-intra represent the industry standard in image compression, neural Learned Image Compression (LIC) codecs represent a promising alternative. In detail, integrating attention mechanisms from Vision Transformers into LIC models has shown improved compression efficiency. However, extra efficiency often comes at the cost of aggregating redundant features. This work proposes a Graph-based Attention Block for Image Compression (GABIC), a method to reduce feature redundancy based on a k-Nearest Neighbors enhanced attention mechanism. Our experiments show that GABIC outperforms comparable methods, particularly at high bit rates, enhancing compression performance.  
2024-10-03 Selective Attention Improves Transformer null Unneeded elements in the attention’s context degrade performance. We introduce Selective Attention, a simple parameter-free change to the standard attention mechanism which reduces attention to unneeded elements. Selective attention improves language modeling performance in a variety of model sizes and context lengths. For example, a range of transformers trained with the language modeling objective on C4 with selective attention perform equivalently to standard transformers with ~2X more heads and parameters in their attention modules. Selective attention also allows decreasing the size of the attention’s context buffer, leading to meaningful reductions in the memory and compute requirements during inference. For example, transformers with 100M parameters trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and 47X less memory for their attention module, respectively, when equipped with selective attention, as those without selective attention, with the same validation perplexity.  
2024-10-03 Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems null Machine learning architectures, including transformers and recurrent neural networks (RNNs) have revolutionized forecasting in applications ranging from text processing to extreme weather. Notably, advanced network architectures, tuned for applications such as natural language processing, are transferable to other tasks such as spatiotemporal forecasting tasks. However, there is a scarcity of ablation studies to illustrate the key components that enable this forecasting accuracy. The absence of such studies, although explainable due to the associated computational cost, intensifies the belief that these models ought to be considered as black boxes. In this work, we decompose the key architectural components of the most powerful neural architectures, namely gating and recurrence in RNNs, and attention mechanisms in transformers. Then, we synthesize and build novel hybrid architectures from the standard blocks, performing ablation studies to identify which mechanisms are effective for each task. The importance of considering these components as hyper-parameters that can augment the standard architectures is exhibited on various forecasting datasets, from the spatiotemporal chaotic dynamics of the multiscale Lorenz 96 system, the Kuramoto-Sivashinsky equation, as well as standard real world time-series benchmarks. A key finding is that neural gating and attention improves the performance of all standard RNNs in most tasks, while the addition of a notion of recurrence in transformers is detrimental. Furthermore, our study reveals that a novel, sparsely used, architecture which integrates Recurrent Highway Networks with neural gating and attention mechanisms, emerges as the best performing architecture in high-dimensional spatiotemporal forecasting of dynamical systems.  
2024-10-03 NestedMorph: Enhancing Deformable Medical Image Registration with Nested Attention Mechanisms null Deformable image registration is crucial for aligning medical images in a non-linear fashion across different modalities, allowing for precise spatial correspondence between varying anatomical structures. This paper presents NestedMorph, a novel network utilizing a Nested Attention Fusion approach to improve intra-subject deformable registration between T1-weighted (T1w) MRI and diffusion MRI (dMRI) data. NestedMorph integrates high-resolution spatial details from an encoder with semantic information from a decoder using a multi-scale framework, enhancing both local and global feature extraction. Our model notably outperforms existing methods, including CNN-based approaches like VoxelMorph, MIDIR, and CycleMorph, as well as Transformer-based models such as TransMorph and ViT-V-Net, and traditional techniques like NiftyReg and SyN. Evaluations on the HCP dataset demonstrate that NestedMorph achieves superior performance across key metrics, including SSIM, HD95, and SDlogJ, with the highest SSIM of 0.89, and the lowest HD95 of 2.5 and SDlogJ of 0.22. These results highlight NestedMorph’s ability to capture both local and global image features effectively, leading to superior registration performance. The promising outcomes of this study underscore NestedMorph’s potential to significantly advance deformable medical image registration, providing a robust framework for future research and clinical applications. The source code and our implementation are available at: https://bit.ly/3zdVqcg  
2024-10-03 SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration link The transformer architecture predominates across various models. As the heart of the transformer, attention has a computational complexity of O(N^2), compared to O(N) for linear transformations. When handling large sequence lengths, attention becomes the primary time-consuming component. Although quantization has proven to be an effective method for accelerating model inference, existing quantization methods primarily focus on optimizing the linear layer. In response, we first analyze the feasibility of quantization in attention detailedly. Following that, we propose SageAttention, a highly efficient and accurate quantization method for attention. The OPS (operations per second) of our approach outperforms FlashAttention2 and xformers by about 2.1 times and 2.7 times, respectively. SageAttention also achieves superior accuracy performance over FlashAttention3. Comprehensive experiments confirm that our approach incurs almost no end-to-end metrics loss across diverse models, including those for large language processing, image generation, and video generation.  
2024-10-03 Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization link Large Language Models (LLMs), built on Transformer architectures, exhibit remarkable generalization across a wide range of tasks. However, fine-tuning these models for specific tasks remains resource-intensive due to their extensive parameterization. In this paper, we investigate two remarkable phenomena observed during the fine-tuning of LLMs, particularly focusing on the attention mechanism: (1) Different Impact, optimizing the $\mathbf{W}_v$ matrix significantly improves performance over optimizing the $\mathbf{W}_k$ matrix. Fine-tuning only the $\mathbf{W}_q$ and $\mathbf{W}_v$ matrices is computationally efficient, delivering results that are comparable to, or even better than, fine-tuning all three matrices $\mathbf{W}_q$, $\mathbf{W}_k$, and $\mathbf{W}_v$. (2) Efficient Convergence, employing distinct learning rates for these matrices is crucial for optimal performance, with a higher learning rate for the $\mathbf{W}_v$ matrix expediting convergence. However, theoretical analyses of these phenomena are still relatively limited. We present a theoretical analysis of these phenomena from two perspectives: (i) Generalization, where we demonstrate that fine-tuning only $\mathbf{W}_q$ and $\mathbf{W}_v$ improves generalization bounds, enhances memory efficiency, and (ii) Optimization, where we emphasize that the feature learning of the attention mechanism is efficient, particularly when using distinct learning rates for the matrices, which leads to more effective fine-tuning. Building on these insights, we propose a new strategy that improves fine-tuning efficiency in terms of both storage and time. Experimental results on benchmark datasets validate the effectiveness of this approach, supporting our theoretical findings. Our analysis lays the theoretical groundwork for configuring and improving lightweight algorithms in LLMs fine-tuning.  
2024-10-03 HATFormer: Historic Handwritten Arabic Text Recognition with Transformers null Arabic handwritten text recognition (HTR) is challenging, especially for historical texts, due to diverse writing styles and the intrinsic features of Arabic script. Additionally, Arabic handwriting datasets are smaller compared to English ones, making it difficult to train generalizable Arabic HTR models. To address these challenges, we propose HATFormer, a transformer-based encoder-decoder architecture that builds on a state-of-the-art English HTR model. By leveraging the transformer’s attention mechanism, HATFormer captures spatial contextual information to address the intrinsic challenges of Arabic script through differentiating cursive characters, decomposing visual representations, and identifying diacritics. Our customization to historical handwritten Arabic includes an image processor for effective ViT information preprocessing, a text tokenizer for compact Arabic text representation, and a training pipeline that accounts for a limited amount of historic Arabic handwriting data. HATFormer achieves a character error rate (CER) of 8.6% on the largest public historical handwritten Arabic dataset, with a 51% improvement over the best baseline in the literature. HATFormer also attains a comparable CER of 4.2% on the largest private non-historical dataset. Our work demonstrates the feasibility of adapting an English HTR method to a low-resource language with complex, language-specific challenges, contributing to advancements in document digitization, information retrieval, and cultural preservation.  
2024-10-03 Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis null Chain-of-Thought (CoT) is an efficient prompting method that enables the reasoning ability of large language models by augmenting the query using multiple examples with multiple intermediate steps. Despite the empirical success, the theoretical understanding of how to train a Transformer to achieve the CoT ability remains less explored. This is primarily due to the technical challenges involved in analyzing the nonconvex optimization on nonlinear attention models. To the best of our knowledge, this work provides the first theoretical study of training Transformers with nonlinear attention to obtain the CoT generalization capability so that the resulting model can inference on unseen tasks when the input is augmented by examples of the new task. We first quantify the required training samples and iterations to train a Transformer model towards CoT ability. We then prove the success of its CoT generalization on unseen tasks with distribution-shifted testing data. Moreover, we theoretically characterize the conditions for an accurate reasoning output by CoT even when the provided reasoning examples contain noises and are not always accurate. In contrast, in-context learning (ICL), which can be viewed as one-step CoT without intermediate steps, may fail to provide an accurate output when CoT does. These theoretical findings are justified through experiments.  
2024-10-02 Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning link There has been a growing interest in the ability of neural networks to solve algorithmic tasks, such as arithmetic, summary statistics, and sorting. While state-of-the-art models like Transformers have demonstrated good generalization performance on in-distribution tasks, their out-of-distribution (OOD) performance is poor when trained end-to-end. In this paper, we focus on value generalization, a common instance of OOD generalization where the test distribution has the same input sequence length as the training distribution, but the value ranges in the training and test distributions do not necessarily overlap. To address this issue, we propose that using fixed positional encodings to determine attention weights-referred to as positional attention-enhances empirical OOD performance while maintaining expressivity. We support our claim about expressivity by proving that Transformers with positional attention can effectively simulate parallel algorithms.  
2024-10-02 On The Adaptation of Unlimiformer for Decoder-Only Transformers null One of the prominent issues stifling the current generation of large language models is their limited context length. Recent proprietary models such as GPT-4 and Claude 2 have introduced longer context lengths, 8k/32k and 100k, respectively; however, despite the efforts in the community, most common models, such as LLama-2, have a context length of 4k or less. Unlimiformer (Bertsch et al., 2023) is a recently popular vector-retrieval augmentation method that offloads cross-attention computations to a kNN index. However, its main limitation is incompatibility with decoder-only transformers out of the box. In this work, we explore practical considerations of adapting Unlimiformer to decoder-only transformers and introduce a series of modifications to overcome this limitation. Moreover, we expand the original experimental setup on summarization to include a new task (i.e., free-form Q&A) and an instruction-tuned model (i.e., a custom 6.7B GPT model). Our results showcase the effectiveness of these modifications on summarization, performing on par with a model with 2x the context length. Moreover, we discuss limitations and future directions for free-form Q&A and instruction-tuned models.  
2024-10-02 Attention layers provably solve single-location regression link Attention-based models, such as Transformer, excel across various tasks but lack a comprehensive theoretical understanding, especially regarding token-wise sparsity and internal linear representations. To address this gap, we introduce the single-location regression task, where only one token in a sequence determines the output, and its position is a latent random variable, retrievable via a linear projection of the input. To solve this task, we propose a dedicated predictor, which turns out to be a simplified version of a non-linear self-attention layer. We study its theoretical properties, by showing its asymptotic Bayes optimality and analyzing its training dynamics. In particular, despite the non-convex nature of the problem, the predictor effectively learns the underlying structure. This work highlights the capacity of attention mechanisms to handle sparse token information and internal linear structures.  
2024-09-30 CBAM-SwinT-BL: Small Rail Surface Detect Detection Method Based on Swin Transformer with Block Level CBAM Enhancement null Under high-intensity rail operations, rail tracks endure considerable stresses resulting in various defects such as corrugation and spellings. Failure to effectively detect defects and provide maintenance in time would compromise service reliability and public safety. While advanced models have been developed in recent years, efficiently identifying small-scale rail defects has not yet been studied, especially for categories such as Dirt or Squat on rail surface. To address this challenge, this study utilizes Swin Transformer (SwinT) as baseline and incorporates the Convolutional Block Attention Module (CBAM) for enhancement. Our proposed method integrates CBAM successively within the swin transformer blocks, resulting in significant performance improvement in rail defect detection, particularly for categories with small instance sizes. The proposed framework is named CBAM-Enhanced Swin Transformer in Block Level (CBAM-SwinT-BL). Experiment and ablation study have proven the effectiveness of the framework. The proposed framework has a notable improvement in the accuracy of small size defects, such as dirt and dent categories in RIII dataset, with mAP-50 increasing by +23.0% and +38.3% respectively, and the squat category in MUET dataset also reaches +13.2% higher than the original model. Compares to the original SwinT, CBAM-SwinT-BL increase overall precision around +5% in the MUET dataset and +7% in the RIII dataset, reaching 69.1% and 88.1% respectively. Meanwhile, the additional module CBAM merely extend the model training speed by an average of +0.04s/iteration, which is acceptable compared to the significant improvement in system performance.  
2024-09-30 SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers null Over the past few years, vision transformers (ViTs) have consistently demonstrated remarkable performance across various visual recognition tasks. However, attempts to enhance their robustness have yielded limited success, mainly focusing on different training strategies, input patch augmentation, or network structural enhancements. These approaches often involve extensive training and fine-tuning, which are time-consuming and resource-intensive. To tackle these obstacles, we introduce a novel approach named Spatial Autocorrelation Token Analysis (SATA). By harnessing spatial relationships between token features, SATA enhances both the representational capacity and robustness of ViT models. This is achieved through the analysis and grouping of tokens according to their spatial autocorrelation scores prior to their input into the Feed-Forward Network (FFN) block of the self-attention mechanism. Importantly, SATA seamlessly integrates into existing pre-trained ViT baselines without requiring retraining or additional fine-tuning, while concurrently improving efficiency by reducing the computational load of the FFN units. Experimental results show that the baseline ViTs enhanced with SATA not only achieve a new state-of-the-art top-1 accuracy on ImageNet-1K image classification (94.9%) but also establish new state-of-the-art performance across multiple robustness benchmarks, including ImageNet-A (top-1=63.6%), ImageNet-R (top-1=79.2%), and ImageNet-C (mCE=13.6%), all without requiring additional training or fine-tuning of baseline models.  
2024-09-29 Spiking Transformer with Spatial-Temporal Attention null Spiking Neural Networks (SNNs) present a compelling and energy-efficient alternative to traditional Artificial Neural Networks (ANNs) due to their sparse binary activation. Leveraging the success of the transformer architecture, the spiking transformer architecture is explored to scale up dataset size and performance. However, existing works only consider the spatial self-attention in spiking transformer, neglecting the inherent temporal context across the timesteps. In this work, we introduce Spiking Transformer with Spatial-Temporal Attention (STAtten), a simple and straightforward architecture designed to integrate spatial and temporal information in self-attention with negligible additional computational load. The STAtten divides the temporal or token index and calculates the self-attention in a cross-manner to effectively incorporate spatial-temporal information. We first verify our spatial-temporal attention mechanism’s ability to capture long-term temporal dependencies using sequential datasets. Moreover, we validate our approach through extensive experiments on varied datasets, including CIFAR10/100, ImageNet, CIFAR10-DVS, and N-Caltech101. Notably, our cross-attention mechanism achieves an accuracy of 78.39 % on the ImageNet dataset.  
2024-09-29 OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images link Oriented object detection in remote sensing images is a challenging task due to objects being distributed in multi-orientation. Recently, end-to-end transformer-based methods have achieved success by eliminating the need for post-processing operators compared to traditional CNN-based methods. However, directly extending transformers to oriented object detection presents three main issues: 1) objects rotate arbitrarily, necessitating the encoding of angles along with position and size; 2) the geometric relations of oriented objects are lacking in self-attention, due to the absence of interaction between content and positional queries; and 3) oriented objects cause misalignment, mainly between values and positional queries in cross-attention, making accurate classification and localization difficult. In this paper, we propose an end-to-end transformer-based oriented object detector, consisting of three dedicated modules to address these issues. First, Gaussian positional encoding is proposed to encode the angle, position, and size of oriented boxes using Gaussian distributions. Second, Wasserstein self-attention is proposed to introduce geometric relations and facilitate interaction between content and positional queries by utilizing Gaussian Wasserstein distance scores. Third, oriented cross-attention is proposed to align values and positional queries by rotating sampling points around the positional query according to their angles. Experiments on six datasets DIOR-R, a series of DOTA, HRSC2016 and ICDAR2015 show the effectiveness of our approach. Compared with previous end-to-end detectors, the OrientedFormer gains 1.16 and 1.21 AP $_{50}$ on DIOR-R and DOTA-v1.0 respectively, while reducing training epochs from 3$\times$ to 1$\times$ . The codes are available at https://github.com/wokaikaixinxin/OrientedFormer.  
2024-09-28 Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization null Transformers have demonstrated great power in the recent development of large foundational models. In particular, the Vision Transformer (ViT) has brought revolutionary changes to the field of vision, achieving significant accomplishments on the experimental side. However, their theoretical capabilities, particularly in terms of generalization when trained to overfit training data, are still not fully understood. To address this gap, this work delves deeply into the benign overfitting perspective of transformers in vision. To this end, we study the optimization of a Transformer composed of a self-attention layer with softmax followed by a fully connected layer under gradient descent on a certain data distribution model. By developing techniques that address the challenges posed by softmax and the interdependent nature of multiple weights in transformer optimization, we successfully characterized the training dynamics and achieved generalization in post-training. Our results establish a sharp condition that can distinguish between the small test error phase and the large test error regime, based on the signal-to-noise ratio in the data model. The theoretical results are further verified by experimental simulation.  
2024-09-28 Intelligent Fish Detection System with Similarity-Aware Transformer link Fish detection in water-land transfer has significantly contributed to the fishery. However, manual fish detection in crowd-collaboration performs inefficiently and expensively, involving insufficient accuracy. To further enhance the water-land transfer efficiency, improve detection accuracy, and reduce labor costs, this work designs a new type of lightweight and plug-and-play edge intelligent vision system to automatically conduct fast fish detection with high-speed camera. Moreover, a novel similarity-aware vision Transformer for fast fish detection (FishViT) is proposed to onboard identify every single fish in a dense and similar group. Specifically, a novel similarity-aware multi-level encoder is developed to enhance multi-scale features in parallel, thereby yielding discriminative representations for varying-size fish. Additionally, a new soft-threshold attention mechanism is introduced, which not only effectively eliminates background noise from images but also accurately recognizes both the edge details and overall features of different similar fish. 85 challenging video sequences with high framerate and high-resolution are collected to establish a benchmark from real fish water-land transfer scenarios. Exhaustive evaluation conducted with this challenging benchmark has proved the robustness and effectiveness of FishViT with over 80 FPS. Real work scenario tests validate the practicality of the proposed method. The code and demo video are available at https://github.com/vision4robotics/FishViT.  
2024-09-28 Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models link Transformer neural networks, driven by self-attention mechanisms, are core components of foundational and Large Language Models. In generative transformers, self-attention uses cache memory to store token projections, avoiding recomputation at each time step. However, GPU-stored projections must be loaded into SRAM for each new generation step, causing latency and energy bottlenecks for long sequences. In this work, we propose a fast and energy-efficient hardware implementation of self-attention using analog in-memory computing based on gain cell memories. Volatile gain cell memories can be efficiently written to store new tokens during sequence generation, while performing analog signed weight multiplications to compute the dot-products required for self-attention. We implement Sliding Window Attention, which keeps memory of a finite set of past steps. A charge-to-pulse converter for array readout eliminates the need for analog-to-digital conversion between self-attention stages. Using a co-designed initialization algorithm to adapt pre-trained weights to gain cell non-idealities, we achieve NLP performance comparable to ChatGPT-2 with minimal training iterations, despite hardware constraints. Our end-to-end hardware design includes digital controls, estimating area, latency, and energy. The system reduces attention latency by up to two orders of magnitude and energy consumption by up to five orders compared to GPUs, marking a significant step toward ultra-fast, low-power sequence generation in Large Language Models.  
2024-09-27 Feature Estimation of Global Language Processing in EEG Using Attention Maps null Understanding the correlation between EEG features and cognitive tasks is crucial for elucidating brain function. Brain activity synchronizes during speaking and listening tasks. However, it is challenging to estimate task-dependent brain activity characteristics with methods with low spatial resolution but high temporal resolution, such as EEG, rather than methods with high spatial resolution, like fMRI. This study introduces a novel approach to EEG feature estimation that utilizes the weights of deep learning models to explore this association. We demonstrate that attention maps generated from Vision Transformers and EEGNet effectively identify features that align with findings from prior studies. EEGNet emerged as the most accurate model regarding subject independence and the classification of Listening and Speaking tasks. The application of Mel-Spectrogram with ViTs enhances the resolution of temporal and frequency-related EEG characteristics. Our findings reveal that the characteristics discerned through attention maps vary significantly based on the input data, allowing for tailored feature extraction from EEG signals. By estimating features, our study reinforces known attributes and predicts new ones, potentially offering fresh perspectives in utilizing EEG for medical purposes, such as early disease detection. These techniques will make substantial contributions to cognitive neuroscience.  
2024-09-27 Cottention: Linear Transformers With Cosine Attention link Attention mechanisms, particularly softmax attention, have been instrumental in the success of transformer-based models such as GPT. However, the quadratic memory complexity of softmax attention with respect to sequence length poses significant challenges for processing longer sequences. We introduce Cottention, a novel attention mechanism that replaces the softmax operation with cosine similarity. By leveraging the properties of cosine similarity and rearranging the attention equation, Cottention achieves native linear memory complexity with respect to sequence length, making it inherently more memory-efficient than softmax attention. We demonstrate that Cottention can be reformulated as a recurrent neural network (RNN) with a finite hidden state, allowing for constant memory usage during inference. We evaluate Cottention on both the bidirectional BERT and causal GPT tasks, demonstrating comparable performance to softmax attention while significantly reducing memory requirements. To ensure efficient computation, we develop a custom CUDA kernel for Cottention. Our results show that Cottention is a promising alternative to softmax attention, enabling the processing of longer sequences without sacrificing performance, due to its native linear memory complexity and ability to maintain a constant memory footprint during inference.  
2024-09-27 Token Caching for Diffusion Transformer Acceleration null Diffusion transformers have gained substantial interest in diffusion generative modeling due to their outstanding performance. However, their high computational cost, arising from the quadratic computational complexity of attention mechanisms and multi-step inference, presents a significant bottleneck. To address this challenge, we propose TokenCache, a novel post-training acceleration method that leverages the token-based multi-block architecture of transformers to reduce redundant computations among tokens across inference steps. TokenCache specifically addresses three critical questions in the context of diffusion transformers: (1) which tokens should be pruned to eliminate redundancy, (2) which blocks should be targeted for efficient pruning, and (3) at which time steps caching should be applied to balance speed and quality. In response to these challenges, TokenCache introduces a Cache Predictor that assigns importance scores to tokens, enabling selective pruning without compromising model performance. Furthermore, we propose an adaptive block selection strategy to focus on blocks with minimal impact on the network’s output, along with a Two-Phase Round-Robin (TPRR) scheduling policy to optimize caching intervals throughout the denoising process. Experimental results across various models demonstrate that TokenCache achieves an effective trade-off between generation quality and inference speed for diffusion transformers. Our code will be publicly available.  
2024-09-26 Decomposable Transformer Point Processes null The standard paradigm of modeling marked point processes is by parameterizing the intensity function using an attention-based (Transformer-style) architecture. Despite the flexibility of these methods, their inference is based on the computationally intensive thinning algorithm. In this work, we propose a framework where the advantages of the attention-based architecture are maintained and the limitation of the thinning algorithm is circumvented. The framework depends on modeling the conditional distribution of inter-event times with a mixture of log-normals satisfying a Markov property and the conditional probability mass function for the marks with a Transformer-based architecture. The proposed method attains state-of-the-art performance in predicting the next event of a sequence given its history. The experiments also reveal the efficacy of the methods that do not rely on the thinning algorithm during inference over the ones they do. Finally, we test our method on the challenging long-horizon prediction task and find that it outperforms a baseline developed specifically for tackling this task; importantly, inference requires just a fraction of time compared to the thinning-based baseline.  
2024-09-26 Supra-Laplacian Encoding for Transformer on Dynamic Graphs link Fully connected Graph Transformers (GT) have rapidly become prominent in the static graph community as an alternative to Message-Passing models, which suffer from a lack of expressivity, oversquashing, and under-reaching. However, in a dynamic context, by interconnecting all nodes at multiple snapshots with self-attention, GT loose both structural and temporal information. In this work, we introduce Supra-LAplacian encoding for spatio-temporal TransformErs (SLATE), a new spatio-temporal encoding to leverage the GT architecture while keeping spatio-temporal information. Specifically, we transform Discrete Time Dynamic Graphs into multi-layer graphs and take advantage of the spectral properties of their associated supra-Laplacian matrix. Our second contribution explicitly model nodes’ pairwise relationships with a cross-attention mechanism, providing an accurate edge representation for dynamic link prediction. SLATE outperforms numerous state-of-the-art methods based on Message-Passing Graph Neural Networks combined with recurrent models (e.g LSTM), and Dynamic Graph Transformers, on 9 datasets. Code and instructions to reproduce our results will be open-sourced.  
2024-09-26 Self-supervised Monocular Depth Estimation with Large Kernel Attention null Self-supervised monocular depth estimation has emerged as a promising approach since it does not rely on labeled training data. Most methods combine convolution and Transformer to model long-distance dependencies to estimate depth accurately. However, Transformer treats 2D image features as 1D sequences, and positional encoding somewhat mitigates the loss of spatial information between different feature blocks, tending to overlook channel features, which limit the performance of depth estimation. In this paper, we propose a self-supervised monocular depth estimation network to get finer details. Specifically, we propose a decoder based on large kernel attention, which can model long-distance dependencies without compromising the two-dimension structure of features while maintaining feature channel adaptivity. In addition, we introduce a up-sampling module to accurately recover the fine details in the depth map. Our method achieves competitive results on the KITTI dataset.  
2024-09-26 CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention null Motion prediction is an important aspect for Autonomous Driving (AD) and Advance Driver Assistance Systems (ADAS). Current state-of-the-art motion prediction methods rely on High Definition (HD) maps for capturing the surrounding context of the ego vehicle. Such systems lack scalability in real-world deployment as HD maps are expensive to produce and update in real-time. To overcome this issue, we propose Context Aware Scene Prediction Transformer (CASPFormer), which can perform multi-modal motion prediction from rasterized Bird-Eye-View (BEV) images. Our system can be integrated with any upstream perception module that is capable of generating BEV images. Moreover, CASPFormer directly decodes vectorized trajectories without any postprocessing. Trajectories are decoded recurrently using deformable attention, as it is computationally efficient and provides the network with the ability to focus its attention on the important spatial locations of the BEV images. In addition, we also address the issue of mode collapse for generating multiple scene-consistent trajectories by incorporating learnable mode queries. We evaluate our model on the nuScenes dataset and show that it reaches state-of-the-art across multiple metrics  
2024-09-26 Paraformer-v2: An improved non-autoregressive transformer for noise-robust speech recognition null Attention-based encoder-decoder, e.g. transformer and its variants, generates the output sequence in an autoregressive (AR) manner. Despite its superior performance, AR model is computationally inefficient as its generation requires as many iterations as the output length. In this paper, we propose Paraformer-v2, an improved version of Paraformer, for fast, accurate, and noise-robust non-autoregressive speech recognition. In Paraformer-v2, we use a CTC module to extract the token embeddings, as the alternative to the continuous integrate-and-fire module in Paraformer. Extensive experiments demonstrate that Paraformer-v2 outperforms Paraformer on multiple datasets, especially on the English datasets (over 14% improvement on WER), and is more robust in noisy environments.  
2024-09-26 Optimal Memorization Capacity of Transformers null Recent research in the field of machine learning has increasingly focused on the memorization capacity of Transformers, but how efficient they are is not yet well understood. We demonstrate that Transformers can memorize labels with $\tilde{O}(\sqrt{N})$ parameters in a next-token prediction setting for $N$ input sequences of length $n$, which is proved to be optimal up to logarithmic factors. This indicates that Transformers can efficiently perform memorization with little influence from the input length $n$ owing to the benefit of parameter sharing. We also analyze the memorization capacity in the sequence-to-sequence setting, and find that $\tilde{O}(\sqrt{nN})$ parameters are not only sufficient, but also necessary at least for Transformers with hardmax. These results suggest that while self-attention mechanisms can efficiently identify input sequences, the feed-forward network becomes a bottleneck when associating a label to each token.  
2024-09-26 Benign or Not-Benign Overfitting in Token Selection of Attention Mechanism null Modern over-parameterized neural networks can be trained to fit the training data perfectly while still maintaining a high generalization performance. This “benign overfitting” phenomenon has been studied in a surge of recent theoretical work; however, most of these studies have been limited to linear models or two-layer neural networks. In this work, we analyze benign overfitting in the token selection mechanism of the attention architecture, which characterizes the success of transformer models. We first show the existence of a benign overfitting solution and explain its mechanism in the attention architecture. Next, we discuss whether the model converges to such a solution, raising the difficulties specific to the attention architecture. We then present benign overfitting cases and not-benign overfitting cases by conditioning different scenarios based on the behavior of attention probabilities during training. To the best of our knowledge, this is the first study to characterize benign overfitting for the attention mechanism.  
2024-09-26 Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking null Event-based bionic camera asynchronously captures dynamic scenes with high temporal resolution and high dynamic range, offering potential for the integration of events and RGB under conditions of illumination degradation and fast motion. Existing RGB-E tracking methods model event characteristics utilising attention mechanism of Transformer before integrating both modalities. Nevertheless, these methods involve aggregating the event stream into a single event frame, lacking the utilisation of the temporal information inherent in the event stream.Moreover, the traditional attention mechanism is well-suited for dense semantic features, while the attention mechanism for sparse event features require revolution. In this paper, we propose a dynamic event subframe splitting strategy to split the event stream into more fine-grained event clusters, aiming to capture spatio-temporal features that contain motion cues. Based on this, we design an event-based sparse attention mechanism to enhance the interaction of event features in temporal and spatial dimensions. The experimental results indicate that our method outperforms existing state-of-the-art methods on the FE240 and COESOT datasets, providing an effective processing manner for the event data.  
2024-09-26 MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven Tiered Structure null In this paper, we develop a novel mobility-aware transformer-driven tiered structure (MASSFormer) based cooperative spectrum sensing method that effectively models the spatio-temporal dynamics of user movements. Unlike existing methods, our method considers a dynamic scenario involving mobile primary users (PUs) and secondary users (SUs)and addresses the complexities introduced by user mobility. The transformer architecture utilizes an attention mechanism, enabling the proposed method to adeptly model the temporal dynamics of user mobility by effectively capturing long-range dependencies within the input data. The proposed method first computes tokens from the sequence of covariance matrices (CMs) for each SU and processes them in parallel using the SUtransformer network to learn the spatio-temporal features at SUlevel. Subsequently, the collaborative transformer network learns the group-level PU state from all SU-level feature representations. The attention-based sequence pooling method followed by the transformer encoder adjusts the contributions of all tokens. The main goal of predicting the PU states at each SU-level and group-level is to improve detection performance even more. We conducted a sufficient amount of simulations and compared the detection performance of different SS methods. The proposed method is tested under imperfect reporting channel scenarios to show robustness. The efficacy of our method is validated with the simulation results demonstrating its higher performance compared with existing methods in terms of detection probability, sensing error, and classification accuracy.  
2024-09-26 NeuroPath: A Neural Pathway Transformer for Joining the Dots of Human Connectomes link Although modern imaging technologies allow us to study connectivity between two distinct brain regions in-vivo, an in-depth understanding of how anatomical structure supports brain function and how spontaneous functional fluctuations emerge remarkable cognition is still elusive. Meanwhile, tremendous efforts have been made in the realm of machine learning to establish the nonlinear mapping between neuroimaging data and phenotypic traits. However, the absence of neuroscience insight in the current approaches poses significant challenges in understanding cognitive behavior from transient neural activities. To address this challenge, we put the spotlight on the coupling mechanism of structural connectivity (SC) and functional connectivity (FC) by formulating such network neuroscience question into an expressive graph representation learning problem for high-order topology. Specifically, we introduce the concept of topological detour to characterize how a ubiquitous instance of FC (direct link) is supported by neural pathways (detour) physically wired by SC, which forms a cyclic loop interacted by brain structure and function. In the clich'e of machine learning, the multi-hop detour pathway underlying SC-FC coupling allows us to devise a novel multi-head self-attention mechanism within Transformer to capture multi-modal feature representation from paired graphs of SC and FC. Taken together, we propose a biological-inspired deep model, coined as NeuroPath, to find putative connectomic feature representations from the unprecedented amount of neuroimages, which can be plugged into various downstream applications such as task recognition and disease diagnosis. We have evaluated NeuroPath on large-scale public datasets including HCP and UK Biobank under supervised and zero-shot learning, where the state-of-the-art performance by our NeuroPath indicates great potential in network neuroscience.  
2024-09-25 Non-asymptotic Convergence of Training Transformers for Next-token Prediction null Transformers have achieved extraordinary success in modern machine learning due to their excellent ability to handle sequential data, especially in next-token prediction (NTP) tasks. However, the theoretical understanding of their performance in NTP is limited, with existing studies focusing mainly on asymptotic performance. This paper provides a fine-grained non-asymptotic analysis of the training dynamics of a one-layer transformer consisting of a self-attention module followed by a feed-forward layer. We first characterize the essential structural properties of training datasets for NTP using a mathematical framework based on partial orders. Then, we design a two-stage training algorithm, where the pre-processing stage for training the feed-forward layer and the main stage for training the attention layer exhibit fast convergence performance. Specifically, both layers converge sub-linearly to the direction of their corresponding max-margin solutions. We also show that the cross-entropy loss enjoys a linear convergence rate. Furthermore, we show that the trained transformer presents non-trivial prediction ability with dataset shift, which sheds light on the remarkable generalization performance of transformers. Our analysis technique involves the development of novel properties on the attention gradient and further in-depth analysis of how these properties contribute to the convergence of the training process. Our experiments further validate our theoretical findings.  
2024-09-24 MonoFormer: One Transformer for Both Diffusion and Autoregression link Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.  
2024-09-24 TE-PINN: Quaternion-Based Orientation Estimation using Transformer-Enhanced Physics-Informed Neural Networks null This paper introduces a Transformer-Enhanced Physics-Informed Neural Network (TE-PINN) designed for accurate quaternion-based orientation estimation in high-dynamic environments, particularly within the field of robotics. By integrating transformer networks with physics-informed learning, our approach innovatively captures temporal dependencies in sensor data while enforcing the fundamental physical laws governing rotational motion. TE-PINN leverages a multi-head attention mechanism to handle sequential data from inertial sensors, such as accelerometers and gyroscopes, ensuring temporal consistency. Simultaneously, the model embeds quaternion kinematics and rigid body dynamics into the learning process, aligning the network’s predictions with mechanical principles like Euler’s laws of motion. The physics-informed loss function incorporates the dynamics of angular velocity and external forces, enhancing the network’s ability to generalize in complex scenarios. Our experimental evaluation demonstrates that TE-PINN consistently outperforms traditional methods such as Extended Kalman Filters (EKF) and LSTM-based estimators, particularly in scenarios characterized by high angular velocities and noisy sensor data. The results show a significant reduction in mean quaternion error and improved gyroscope bias estimation compared to the state-of-the-art. An ablation study further isolates the contributions of both the transformer architecture and the physics-informed constraints, highlighting the synergistic effect of both components in improving model performance. The proposed model achieves real-time performance on embedded systems typical of mobile robots, offering a scalable and efficient solution for orientation estimation in autonomous systems.  
2024-09-24 Self-attention as an attractor network: transient memories without backpropagation link Transformers are one of the most successful architectures of modern neural networks. At their core there is the so-called attention mechanism, which recently interested the physics community as it can be written as the derivative of an energy function in certain cases: while it is possible to write the cross-attention layer as a modern Hopfield network, the same is not possible for the self-attention, which is used in the GPT architectures and other autoregressive models. In this work we show that it is possible to obtain the self-attention layer as the derivative of local energy terms, which resemble a pseudo-likelihood. We leverage the analogy with pseudo-likelihood to design a recurrent model that can be trained without backpropagation: the dynamics shows transient states that are strongly correlated with both train and test examples. Overall we present a novel framework to interpret self-attention as an attractor network, potentially paving the way for new theoretical approaches inspired from physics to understand transformers.  
2024-09-24 Whisper in Medusa’s Ear: Multi-head Efficient Decoding for Transformer-based ASR link Large transformer-based models have significant potential for speech transcription and translation. Their self-attention mechanisms and parallel processing enable them to capture complex patterns and dependencies in audio sequences. However, this potential comes with challenges, as these large and computationally intensive models lead to slow inference speeds. Various optimization strategies have been proposed to improve performance, including efficient hardware utilization and algorithmic enhancements. In this paper, we introduce Whisper-Medusa, a novel approach designed to enhance processing speed with minimal impact on Word Error Rate (WER). The proposed model extends the OpenAI’s Whisper architecture by predicting multiple tokens per iteration, resulting in a 50% reduction in latency. We showcase the effectiveness of Whisper-Medusa across different learning setups and datasets.  
2024-09-23 SOFI: Multi-Scale Deformable Transformer for Camera Calibration with Enhanced Line Queries link Camera calibration consists of estimating camera parameters such as the zenith vanishing point and horizon line. Estimating the camera parameters allows other tasks like 3D rendering, artificial reality effects, and object insertion in an image. Transformer-based models have provided promising results; however, they lack cross-scale interaction. In this work, we introduce \textit{multi-Scale defOrmable transFormer for camera calibratIon with enhanced line queries}, SOFI. SOFI improves the line queries used in CTRL-C and MSCC by using both line content and line geometric features. Moreover, SOFI’s line queries allow transformer models to adopt the multi-scale deformable attention mechanism to promote cross-scale interaction between the feature maps produced by the backbone. SOFI outperforms existing methods on the \textit {Google Street View}, \textit {Horizon Line in the Wild}, and \textit {Holicity} datasets while keeping a competitive inference speed.  
2024-09-23 Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer null Vision-based perception and reasoning is essential for scene understanding in any autonomous system. RGB and depth images are commonly used to capture both the semantic and geometric features of the environment. Developing methods to reliably interpret this data is critical for real-world applications, where noisy measurements are often unavoidable. In this work, we introduce a diffusion-based framework to address the RGB-D semantic segmentation problem. Additionally, we demonstrate that utilizing a Deformable Attention Transformer as the encoder to extract features from depth images effectively captures the characteristics of invalid regions in depth measurements. Our generative framework shows a greater capacity to model the underlying distribution of RGB-D images, achieving robust performance in challenging scenarios with significantly less training time compared to discriminative methods. Experimental results indicate that our approach achieves State-of-the-Art performance on both the NYUv2 and SUN-RGBD datasets in general and especially in the most challenging of their image data. Our project page will be available at https://diffusionmms.github.io/  
2024-09-24 Efficiently Dispatching Flash Attention For Partially Filled Attention Masks null Transformers are widely used across various applications, many of which yield sparse or partially filled attention matrices. Examples include attention masks designed to reduce the quadratic complexity of attention, sequence packing techniques, and recent innovations like tree masking for fast validation in MEDUSA. Despite the inherent sparsity in these matrices, the state-of-the-art algorithm Flash Attention still processes them with quadratic complexity as though they were dense. In this paper, we introduce Binary Block Masking, a highly efficient modification that enhances Flash Attention by making it mask-aware. We further propose two optimizations: one tailored for masks with contiguous non-zero patterns and another for extremely sparse masks. Our experiments on attention masks derived from real-world scenarios demonstrate up to a 9x runtime improvement. The implementation will be publicly released to foster further research and application.  
2024-09-23 Kriformer: A Novel Spatiotemporal Kriging Approach Based on Graph Transformers null Accurately estimating data in sensor-less areas is crucial for understanding system dynamics, such as traffic state estimation and environmental monitoring. This study addresses challenges posed by sparse sensor deployment and unreliable data by framing the problem as a spatiotemporal kriging task and proposing a novel graph transformer model, Kriformer. This model estimates data at locations without sensors by mining spatial and temporal correlations, even with limited resources. Kriformer utilizes transformer architecture to enhance the model’s perceptual range and solve edge information aggregation challenges, capturing spatiotemporal information effectively. A carefully constructed positional encoding module embeds the spatiotemporal features of nodes, while a sophisticated spatiotemporal attention mechanism enhances estimation accuracy. The multi-head spatial interaction attention module captures subtle spatial relationships between observed and unobserved locations. During training, a random masking strategy prompts the model to learn with partial information loss, allowing the spatiotemporal embedding and multi-head attention mechanisms to synergistically capture correlations among locations. Experimental results show that Kriformer excels in representation learning for unobserved locations, validated on two real-world traffic speed datasets, demonstrating its effectiveness in spatiotemporal kriging tasks.  
2024-09-23 A-VL: Adaptive Attention for Large Vision-Language Models null The Large Vision-Language Model (LVLM) integrates computer vision and natural language processing techniques, offering substantial application potential. However, these models demand extensive resources during inference. Adaptive attention techniques can dynamically reduce computational redundancy and thus improve efficiency. Although current adaptive attention methods significantly reduce the memory requirements of Transformer-based language models, they are not tailored for LVLMs. We observe that LVLMs generate responses from both remote image tokens and local text tokens, and different modalities have different attention patterns. This observation inspires us to manage the attention for each modality separately. Specifically, for visual input, we store the cache of potentially useful information but only compute the most critical parts. For language input, we care more about local information. Based on our observation and analysis of vision-language attention patterns, we develop A-VL, a plug-and-play adaptive attention tailored for LVLM inference. Extensive evaluations on three vision-language tasks and five datasets show the effectiveness of our designs. Our approach A-VL outperforms existing adaptive attention methods in reducing memory usage and computational load without compromising performance.  
2024-09-23 RoWSFormer: A Robust Watermarking Framework with Swin Transformer for Enhanced Geometric Attack Resilience null In recent years, digital watermarking techniques based on deep learning have been widely studied. To achieve both imperceptibility and robustness of image watermarks, most current methods employ convolutional neural networks to build robust watermarking frameworks. However, despite the success of CNN-based watermarking models, they struggle to achieve robustness against geometric attacks due to the limitations of convolutional neural networks in capturing global and long-range relationships. To address this limitation, we propose a robust watermarking framework based on the Swin Transformer, named RoWSFormer. Specifically, we design the Locally-Channel Enhanced Swin Transformer Block as the core of both the encoder and decoder. This block utilizes the self-attention mechanism to capture global and long-range information, thereby significantly improving adaptation to geometric distortions. Additionally, we construct the Frequency-Enhanced Transformer Block to extract frequency domain information, which further strengthens the robustness of the watermarking framework. Experimental results demonstrate that our RoWSFormer surpasses existing state-of-the-art watermarking methods. For most non-geometric attacks, RoWSFormer improves the PSNR by 3 dB while maintaining the same extraction accuracy. In the case of geometric attacks (such as rotation, scaling, and affine transformations), RoWSFormer achieves over a 6 dB improvement in PSNR, with extraction accuracy exceeding 97\%.  
2024-09-18 On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery null Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.  
2024-09-17 A short trajectory is all you need: A transformer-based model for long-time dissipative quantum dynamics link In this communication we demonstrate that a deep artificial neural network based on a transformer architecture with self-attention layers can predict the long-time population dynamics of a quantum system coupled to a dissipative environment provided that the short-time population dynamics of the system is known. The transformer neural network model developed in this work predicts the long-time dynamics of spin-boson model efficiently and very accurately across different regimes, from weak system-bath coupling to strong coupling non-Markovian regimes. Our model is more accurate than classical forecasting models, such as recurrent neural networks and is comparable to the state-of-the-art models for simulating the dynamics of quantum dissipative systems, based on kernel ridge regression.  
2024-09-17 Linear Recency Bias During Training Improves Transformers’ Fit to Reading Times null Recent psycholinguistic research has compared human reading times to surprisal estimates from language models to study the factors shaping human sentence processing difficulty. Previous studies have shown a strong fit between surprisal values from Transformers and reading times. However, standard Transformers work with a lossless representation of the entire previous linguistic context, unlike models of human language processing that include memory decay. To bridge this gap, this paper evaluates a modification of the Transformer model that uses ALiBi (Press et al., 2022), a recency bias added to attention scores. Surprisal estimates with ALiBi show an improved fit to human reading times compared to a standard Transformer baseline. A subsequent analysis of attention heads suggests that ALiBi’s mixture of slopes – which determine the rate of memory decay in each attention head – may play a role in the improvement by helping models with ALiBi to track different kinds of linguistic dependencies.  
2024-09-17 Contrasformer: A Brain Network Contrastive Transformer for Neurodegenerative Condition Identification link Understanding neurological disorder is a fundamental problem in neuroscience, which often requires the analysis of brain networks derived from functional magnetic resonance imaging (fMRI) data. Despite the prevalence of Graph Neural Networks (GNNs) and Graph Transformers in various domains, applying them to brain networks faces challenges. Specifically, the datasets are severely impacted by the noises caused by distribution shifts across sub-populations and the neglect of node identities, both obstruct the identification of disease-specific patterns. To tackle these challenges, we propose Contrasformer, a novel contrastive brain network Transformer. It generates a prior-knowledge-enhanced contrast graph to address the distribution shifts across sub-populations by a two-stream attention mechanism. A cross attention with identity embedding highlights the identity of nodes, and three auxiliary losses ensure group consistency. Evaluated on 4 functional brain network datasets over 4 different diseases, Contrasformer outperforms the state-of-the-art methods for brain networks by achieving up to 10.8\% improvement in accuracy, which demonstrates its efficacy in neurological disorder identification. Case studies illustrate its interpretability, especially in the context of neuroscience. This paper provides a solution for analyzing brain networks, offering valuable insights into neurological disorders. Our code is available at \url{https://github.com/AngusMonroe/Contrasformer}.  
2024-09-17 Adaptive Large Language Models By Layerwise Attention Shortcuts null Transformer architectures are the backbone of the modern AI revolution. However, they are based on simply stacking the same blocks in dozens of layers and processing information sequentially from one block to another. In this paper, we propose to challenge this and introduce adaptive computations for LLM-like setups, which allow the final layer to attend to all of the intermediate layers as it deems fit through the attention mechanism, thereby introducing computational \textbf{attention shortcuts}. These shortcuts can thus make the architecture depth and context adaptive. We showcase four different datasets, namely acoustic tokens, natural language, and symbolic music, and we achieve superior performance for GPT-like architecture. We give evidence via attention maps that the models learn complex dependencies across layers that are adaptive in context and depth depending on the input tokens.  
2024-09-16 Recurrent Graph Transformer Network for Multiple Fault Localization in Naval Shipboard Systems null The integration of power electronics building blocks in modern MVDC 12kV Naval ship systems enhances energy management and functionality but also introduces complex fault detection and control challenges. These challenges strain traditional fault diagnostic methods, making it difficult to detect and manage faults across multiple locations while maintaining system stability and performance. This paper proposes a temporal recurrent graph transformer network for fault diagnosis in naval MVDC 12kV shipboard systems. The deep graph neural network uses gated recurrent units to capture temporal features and a multi-head attention mechanism to extract spatial features, enhancing diagnostic accuracy. The approach effectively identifies and evaluates successive multiple faults with high precision. The method is implemented and validated on the MVDC 12kV shipboard system designed by the ESDRC team, incorporating all key components. Results show significant improvements in fault localization accuracy, with a 1-4% increase in performance metrics compared to other machine learning methods.  
2024-09-16 Self-Attention Limits Working Memory Capacity of Transformer-Based Models null Recent work on Transformer-based large language models (LLMs) has revealed striking limits in their working memory capacity, similar to what has been found in human behavioral studies. Specifically, these models’ performance drops significantly on N-back tasks as N increases. However, there is still a lack of mechanistic interpretability as to why this phenomenon would arise. Inspired by the executive attention theory from behavioral sciences, we hypothesize that the self-attention mechanism within Transformer-based models might be responsible for their working memory capacity limits. To test this hypothesis, we train vanilla decoder-only transformers to perform N-back tasks and find that attention scores gradually aggregate to the N-back positions over training, suggesting that the model masters the task by learning a strategy to pay attention to the relationship between the current position and the N-back position. Critically, we find that the total entropy of the attention score matrix increases as N increases, suggesting that the dispersion of attention scores might be the cause of the capacity limit observed in N-back tasks.  
2024-09-16 Logic Synthesis Optimization with Predictive Self-Supervision via Causal Transformers null Contemporary hardware design benefits from the abstraction provided by high-level logic gates, streamlining the implementation of logic circuits. Logic Synthesis Optimization (LSO) operates at one level of abstraction within the Electronic Design Automation (EDA) workflow, targeting improvements in logic circuits with respect to performance metrics such as size and speed in the final layout. Recent trends in the field show a growing interest in leveraging Machine Learning (ML) for EDA, notably through ML-guided logic synthesis utilizing policy-based Reinforcement Learning (RL) methods.Despite these advancements, existing models face challenges such as overfitting and limited generalization, attributed to constrained public circuits and the expressiveness limitations of graph encoders. To address these hurdles, and tackle data scarcity issues, we introduce LSOformer, a novel approach harnessing Autoregressive transformer models and predictive SSL to predict the trajectory of Quality of Results (QoR). LSOformer integrates cross-attention modules to merge insights from circuit graphs and optimization sequences, thereby enhancing prediction accuracy for QoR metrics. Experimental studies validate the effectiveness of LSOformer, showcasing its superior performance over baseline architectures in QoR prediction tasks, where it achieves improvements of 5.74%, 4.35%, and 17.06% on the EPFL, OABCD, and proprietary circuits datasets, respectively, in inductive setup.  
2024-09-16 Garment Attribute Manipulation with Multi-level Attention null In the rapidly evolving field of online fashion shopping, the need for more personalized and interactive image retrieval systems has become paramount. Existing methods often struggle with precisely manipulating specific garment attributes without inadvertently affecting others. To address this challenge, we propose GAMMA (Garment Attribute Manipulation with Multi-level Attention), a novel framework that integrates attribute-disentangled representations with a multi-stage attention-based architecture. GAMMA enables targeted manipulation of fashion image attributes, allowing users to refine their searches with high accuracy. By leveraging a dual-encoder Transformer and memory block, our model achieves state-of-the-art performance on popular datasets like Shopping100k and DeepFashion.  
2024-09-14 Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens null Supervised learning approaches to offline reinforcement learning, particularly those utilizing the Decision Transformer, have shown effectiveness in continuous environments and for sparse rewards. However, they often struggle with long-horizon tasks due to the high compounding error of auto-regressive models. To overcome this limitation, we go beyond next-token prediction and introduce Planning Tokens, which contain high-level, long time-scale information about the agent’s future. Predicting dual time-scale tokens at regular intervals enables our model to use these long-horizon Planning Tokens as a form of implicit planning to guide its low-level policy and reduce compounding error. This architectural modification significantly enhances performance on long-horizon tasks, establishing a new state-of-the-art in complex D4RL environments. Additionally, we demonstrate that Planning Tokens improve the interpretability of the model’s policy through the interpretable plan visualisations and attention map.  
2024-09-14 TransformerMPC: Accelerating Model Predictive Control via Transformers null In this paper, we address the problem of reducing the computational burden of Model Predictive Control (MPC) for real-time robotic applications. We propose TransformerMPC, a method that enhances the computational efficiency of MPC algorithms by leveraging the attention mechanism in transformers for both online constraint removal and better warm start initialization. Specifically, TransformerMPC accelerates the computation of optimal control inputs by selecting only the active constraints to be included in the MPC problem, while simultaneously providing a warm start to the optimization process. This approach ensures that the original constraints are satisfied at optimality. TransformerMPC is designed to be seamlessly integrated with any MPC solver, irrespective of its implementation. To guarantee constraint satisfaction after removing inactive constraints, we perform an offline verification to ensure that the optimal control inputs generated by the MPC solver meet all constraints. The effectiveness of TransformerMPC is demonstrated through extensive numerical simulations on complex robotic systems, achieving up to 35x improvement in runtime without any loss in performance.  
2024-09-13 SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity link Learning representations on large graphs is a long-standing challenge due to the inter-dependence nature. Transformers recently have shown promising performance on small graphs thanks to its global attention for capturing all-pair interactions beyond observed structures. Existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated architectures by stacking deep attention-based propagation layers. In this paper, we attempt to evaluate the necessity of adopting multi-layer attentions in Transformers on graphs, which considerably restricts the efficiency. Specifically, we analyze a generic hybrid propagation layer, comprised of all-pair attention and graph-based propagation, and show that multi-layer propagation can be reduced to one-layer propagation, with the same capability for representation learning. It suggests a new technical path for building powerful and efficient Transformers on graphs, particularly through simplifying model architectures without sacrificing expressiveness. As exemplified by this work, we propose a Simplified Single-layer Graph Transformers (SGFormer), whose main component is a single-layer global attention that scales linearly w.r.t. graph sizes and requires none of any approximation for accommodating all-pair interactions. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M, yielding orders-of-magnitude inference acceleration over peer Transformers on medium-sized graphs, and demonstrates competitiveness with limited labeled data.  
2024-09-13 Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry link In recent years, transformer-based architectures become the de facto standard for sequence modeling in deep learning frameworks. Inspired by the successful examples, we propose a causal visual-inertial fusion transformer (VIFT) for pose estimation in deep visual-inertial odometry. This study aims to improve pose estimation accuracy by leveraging the attention mechanisms in transformers, which better utilize historical data compared to the recurrent neural network (RNN) based methods seen in recent methods. Transformers typically require large-scale data for training. To address this issue, we utilize inductive biases for deep VIO networks. Since latent visual-inertial feature vectors encompass essential information for pose estimation, we employ transformers to refine pose estimates by updating latent vectors temporally. Our study also examines the impact of data imbalance and rotation learning methods in supervised end-to-end learning of visual inertial odometry by utilizing specialized gradients in backpropagation for the elements of SE $(3)$ group. The proposed method is end-to-end trainable and requires only a monocular camera and IMU during inference. Experimental results demonstrate that VIFT increases the accuracy of monocular VIO networks, achieving state-of-the-art results when compared to previous methods on the KITTI dataset. The code will be made available at https://github.com/ybkurt/VIFT.  
2024-09-13 SkinFormer: Learning Statistical Texture Representation with Transformer for Skin Lesion Segmentation link Accurate skin lesion segmentation from dermoscopic images is of great importance for skin cancer diagnosis. However, automatic segmentation of melanoma remains a challenging task because it is difficult to incorporate useful texture representations into the learning process. Texture representations are not only related to the local structural information learned by CNN, but also include the global statistical texture information of the input image. In this paper, we propose a trans\textbf{Former} network (\textbf{SkinFormer}) that efficiently extracts and fuses statistical texture representation for \textbf{Skin} lesion segmentation. Specifically, to quantify the statistical texture of input features, a Kurtosis-guided Statistical Counting Operator is designed. We propose Statistical Texture Fusion Transformer and Statistical Texture Enhance Transformer with the help of Kurtosis-guided Statistical Counting Operator by utilizing the transformer’s global attention mechanism. The former fuses structural texture information and statistical texture information, and the latter enhances the statistical texture of multi-scale features. {Extensive experiments on three publicly available skin lesion datasets validate that our SkinFormer outperforms other SOAT methods, and our method achieves 93.2\% Dice score on ISIC 2018. It can be easy to extend SkinFormer to segment 3D images in the future.} Our code is available at https://github.com/Rongtao-Xu/SkinFormer.  
2024-09-13 VistaFormer: Scalable Vision Transformers for Satellite Image Time Series Segmentation link We introduce VistaFormer, a lightweight Transformer-based model architecture for the semantic segmentation of remote-sensing images. This model uses a multi-scale Transformer-based encoder with a lightweight decoder that aggregates global and local attention captured in the encoder blocks. VistaFormer uses position-free self-attention layers which simplifies the model architecture and removes the need to interpolate temporal and spatial codes, which can reduce model performance when training and testing image resolutions differ. We investigate simple techniques for filtering noisy input signals like clouds and demonstrate that improved model scalability can be achieved by substituting Multi-Head Self-Attention (MHSA) with Neighbourhood Attention (NA). Experiments on the PASTIS and MTLCC crop-type segmentation benchmarks show that VistaFormer achieves better performance than comparable models and requires only 8% of the floating point operations using MHSA and 11% using NA while also using fewer trainable parameters. VistaFormer with MHSA improves on state-of-the-art mIoU scores by 0.1% on the PASTIS benchmark and 3% on the MTLCC benchmark while VistaFormer with NA improves on the MTLCC benchmark by 3.7%.  
2024-09-12 SDformer: Efficient End-to-End Transformer for Depth Completion link Depth completion aims to predict dense depth maps with sparse depth measurements from a depth sensor. Currently, Convolutional Neural Network (CNN) based models are the most popular methods applied to depth completion tasks. However, despite the excellent high-end performance, they suffer from a limited representation area. To overcome the drawbacks of CNNs, a more effective and powerful method has been presented: the Transformer, which is an adaptive self-attention setting sequence-to-sequence model. While the standard Transformer quadratically increases the computational cost from the key-query dot-product of input resolution which improperly employs depth completion tasks. In this work, we propose a different window-based Transformer architecture for depth completion tasks named Sparse-to-Dense Transformer (SDformer). The network consists of an input module for the depth map and RGB image features extraction and concatenation, a U-shaped encoder-decoder Transformer for extracting deep features, and a refinement module. Specifically, we first concatenate the depth map features with the RGB image features through the input model. Then, instead of calculating self-attention with the whole feature maps, we apply different window sizes to extract the long-range depth dependencies. Finally, we refine the predicted features from the input module and the U-shaped encoder-decoder Transformer module to get the enriching depth features and employ a convolution layer to obtain the dense depth map. In practice, the SDformer obtains state-of-the-art results against the CNN-based depth completion models with lower computing loads and parameters on the NYU Depth V2 and KITTI DC datasets.  
2024-09-12 InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation null We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart’s prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks.  
2024-09-12 Lagrange Duality and Compound Multi-Attention Transformer for Semi-Supervised Medical Image Segmentation link Medical image segmentation, a critical application of semantic segmentation in healthcare, has seen significant advancements through specialized computer vision techniques. While deep learning-based medical image segmentation is essential for assisting in medical diagnosis, the lack of diverse training data causes the long-tail problem. Moreover, most previous hybrid CNN-ViT architectures have limited ability to combine various attentions in different layers of the Convolutional Neural Network. To address these issues, we propose a Lagrange Duality Consistency (LDC) Loss, integrated with Boundary-Aware Contrastive Loss, as the overall training objective for semi-supervised learning to mitigate the long-tail problem. Additionally, we introduce CMAformer, a novel network that synergizes the strengths of ResUNet and Transformer. The cross-attention block in CMAformer effectively integrates spatial attention and channel attention for multi-scale feature fusion. Overall, our results indicate that CMAformer, combined with the feature fusion framework and the new consistency loss, demonstrates strong complementarity in semi-supervised learning ensembles. We achieve state-of-the-art results on multiple public medical image datasets. Example code are available at: \url{https://github.com/lzeeorno/Lagrange-Duality-and-CMAformer}.  
2024-09-11 ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers link Transformers demonstrate competitive performance in terms of precision on the problem of vision-based object detection. However, they require considerable computational resources due to the quadratic size of the attention weights. In this work, we propose to cluster the transformer input on the basis of its entropy. The reason for this is that the self-information of each pixel (whose sum is the entropy), is likely to be similar among pixels corresponding to the same objects. Clustering reduces the size of data given as input to the transformer and therefore reduces training time and GPU memory usage, while at the same time preserves meaningful information to be passed through the remaining parts of the network. The proposed process is organized in a module called ENACT, that can be plugged-in any transformer architecture that consists of a multi-head self-attention computation in its encoder. We ran extensive experiments using the COCO object detection dataset, and three detection transformers. The obtained results demonstrate that in all tested cases, there is consistent reduction in the required computational resources, while the precision of the detection task is only slightly reduced. The code of the ENACT module will become available at https://github.com/GSavathrakis/ENACT  
2024-09-11 Gated Slot Attention for Efficient Linear-Time Sequence Modeling link Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via softmax, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA’s hardware-efficient training algorithm and reduced state size. Additionally, retaining the softmax operation is particularly beneficial in “finetuning pretrained Transformers to RNNs” (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA’s superior performance in scenarios requiring in-context recall and in T2R settings.  
2024-09-11 Enhancing Cross-domain Pre-Trained Decision Transformers with Adaptive Attention null Recently, the pre-training of decision transformers (DT) using a different domain, such as natural language text, has generated significant attention in offline reinforcement learning (Offline RL). Although this cross-domain pre-training approach achieves superior performance compared to training from scratch in environments required short-term planning ability, the mechanisms by which pre-training benefits the fine-tuning phase remain unclear. Furthermore, we point out that the cross-domain pre-training approach hinders the extraction of distant information in environments like PointMaze that require long-term planning ability, leading to performance that is much worse than training DT from scratch. This work first analyzes these issues and found that Markov Matrix, a component that exists in pre-trained attention heads, is the key to explain the significant performance disparity of pre-trained models in different planning abilities. Inspired by our analysis, we propose a general method GPT-DTMA, which equips a pre-trained DT with Mixture of Attention (MoA), to enable adaptive learning and accommodating diverse attention requirements during fine-tuning. Extensive experiments demonstrate that the effectiveness of GPT-DTMA: it achieves superior performance in short-term environments compared to baselines, and in long-term environments, it mitigates the negative impact caused by Markov Matrix, achieving results comparable to those of DT trained from scratch.  
2024-09-11 Brain-Inspired Stepwise Patch Merging for Vision Transformers null The hierarchical architecture has become a mainstream design paradigm for Vision Transformers (ViTs), with Patch Merging serving as the pivotal component that transforms a columnar architecture into a hierarchical one. Drawing inspiration from the brain’s ability to integrate global and local information for comprehensive visual understanding, we propose a novel technique called Stepwise Patch Merging (SPM), which enhances the subsequent attention mechanism’s ability to ‘see’ better. SPM comprises two critical modules: Multi-Scale Aggregation (MSA) and Guided Local Enhancement (GLE). The MSA module integrates multi-scale features to enrich feature representation, while the GLE module focuses on refining local detail extraction, thus achieving an optimal balance between long-range dependency modeling and local feature enhancement. Extensive experiments conducted on benchmark datasets, including ImageNet-1K, COCO, and ADE20K, demonstrate that SPM significantly improves the performance of various models, particularly in dense prediction tasks such as object detection and semantic segmentation. These results underscore the efficacy of SPM in enhancing model accuracy and robustness across a wide range of computer vision tasks.  
2024-09-10 A Practical Gated Recurrent Transformer Network Incorporating Multiple Fusions for Video Denoising null State-of-the-art (SOTA) video denoising methods employ multi-frame simultaneous denoising mechanisms, resulting in significant delays (e.g., 16 frames), making them impractical for real-time cameras. To overcome this limitation, we propose a multi-fusion gated recurrent Transformer network (GRTN) that achieves SOTA denoising performance with only a single-frame delay. Specifically, the spatial denoising module extracts features from the current frame, while the reset gate selects relevant information from the previous frame and fuses it with current frame features via the temporal denoising module. The update gate then further blends this result with the previous frame features, and the reconstruction module integrates it with the current frame. To robustly compute attention for noisy features, we propose a residual simplified Swin Transformer with Euclidean distance (RSSTE) in the spatial and temporal denoising modules. Comparative objective and subjective results show that our GRTN achieves denoising performance comparable to SOTA multi-frame delay networks, with only a single-frame delay.  
2024-09-10 Lightweight Multiscale Feature Fusion Super-Resolution Network Based on Two-branch Convolution and Transformer null The single image super-resolution(SISR) algorithms under deep learning currently have two main models, one based on convolutional neural networks and the other based on Transformer. The former uses the stacking of convolutional layers with different convolutional kernel sizes to design the model, which enables the model to better extract the local features of the image; the latter uses the self-attention mechanism to design the model, which allows the model to establish long-distance dependencies between image pixel points through the self-attention mechanism and then better extract the global features of the image. However, both of the above methods face their problems. Based on this, this paper proposes a new lightweight multi-scale feature fusion network model based on two-way complementary convolutional and Transformer, which integrates the respective features of Transformer and convolutional neural networks through a two-branch network architecture, to realize the mutual fusion of global and local information. Meanwhile, considering the partial loss of information caused by the low-pixel images trained by the deep neural network, this paper designs a modular connection method of multi-stage feature supplementation to fuse the feature maps extracted from the shallow stage of the model with those extracted from the deep stage of the model, to minimize the loss of the information in the feature images that is beneficial to the image restoration as much as possible, to facilitate the obtaining of a higher-quality restored image. The practical results finally show that the model proposed in this paper is optimal in image recovery performance when compared with other lightweight models with the same amount of parameters.  
2024-09-10 Knowledge Distillation via Query Selection for Detection Transformer null Transformers have revolutionized the object detection landscape by introducing DETRs, acclaimed for their simplicity and efficacy. Despite their advantages, the substantial size of these models poses significant challenges for practical deployment, particularly in resource-constrained environments. This paper addresses the challenge of compressing DETR by leveraging knowledge distillation, a technique that holds promise for maintaining model performance while reducing size. A critical aspect of DETRs’ performance is their reliance on queries to interpret object representations accurately. Traditional distillation methods often focus exclusively on positive queries, identified through bipartite matching, neglecting the rich information present in hard-negative queries. Our visual analysis indicates that hard-negative queries, focusing on foreground elements, are crucial for enhancing distillation outcomes. To this end, we introduce a novel Group Query Selection strategy, which diverges from traditional query selection in DETR distillation by segmenting queries based on their Generalized Intersection over Union (GIoU) with ground truth objects, thereby uncovering valuable hard-negative queries for distillation. Furthermore, we present the Knowledge Distillation via Query Selection for DETR (QSKD) framework, which incorporates Attention-Guided Feature Distillation (AGFD) and Local Alignment Prediction Distillation (LAPD). These components optimize the distillation process by focusing on the most informative aspects of the teacher model’s intermediate features and output. Our comprehensive experimental evaluation of the MS-COCO dataset demonstrates the effectiveness of our approach, significantly improving average precision (AP) across various DETR architectures without incurring substantial computational costs. Specifically, the AP of Conditional DETR ResNet-18 increased from 35.8 to 39.9.  
2024-09-10 AgileIR: Memory-Efficient Group Shifted Windows Attention for Agile Image Restoration null Image Transformers show a magnificent success in Image Restoration tasks. Nevertheless, most of transformer-based models are strictly bounded by exorbitant memory occupancy. Our goal is to reduce the memory consumption of Swin Transformer and at the same time speed up the model during training process. Thus, we introduce AgileIR, group shifted attention mechanism along with window attention, which sparsely simplifies the model in architecture. We propose Group Shifted Window Attention (GSWA) to decompose Shift Window Multi-head Self Attention (SW-MSA) and Window Multi-head Self Attention (W-MSA) into groups across their attention heads, contributing to shrinking memory usage in back propagation. In addition to that, we keep shifted window masking and its shifted learnable biases during training, in order to induce the model interacting across windows within the channel. We also re-allocate projection parameters to accelerate attention matrix calculation, which we found a negligible decrease in performance. As a result of experiment, compared with our baseline SwinIR and other efficient quantization models, AgileIR keeps the performance still at 32.20 dB on Set5 evaluation dataset, exceeding other methods with tailor-made efficient methods and saves over 50% memory while a large batch size is employed.  
2024-09-09 ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL link 为了提取鲁棒且可泛化的骨架动作识别特征,通常需要大量精心标注的数据,而标注和计算成本的限制使得这项任务极具挑战性。因此,利用无标签骨架数据的无监督表征学习至关重要。本研究探讨了用于骨架动作识别的无监督表征学习方法。为此,我们设计了一个轻量级卷积Transformer框架,名为ReL-SAR,它利用卷积层和注意力层的互补性来联合建模骨架序列中的空间和时间线索。我们还对骨架关节采用了选择-排列策略,以确保从骨骼数据中获取更多信息。最后,我们利用Bootstrap Your Own Latent(BYOL)从无标签骨架序列数据中学习鲁棒的表征。我们在有限大小的数据集:MCAD、IXMAS、JHMDB和NW-UCLA上取得了非常有竞争力的结果,证明了我们提出的方法在性能和计算效率方面相对于现有技术的有效性。为了确保可重复性和可复用性,我们在以下链接提供了包含所有实现参数的源代码:https://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolutional-Transformers-and-BYOL  
2024-09-09 DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification null Driver distraction remains a leading cause of traffic accidents, posing a critical threat to road safety globally. As intelligent transportation systems evolve, accurate and real-time identification of driver distraction has become essential. However, existing methods struggle to capture both global contextual and fine-grained local features while contending with noisy labels in training datasets. To address these challenges, we propose DSDFormer, a novel framework that integrates the strengths of Transformer and Mamba architectures through a Dual State Domain Attention (DSDA) mechanism, enabling a balance between long-range dependencies and detailed feature extraction for robust driver behavior recognition. Additionally, we introduce Temporal Reasoning Confident Learning (TRCL), an unsupervised approach that refines noisy labels by leveraging spatiotemporal correlations in video sequences. Our model achieves state-of-the-art performance on the AUC-V1, AUC-V2, and 100-Driver datasets and demonstrates real-time processing efficiency on the NVIDIA Jetson AGX Orin platform. Extensive experimental results confirm that DSDFormer and TRCL significantly improve both the accuracy and robustness of driver distraction detection, offering a scalable solution to enhance road safety.  
2024-09-10 Retrofitting Temporal Graph Neural Networks with Transformer link Temporal graph neural networks (TGNNs) outperform regular GNNs by incorporating time information into graph-based operations. However, TGNNs adopt specialized models (e.g., TGN, TGAT, and APAN ) and require tailored training frameworks (e.g., TGL and ETC). In this paper, we propose TF-TGN, which uses Transformer decoder as the backbone model for TGNN to enjoy Transformer’s codebase for efficient training. In particular, Transformer achieves tremendous success for language modeling, and thus the community developed high-performance kernels (e.g., flash-attention and memory-efficient attention) and efficient distributed training schemes (e.g., PyTorch FSDP, DeepSpeed, and Megatron-LM). We observe that TGNN resembles language modeling, i.e., the message aggregation operation between chronologically occurring nodes and their temporal neighbors in TGNNs can be structured as sequence modeling. Beside this similarity, we also incorporate a series of algorithm designs including suffix infilling, temporal graph attention with self-loop, and causal masking self-attention to make TF-TGN work. During training, existing systems are slow in transforming the graph topology and conducting graph sampling. As such, we propose methods to parallelize the CSR format conversion and graph sampling. We also adapt Transformer codebase to train TF-TGN efficiently with multiple GPUs. We experiment with 9 graphs and compare with 2 state-of-the-art TGNN training frameworks. The results show that TF-TGN can accelerate training by over 2.20 while providing comparable or even superior accuracy to existing SOTA TGNNs. TF-TGN is available at https://github.com/qianghuangwhu/TF-TGN.  
2024-09-08 Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml null This study presents an efficient implementation of transformer architectures in Field-Programmable Gate Arrays(FPGAs) using hls4ml. We demonstrate the strategy for implementing the multi-head attention, softmax, and normalization layer and evaluate three distinct models. Their deployment on VU13P FPGA chip achieved latency less than 2us, demonstrating the potential for real-time applications. HLS4ML compatibility with any TensorFlow-built transformer model further enhances the scalability and applicability of this work. Index Terms: FPGAs, machine learning, transformers, high energy physics, LIGO  
2024-09-08 MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework null Social media has a significant impact on people’s lives. Hate speech on social media has emerged as one of society’s most serious issues recently. Text and pictures are two forms of multimodal data distributed within articles. Unimodal analysis has been the primary emphasis of earlier approaches. Additionally, when doing multimodal analysis, researchers neglect to preserve the distinctive qualities associated with each modality. The present article suggests a scalable architecture for multimodal hate content detection called transformer-based multilevel attention (STMA) to address these shortcomings. This architecture consists of three main parts: a combined attention-based deep learning mechanism, a vision attention mechanism encoder, and a caption attention-mechanism encoder. To identify hate content, each component uses various attention processes and uniquely handles multimodal data. Several studies employing multiple assessment criteria on three hate speech datasets: Hateful memes, MultiOff, and MMHS150K, validate the suggested architecture’s efficacy. The outcomes demonstrate that on all three datasets, the suggested strategy performs better than the baseline approaches.  
2024-09-08 An Analog and Digital Hybrid Attention Accelerator for Transformers with Charge-based In-memory Computing null The attention mechanism is a key computing kernel of Transformers, calculating pairwise correlations across the entire input sequence. The computing complexity and frequent memory access in computing self-attention put a huge burden on the system especially when the sequence length increases. This paper presents an analog and digital hybrid processor to accelerate the attention mechanism for transformers in 65nm CMOS technology. We propose an analog computing-in-memory (CIM) core, which prunes ~75% of low-score tokens on average during runtime at ultra-low power and delay. Additionally, a digital processor performs precise computations only for ~25% unpruned tokens selected by the analog CIM core, preventing accuracy degradation. Measured results show peak energy efficiency of 14.8 and 1.65 TOPS/W, and peak area efficiency of 976.6 and 79.4 GOPS/mm $^\mathrm{2}$ in the analog core and the system-on-chip (SoC), respectively.  
2024-09-07 Efficient Training of Transformers for Molecule Property Prediction on Small-scale Datasets null 血脑屏障(BBB)是一道保护性屏障,将大脑与循环系统隔开,调节物质进入中枢神经系统的通道。评估潜在药物的BBB渗透性对于有效的药物靶向至关重要。然而,传统的BBB渗透性测量实验方法具有挑战性,并且对于大规模筛选来说不切实际。因此,需要开发计算方法来预测BBB渗透性。本文提出了一种增强了自注意力机制的GPS Transformer架构,旨在在低数据情况下表现良好。所提出的方法在使用BBBP数据集的BBB渗透性预测任务上实现了最先进的性能,超过了现有模型。该方法的ROC-AUC为78.8%,比现有最佳水平提高了5.5%。我们证明了标准的自注意力机制与GPS Transformer结合使用比其他注意力机制变体与GPS Transformer结合使用表现更好。  
2024-09-07 Cross-attention Inspired Selective State Space Models for Target Sound Extraction link Transformer模型,特别是其交叉注意力模块,广泛应用于目标声音提取中的特征融合,该任务基于给定的线索提取感兴趣的信号。尽管有效,但这种方法的计算效率较低。状态空间模型的最新进展,特别是最近的Mamba模型,在各种任务中表现出与基于Transformer的方法相当的性能,同时显著降低了计算复杂度。然而,由于Mamba无法像交叉注意力那样捕捉不同序列之间的依赖关系,因此它在目标声音提取中的适用性受到限制。在本文中,我们提出了用于目标声音提取的CrossMamba模型,它利用Mamba的隐藏注意力机制来计算给定线索和音频混合物之间的依赖关系。Mamba的计算可以分为查询、键和值。我们利用线索生成查询,并利用音频混合物导出键和值,遵循Transformer中交叉注意力机制的原理。来自两种具有代表性的目标声音提取方法的实验结果验证了所提出的CrossMamba的有效性。  
2024-09-06 Theory, Analysis, and Best Practices for Sigmoid Self-Attention link 注意力是 Transformer 架构的关键组成部分。它是一种序列到序列的映射,将每个序列元素转换为值的加权和。权重通常是通过键和查询之间的点积的 softmax 获得的。最近的工作探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。在这项工作中,我们重新审视 sigmoid 注意力,并对其进行深入的理论和实证分析。理论上,我们证明了具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且与 softmax 注意力相比,具有更好的正则性。通过详细的实证分析,我们发现,在训练的早期阶段稳定较大的初始注意力范数是成功训练具有 sigmoid 注意力模型的关键因素,其性能优于先前的尝试。我们还介绍了 FLASHSIGMOID,这是一种硬件感知且内存高效的 sigmoid 注意力实现,在 H100 GPU 上,其推理内核速度比 FLASHATTENTION2 提高了 17%。跨语言、视觉和语音的实验表明,经过适当标准化的 sigmoid 注意力在广泛的领域和规模上与 softmax 注意力的强大性能相匹配,这是先前尝试 sigmoid 注意力所无法完全实现的。我们的工作统一了现有技术,并为 sigmoid 注意力作为 Transformer 中 softmax 的直接替代品建立了最佳实践。  
2024-09-09 AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective null 在本文中,我们从分布式优化的角度出发,利用共识差异来扩展Transformer中的标准注意力机制,我们称之为AttentionX。值得注意的是,乘子交替方向法(PDMM)\cite{Zhang16PDMM}旨在迭代地解决点对点(P2P)网络上的一大类分布式优化问题,其中相邻节点根据优化过程中预定义的线性边约束逐渐达成共识。特别是在PDMM的每次迭代中,网络中的每个节点首先从邻居节点收集信息,然后执行本地信息融合。从高层次来看,注意力机制中基于 $KQ$-softmax的$V$表示加权求和对应于从邻居节点收集信息,而Transformer中通过前馈网络(FFN)进行的特征处理对应于本地信息融合。PDMM利用拉格朗日乘子以线性边约束的残差形式捕获历史共识差异,这对于算法的收敛至关重要。受PDMM的启发,我们提出了AttentionX,将共识差异纳入标准注意力机制的输出更新表达式中。AttentionX中的共识差异是指$V$表示的加权求和与其缩放后的$V$ 表示本身之间的差异。在ViT和nanoGPT上的实验表明了其良好的性能。  
2024-09-05 Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers link In decoder-based LLMs, the representation of a given layer serves two purposes: as input to the next layer during the computation of the current token; and as input to the attention mechanism of future tokens. In this work, we show that the importance of the latter role might be overestimated. To show that, we start by manipulating the representations of previous tokens; e.g. by replacing the hidden states at some layer k with random vectors. Our experimenting with four LLMs and four tasks show that this operation often leads to small to negligible drop in performance. Importantly, this happens if the manipulation occurs in the top part of the model-k is in the final 30-50% of the layers. In contrast, doing the same manipulation in earlier layers might lead to chance level performance. We continue by switching the hidden state of certain tokens with hidden states of other tokens from another prompt; e.g., replacing the word “Italy” with “France” in “What is the capital of Italy?”. We find that when applying this switch in the top 1/3 of the model, the model ignores it (answering “Rome”). However if we apply it before, the model conforms to the switch (“Paris”). Our results hint at a two stage process in transformer-based LLMs: the first part gathers input from previous tokens, while the second mainly processes that information internally.  
2024-09-05 LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution link Recent Vision Transformer (ViT)-based methods for Image Super-Resolution have demonstrated impressive performance. However, they suffer from significant complexity, resulting in high inference times and memory usage. Additionally, ViT models using Window Self-Attention (WSA) face challenges in processing regions outside their windows. To address these issues, we propose the Low-to-high Multi-Level Transformer (LMLT), which employs attention with varying feature sizes for each head. LMLT divides image features along the channel dimension, gradually reduces spatial size for lower heads, and applies self-attention to each head. This approach effectively captures both local and global information. By integrating the results from lower heads into higher heads, LMLT overcomes the window boundary issues in self-attention. Extensive experiments show that our model significantly reduces inference time and GPU memory usage while maintaining or even surpassing the performance of state-of-the-art ViT-based Image Super-Resolution methods. Our codes are availiable at https://github.com/jwgdmkj/LMLT.  
2024-09-05 Blended Latent Diffusion under Attention Control for Real-World Video Editing null 由于缺乏完全公开可用的文本到视频模型,当前的视频编辑方法倾向于建立在预训练的文本到图像生成模型之上,然而,它们在处理具有时间信息的视频局部编辑方面仍然面临巨大挑战。首先,尽管现有方法试图通过预定义的掩码专注于局部区域编辑,但由于每一帧的空间整体生成,区域外背景的保留并不理想。此外,用户专门提供掩码是一项额外的昂贵工作,因此需要一种集成到编辑过程中的自主掩码策略。最后但同样重要的是,图像级预训练模型没有学习视频帧之间的时间信息,而这对于表达运动和动态至关重要。在本文中,我们建议采用图像级混合潜在扩散模型来执行局部视频编辑任务。具体来说,我们利用 DDIM 反演来获取潜在代码作为背景潜在代码,而不是随机噪声的潜在代码,以更好地保留输入视频的背景信息。我们进一步介绍了一种从扩散步骤中的交叉注意图派生的自主掩码制造机制。最后,我们通过将 U-Net 的自注意力块转换为时空块来增强视频帧之间的时间一致性。通过大量实验,我们提出的方法在不同的现实世界视频编辑任务中展示了有效性。  
2024-09-05 Characterizing Massive Activations of Attention Mechanism in Graph Neural Networks link Graph Neural Networks (GNNs) have become increasingly popular for effectively modeling data with graph structures. Recently, attention mechanisms have been integrated into GNNs to improve their ability to capture complex patterns. This paper presents the first comprehensive study revealing a critical, unexplored consequence of this integration: the emergence of Massive Activations (MAs) within attention layers. We introduce a novel method for detecting and analyzing MAs, focusing on edge features in different graph transformer architectures. Our study assesses various GNN models using benchmark datasets, including ZINC, TOX21, and PROTEINS. Key contributions include (1) establishing the direct link between attention mechanisms and MAs generation in GNNs, (2) developing a robust definition and detection method for MAs based on activation ratio distributions, (3) introducing the Explicit Bias Term (EBT) as a potential countermeasure and exploring it as an adversarial framework to assess models robustness based on the presence or absence of MAs. Our findings highlight the prevalence and impact of attention-induced MAs across different architectures, such as GraphTransformer, GraphiT, and SAN. The study reveals the complex interplay between attention mechanisms, model architecture, dataset characteristics, and MAs emergence, providing crucial insights for developing more robust and reliable graph models.  
2024-09-05 LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones link Research in efficient vision backbones is evolving into models that are a mixture of convolutions and transformer blocks. A smart combination of both, architecture-wise and component-wise is mandatory to excel in the speedaccuracy trade-off. Most publications focus on maximizing accuracy and utilize MACs (multiply accumulate operations) as an efficiency metric. The latter however often do not measure accurately how fast a model actually is due to factors like memory access cost and degree of parallelism. We analyzed common modules and architectural design choices for backbones not in terms of MACs, but rather in actual throughput and latency, as the combination of the latter two is a better representation of the efficiency of models in real applications. We applied the conclusions taken from that analysis to create a recipe for increasing hardware-efficiency in macro design. Additionally we introduce a simple slimmed-down version of MultiHead Self-Attention, that aligns with our analysis. We combine both macro and micro design to create a new family of hardware-efficient backbone networks called LowFormer. LowFormer achieves a remarkable speedup in terms of throughput and latency, while achieving similar or better accuracy than current state-of-the-art efficient backbones. In order to prove the generalizability of our hardware-efficient design, we evaluate our method on GPU, mobile GPU and ARM CPU. We further show that the downstream tasks object detection and semantic segmentation profit from our hardware-efficient architecture. Code and models are available at https://github.com/ altair199797/LowFormer.  
2024-09-05 Masked Sensory-Temporal Attention for Sensor Generalization in Quadruped Locomotion null With the rising focus on quadrupeds, a generalized policy capable of handling different robot models and sensory inputs will be highly beneficial. Although several methods have been proposed to address different morphologies, it remains a challenge for learning-based policies to manage various combinations of proprioceptive information. This paper presents Masked Sensory-Temporal Attention (MSTA), a novel transformer-based model with masking for quadruped locomotion. It employs direct sensor-level attention to enhance sensory-temporal understanding and handle different combinations of sensor data, serving as a foundation for incorporating unseen information. This model can effectively understand its states even with a large portion of missing information, and is flexible enough to be deployed on a physical system despite the long input sequence.  
2024-09-05 Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion null Multi-modality image fusion aims to integrate the merits of images from different sources and render high-quality fusion images. However, existing feature extraction and fusion methods are either constrained by inherent local reduction bias and static parameters during inference (CNN) or limited by quadratic computational complexity (Transformers), and cannot effectively extract and fuse features. To solve this problem, we propose a dual-branch image fusion network called Tmamba. It consists of linear Transformer and Mamba, which has global modeling capabilities while maintaining linear complexity. Due to the difference between the Transformer and Mamba structures, the features extracted by the two branches carry channel and position information respectively. T-M interaction structure is designed between the two branches, using global learnable parameters and convolutional layers to transfer position and channel information respectively. We further propose cross-modal interaction at the attention level to obtain cross-modal attention. Experiments show that our Tmamba achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. Code with checkpoints will be available after the peer-review process.  
2024-09-04 Probing self-attention in self-supervised speech models for cross-linguistic differences null Speech models have gained traction thanks to increase in accuracy from novel transformer architectures. While this impressive increase in performance across automatic speech recognition (ASR) benchmarks is noteworthy, there is still much that is unknown about the use of attention mechanisms for speech-related tasks. For example, while it is assumed that these models are learning language-independent (i.e., universal) speech representations, there has not yet been an in-depth exploration of what it would mean for the models to be language-independent. In the current paper, we explore this question within the realm of self-attention mechanisms of one small self-supervised speech transformer model (TERA). We find that even with a small model, the attention heads learned are diverse ranging from almost entirely diagonal to almost entirely global regardless of the training language. We highlight some notable differences in attention patterns between Turkish and English and demonstrate that the models do learn important phonological information during pretraining. We also present a head ablation study which shows that models across languages primarily rely on diagonal heads to classify phonemes.  
2024-09-04 Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources null 现代Web服务采用云原生原则来利用微服务的优势。为了根据服务等级协议(SLA)持续保证高质量的服务(QoS),确保令人满意的用户体验并最大程度地降低运营成本,必须为每个微服务配置适量的资源。然而,准确地为微服务配置充足的资源非常复杂,并且取决于许多因素,包括工作负载强度和微服务之间复杂的互连关系。为了应对这一挑战,我们开发了一个模型,该模型捕获了端到端延迟、前端级别的请求和资源利用率之间的关系。然后,我们使用开发的模型来预测端到端延迟。我们的解决方案利用了时间融合Transformer(TFT),这是一种具有可解释性特征的基于注意力的架构。当预测结果表明不符合SLA时,我们使用TFT提供的特征重要性作为核岭回归(KRR)中的协变量,并将响应变量设置为期望延迟,以学习与特征重要性相关的参数。这些学习到的参数反映了为确保符合SLA而需要对特征进行的调整。我们通过一个基于微服务的应用程序证明了我们方法的优点,并提供了一个部署路线图。  
2024-09-05 Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? link The significant advancements of Large Language Models (LLMs) in generative tasks have led to a growing body of work exploring LLM-based embedding models. While these models, employing different pooling and attention strategies, have achieved state-of-the-art performance on public embedding benchmarks, questions still arise about what constitutes an effective design for LLM-based embedding models. However, these models are often trained on different datasets, using different LLM base models or training settings. Moreover, evaluations on public embedding benchmarks often fail to report statistical significance, making it difficult to determine which designs truly contribute to final performance. This complicates the process for practitioners seeking optimal training recipes for LLM-based embedding models. In this study, we conduct a large-scale experiment by training a series of LLM-based embedding models using the same training data and base model but differing in their pooling and attention strategies. The results show that there is no one-size-fits-all solution: while bidirectional attention and an additional trainable pooling layer outperform in text similarity and information retrieval tasks, they do not significantly surpass simpler designs like EOS-last token pooling and default causal attention in clustering and classification tasks. Furthermore, we propose a new pooling strategy, Multi-Layers Trainable Pooling, which transforms the outputs of all hidden layers, rather than just the last layer, using a cross-attention network. This method proves to be statistically superior in text similarity and retrieval tasks compared to existing pooling methods. Overall, this paper sheds light on effective training strategies for LLM-based embedding models.  
2024-09-04 UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching null Unlike other vision tasks where Transformer-based approaches are becoming increasingly common, stereo depth estimation is still dominated by convolution-based approaches. This is mainly due to the limited availability of real-world ground truth for stereo matching, which is a limiting factor in improving the performance of Transformer-based stereo approaches. In this paper, we propose UniTT-Stereo, a method to maximize the potential of Transformer-based stereo architectures by unifying self-supervised learning used for pre-training with stereo matching framework based on supervised learning. To be specific, we explore the effectiveness of reconstructing features of masked portions in an input image and at the same time predicting corresponding points in another image from the perspective of locality inductive bias, which is crucial in training models with limited training data. Moreover, to address these challenging tasks of reconstruction-and-prediction, we present a new strategy to vary a masking ratio when training the stereo model with stereo-tailored losses. State-of-the-art performance of UniTT-Stereo is validated on various benchmarks such as ETH3D, KITTI 2012, and KITTI 2015 datasets. Lastly, to investigate the advantages of the proposed approach, we provide a frequency analysis of feature maps and the analysis of locality inductive bias based on attention maps.  
2024-09-03 F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring null Recent progress in image deblurring techniques focuses mainly on operating in both frequency and spatial domains using the Fourier transform (FT) properties. However, their performance is limited due to the dependency of FT on stationary signals and its lack of capability to extract spatial-frequency properties. In this paper, we propose a novel approach based on the Fractional Fourier Transform (FRFT), a unified spatial-frequency representation leveraging both spatial and frequency components simultaneously, making it ideal for processing non-stationary signals like images. Specifically, we introduce a Fractional Fourier Transformer (F2former), where we combine the classical fractional Fourier based Wiener deconvolution (F2WD) as well as a multi-branch encoder-decoder transformer based on a new fractional frequency aware transformer block (F2TB). We design F2TB consisting of a fractional frequency aware self-attention (F2SA) to estimate element-wise product attention based on important frequency components and a novel feed-forward network based on frequency division multiplexing (FM-FFN) to refine high and low frequency features separately for efficient latent clear image restoration. Experimental results for the cases of both motion deblurring as well as defocus deblurring show that the performance of our proposed method is superior to other state-of-the-art (SOTA) approaches.  
2024-09-03 TransDAE: Dual Attention Mechanism in a Hierarchical Transformer for Efficient Medical Image Segmentation null In healthcare, medical image segmentation is crucial for accurate disease diagnosis and the development of effective treatment strategies. Early detection can significantly aid in managing diseases and potentially prevent their progression. Machine learning, particularly deep convolutional neural networks, has emerged as a promising approach to addressing segmentation challenges. Traditional methods like U-Net use encoding blocks for local representation modeling and decoding blocks to uncover semantic relationships. However, these models often struggle with multi-scale objects exhibiting significant variations in texture and shape, and they frequently fail to capture long-range dependencies in the input data. Transformers designed for sequence-to-sequence predictions have been proposed as alternatives, utilizing global self-attention mechanisms. Yet, they can sometimes lack precise localization due to insufficient granular details. To overcome these limitations, we introduce TransDAE: a novel approach that reimagines the self-attention mechanism to include both spatial and channel-wise associations across the entire feature space, while maintaining computational efficiency. Additionally, TransDAE enhances the skip connection pathway with an inter-scale interaction module, promoting feature reuse and improving localization accuracy. Remarkably, TransDAE outperforms existing state-of-the-art methods on the Synaps multi-organ dataset, even without relying on pre-trained weights.  
2024-09-03 TASL-Net: Tri-Attention Selective Learning Network for Intelligent Diagnosis of Bimodal Ultrasound Video null In the intelligent diagnosis of bimodal (gray-scale and contrast-enhanced) ultrasound videos, medical domain knowledge such as the way sonographers browse videos, the particular areas they emphasize, and the features they pay special attention to, plays a decisive role in facilitating precise diagnosis. Embedding medical knowledge into the deep learning network can not only enhance performance but also boost clinical confidence and reliability of the network. However, it is an intractable challenge to automatically focus on these person- and disease-specific features in videos and to enable networks to encode bimodal information comprehensively and efficiently. This paper proposes a novel Tri-Attention Selective Learning Network (TASL-Net) to tackle this challenge and automatically embed three types of diagnostic attention of sonographers into a mutual transformer framework for intelligent diagnosis of bimodal ultrasound videos. Firstly, a time-intensity-curve-based video selector is designed to mimic the temporal attention of sonographers, thus removing a large amount of redundant information while improving computational efficiency of TASL-Net. Then, to introduce the spatial attention of the sonographers for contrast-enhanced video analysis, we propose the earliest-enhanced position detector based on structural similarity variation, on which the TASL-Net is made to focus on the differences of perfusion variation inside and outside the lesion. Finally, by proposing a mutual encoding strategy that combines convolution and transformer, TASL-Net possesses bimodal attention to structure features on gray-scale videos and to perfusion variations on contrast-enhanced videos. These modules work collaboratively and contribute to superior performance. We conduct a detailed experimental validation of TASL-Net’s performance on three datasets, including lung, breast, and liver.  
2024-09-02 Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement link Recently, attention-based transformers have become a de facto standard in many deep learning applications including natural language processing, computer vision, signal processing, etc.. In this paper, we propose a transformer-based end-to-end model to extract a target speaker’s speech from a monaural multi-speaker mixed audio signal. Unlike existing speaker extraction methods, we introduce two additional objectives to impose speaker embedding consistency and waveform encoder invertibility and jointly train both speaker encoder and speech separator to better capture the speaker conditional embedding. Furthermore, we leverage a multi-scale discriminator to refine the perceptual quality of the extracted speech. Our experiments show that the use of a dual path transformer in the separator backbone along with proposed training paradigm improves the CNN baseline by $3.12$ dB points. Finally, we compare our approach with recent state-of-the-arts and show that our model outperforms existing methods by $4.1$ dB points on an average without creating additional data dependency.  
2024-09-02 CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models link Backdoors can be injected into NLP models to induce misbehavior when the input text contains a specific feature, known as a trigger, which the attacker secretly selects. Unlike fixed words, phrases, or sentences used in the static text trigger, NLP dynamic backdoor attacks design triggers associated with abstract and latent text features, making them considerably stealthier than traditional static backdoor attacks. However, existing research on NLP backdoor detection primarily focuses on defending against static backdoor attacks, while detecting dynamic backdoors in NLP models remains largely unexplored. This paper presents CLIBE, the first framework to detect dynamic backdoors in Transformer-based NLP models. CLIBE injects a “few-shot perturbation” into the suspect Transformer model by crafting optimized weight perturbation in the attention layers to make the perturbed model classify a limited number of reference samples as a target label. Subsequently, CLIBE leverages the generalization ability of this few-shot perturbation to determine whether the original model contains a dynamic backdoor. Extensive evaluation on three advanced NLP dynamic backdoor attacks, two widely-used Transformer frameworks, and four real-world classification tasks strongly validates the effectiveness of CLIBE. We also demonstrate the robustness of CLIBE against various adaptive attacks. Furthermore, we employ CLIBE to scrutinize 49 popular Transformer models on Hugging Face and discover one exhibiting a high probability of containing a dynamic backdoor. We have contacted Hugging Face and provided detailed evidence of this model’s backdoor behavior. Moreover, we extend CLIBE to detect backdoor text generation models modified to exhibit toxic behavior. To the best of our knowledge, CLIBE is the first framework capable of detecting backdoors in text generation models without access to trigger input test samples.  
2024-09-02 Progressive Retinal Image Registration via Global and Local Deformable Transformations link Retinal image registration plays an important role in the ophthalmological diagnosis process. Since there exist variances in viewing angles and anatomical structures across different retinal images, keypoint-based approaches become the mainstream methods for retinal image registration thanks to their robustness and low latency. These methods typically assume the retinal surfaces are planar, and adopt feature matching to obtain the homography matrix that represents the global transformation between images. Yet, such a planar hypothesis inevitably introduces registration errors since retinal surface is approximately curved. This limitation is more prominent when registering image pairs with significant differences in viewing angles. To address this problem, we propose a hybrid registration framework called HybridRetina, which progressively registers retinal images with global and local deformable transformations. For that, we use a keypoint detector and a deformation network called GAMorph to estimate the global transformation and local deformable transformation, respectively. Specifically, we integrate multi-level pixel relation knowledge to guide the training of GAMorph. Additionally, we utilize an edge attention module that includes the geometric priors of the images, ensuring the deformation field focuses more on the vascular regions of clinical interest. Experiments on two widely-used datasets, FIRE and FLoRI21, show that our proposed HybridRetina significantly outperforms some state-of-the-art methods. The code is available at https://github.com/lyp-deeplearning/awesome-retinal-registration.  
2024-09-02 Multi-scale Temporal Fusion Transformer for Incomplete Vehicle Trajectory Prediction null Motion prediction plays an essential role in autonomous driving systems, enabling autonomous vehicles to achieve more accurate local-path planning and driving decisions based on predictions of the surrounding vehicles. However, existing methods neglect the potential missing values caused by object occlusion, perception failures, etc., which inevitably degrades the trajectory prediction performance in real traffic scenarios. To address this limitation, we propose a novel end-to-end framework for incomplete vehicle trajectory prediction, named Multi-scale Temporal Fusion Transformer (MTFT), which consists of the Multi-scale Attention Head (MAH) and the Continuity Representation-guided Multi-scale Fusion (CRMF) module. Specifically, the MAH leverages the multi-head attention mechanism to parallelly capture multi-scale motion representation of trajectory from different temporal granularities, thus mitigating the adverse effect of missing values on prediction. Furthermore, the multi-scale motion representation is input into the CRMF module for multi-scale fusion to obtain the robust temporal feature of the vehicle. During the fusion process, the continuity representation of vehicle motion is first extracted across time steps to guide the fusion, ensuring that the resulting temporal feature incorporates both detailed information and the overall trend of vehicle motion, which facilitates the accurate decoding of future trajectory that is consistent with the vehicle’s motion trend. We evaluate the proposed model on four datasets derived from highway and urban traffic scenarios. The experimental results demonstrate its superior performance in the incomplete vehicle trajectory prediction task compared with state-of-the-art models, e.g., a comprehensive performance improvement of more than 39% on the HighD dataset.  
2024-09-01 Attention-Guided Multi-scale Interaction Network for Face Super-Resolution null Recently, CNN and Transformer hybrid networks demonstrated excellent performance in face super-resolution (FSR) tasks. Since numerous features at different scales in hybrid networks, how to fuse these multi-scale features and promote their complementarity is crucial for enhancing FSR. However, existing hybrid network-based FSR methods ignore this, only simply combining the Transformer and CNN. To address this issue, we propose an attention-guided Multi-scale interaction network (AMINet), which contains local and global feature interactions as well as encoder-decoder phases feature interactions. Specifically, we propose a Local and Global Feature Interaction Module (LGFI) to promote fusions of global features and different receptive fields’ local features extracted by our Residual Depth Feature Extraction Module (RDFE). Additionally, we propose a Selective Kernel Attention Fusion Module (SKAF) to adaptively select fusions of different features within LGFI and encoder-decoder phases. Our above design allows the free flow of multi-scale features from within modules and between encoder and decoder, which can promote the complementarity of different scale features to enhance FSR. Comprehensive experiments confirm that our method consistently performs well with less computational consumption and faster inference.  

(<a href=#updated-on-20241204>back to top</a>)