1月,人工智能领域国际学术会议ICLR 2024论文接收结果公布,高瓴人工智能学院师生有14篇论文被录用。ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),被认为是深度学习的顶级会议,ICLR 2024年会议将于5月1日至5月5日举行。ICLR 是新兴的会议,在最新的谷歌学术期刊和会议影响力排名中位列计算机学科前列。
论文介绍
论文题目:Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment
作者:郭歌扬,赵元乾,唐天一,赵鑫,文继荣
通讯作者:赵鑫
论文概述:对于大型语言模型(LLMs),与人类偏好相符合是一个重要特性。目前,人工反馈的强化学习(RLHF)是主要的对齐方法。虽然RLHF有效,但其实施和训练过程复杂。因此,最近的研究尝试通过监督式微调(SFT)开发替代对齐方法。SFT的一个主要限制是,它基本上是在进行模仿学习,这并不能完全理解预期的行为。为此,我们提出了一个改进的对齐方法—细粒度指导对齐(FIGA)。与以前的方法不同,我们引入了通过对比优秀与不佳的回应得到的细粒度质量信号。我们的方法主要做出了两大贡献:一是创建了一个配对初始回应及其修订版本的精细对齐数据集;二是设计了一个新的损失函数,该函数能够利用细粒度质量信号来指导LLMs的学习过程,以实现更好的对齐。通过与多个现存方法的基线比较,我们的方法在大量实验中展示出了其有效性。
论文题目:VDT: General-purpose Video Diffusion Transformers via Mask Modeling
作者:卢浩宇,杨国兴,费楠益,霍宇琦,卢志武,罗平,丁明宇
通讯作者:卢志武,丁明宇
论文概述: 这项工作提出Video Diffusion Transformer (VDT),是首个基于Transformer的Video Diffusion模型。VDT由解耦的时空注意力模块构成, 继承了Transformer模型强大的时空表征能力。此外,该工作还提出了统一的时空掩码建模机制,与模型无缝集成,以适应多样的视频生成场景。
VDT提供了几个吸引人的优点。首先,它擅长捕捉时间依赖性,能够产生时间上一致的视频帧, 甚至模拟3D对象随时间的物理和动态特性。其次,它具备灵活的条件信息处理方式。在Token空间中的简单拼接即可有效地统一无条件/条件生成任务。该工作在VDT的基础上进一步提出的时空掩码建模机制,使其成为一个通用的Video Diffusion模型,可以同时支持包括无条件生成、视频预测、插值、动画制作和补全等多种任务。
VDT在不同的场景中进行了广泛的实验,包括自动驾驶、自然天气、人类行为和基于物理的模拟等,这些实验展示了VDT的有效性。此外,该工作还提供了关于VDT捕捉准确时间依赖性、处理条件信息和时空掩码建模机制的全面研究。我们相信这将有助于未来的研究,并推动该领域的发展。
论文题目:UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
作者:卢浩宇,霍宇琦,杨国兴,卢志武,Wei Zhan,Masayoshi Tomizuka,丁明宇
通讯作者:卢志武,丁明宇
论文概述:大规模视觉-语言预训练模型在各种下游任务上显示出了强大的迁移性。随着这些基础模型的规模和下游任务的数量增长,标准的完全微调范式由于巨大的计算和存储成本使得传统Pretrain-finetune范式变得不可持续。本文提出了UniAdapter,它统一了单模态和多模态Adapter,用于在预训练的视觉-语言模型上进行参数高效的迁移学习。具体来说,Adapter被分布到不同的模态及其交互中,通过部分权重共享,从而减少训练参数。统一且共享知识的设计使得UniAdapter具备强大的跨模态表征能力,并适配于各种下游任务,同时仅需训练模型的1.0%-2.0%的可调参数。在7个跨模态下游基准测试(包括视频-文本检索、图像-文本检索、VideoQA、VQA和Caption)上的广泛实验表明,在大多数情况下,UniAdapter不仅优于最新的方法, 甚至超过了全微调参数设置。
论文题目:PolyGCL: GRAPH CONTRASTIVE LEARNING via Learnable Spectral Polynomial Filters
作者:陈靖宇,雷润林,魏哲巍
通讯作者:魏哲巍
论文概述:最近,图对比学习(Graph Contrastive Learning,GCL)在自监督图表示学习方面取得了显著的优越性能。然而,现有的GCL技术由于其低通GNN编码器和基于同配性假设的目标而具有固有的平滑特性,这在将其应用于异配图时构成了挑战。在监督学习任务中,具有多项式逼近的谱域GNN通过自适应拟合任意形状的图滤波器在同配和异配设置下均表现出色。然而,在自监督学习中,它们的应用很少被探讨。基于上述分析,一个自然的问题是:我们是否可以将谱域多项式滤波器的优良特性融入到图对比学习中?在本文中,我们通过从谱域角度研究引入高通信息以适应异配性的必要性来回答这个问题。我们提出了PolyGCL,这是一个利用多项式滤波器实现低通和高通视图之间对比学习的GCL流程。具体而言,PolyGCL利用具有可学习滤波函数的多项式生成不同的谱视图,并通过线性组合将高通信息纳入目标中。我们在理论上证明了当应用于不同同配度的图时,PolyGCL优于先前的GCL范式。我们在合成和真实数据集上进行了大量实验,结果展示了PolyGCL在同配和异配图上的出色性能。
论文题目:Reinforcement Symbolic Regression Machine
作者:徐一龙,刘扬,孙浩
通讯作者:孙浩
论文概述:从有限的数据中自动提炼出方程的过程称为符号回归。然而,这个问题仍然是迄今为止的一个巨大挑战,因为随着方程的复杂程度增加,表达式的搜索空间也会指数级增加,尤其是当底层数学公式错综复杂时,目前的方法仍难以突破搜索难度的瓶颈。为此,我们提出了一种新方法,称为强化符号回归机(RSRM),它能从稀缺的数据中发现复杂的数学公式。RSRM 模型由三个关键模块组成:(1) 蒙特卡洛树搜索算法,探索由数学运算符和变量组成的最优数学表达树;(2) 双Q学习模块,通过正确理解奖励分布,帮助缩小 MCTS 的可行搜索空间;(3) MSDB(递归式子树发现模块),逐步递进的简化表达式。通过多个基准数据集的验证,这些模块的结合使 RSRM 的性能明显优于几个具有代表性的基准模型。
论文题目:Quantifying and Enhancing Multi-modal Robustness with Modality Preference
作者:杨泽群,卫雅珂,梁策,胡迪
通讯作者:胡迪
论文概述:多模态模型能有效整合来自不同来源的信息,但同时也易受扰动影响。为了抵抗这些扰动,获得远离决策边界的鲁棒多模态表征至关重要。基于多模态联合学习的范式,我们从理论上证明了增大单模态表征间隔及提高模态整合可靠性是提升多模态鲁棒性的关键因素。此外,我们的分析还揭示了模型对不同模态的偏好如何影响该关键因素,进而限制多模态鲁棒性,使得对特定模态的攻击更为有效。针对该问题,我们提出了一种名为“可验证鲁棒的多模态训练”(CRMT)的新方法。我们的方法旨在减少模态偏好的影响,并通过显式调节上述关键因素,以可验证的方式提升模型的鲁棒性。在实验中,我们的方法在性能和鲁棒性方面均优于现有方法。此外,我们的训练策略具有良好的灵活性,可以扩展应用于增强其他多模态鲁棒训练方法。
论文题目:The Blessing of Randomness: SDE Beats ODE in General Diffusion-based Image Editing
作者:聂燊,郭瀚中,路橙,周聿浩,郑晨宇,李崇轩
通讯作者:李崇轩
论文概述:我们提出了一个统一的概率框架,用于基于扩散模型的图像编辑方法,在该框架中,隐变量以特定于任务的方式进行编辑,并且通常偏离由原始随机或常微分方程(SDE或ODE)引导的相应边缘分布。相反,它为编辑定义了相应的SDE或ODE。在这个框架中,我们证明了两个SDE的边缘分布之间的KL散度随着时间趋近于零而逐渐减小,而ODE的散度保持不变,这表明了SDE在图像编辑中的潜力。受此启发,我们为各种任务中广泛使用的ODE基准提供了SDE对应项,包括图像修复和图像翻译,其中SDE显示出一致且显著的改进。此外,我们提出了SDE-Drag——一种简单但有效的基于SDE框架的图像点拖拽方法。我们构建了一个具有挑战性的基准(称为DragBench),其中包含开放集的自然、艺术和AI生成的图像进行评估。在DragBench上的用户调研表明,SDE-Drag显著优于我们的ODE基线、现有的基于扩散模型的方法,以及著名的DragGAN。我们的结果展示了SDE在图像编辑方面的优越性和多功能性,并推动了基于扩散的编辑方法的边界。
论文题目:BayesDiff: Estimating Pixel-wise Uncertainty in Diffusion via Bayesian Inference
作者:寇思麒,干磊,王德泉,李崇轩,邓志杰
通讯作者:李崇轩,邓志杰
论文概述:扩散模型在图像生成方面具有令人印象深刻的能力,但仍存在一些低质量的生成结果,而由于缺乏恰当的样本级度量标准,识别这些低质量生成结果仍然是一个挑战。为此,我们提出了BayesDiff,这是一种基于贝叶斯推理的扩散模型生成图像的像素级不确定性估计器。特别地,我们推导出一种新颖的不确定性迭代原理,以刻画扩散过程中的不确定性动态,并利用最后一层的拉普拉斯近似实现高效的贝叶斯推理。估计的像素级不确定性不仅可以汇总为样本级度量,以筛选出低保真图像,而且还有助于生成成功的图像并纠正文本到图像任务中失败生成的图像中的瑕疵。广泛的实验展示了BayesDiff的有效性及其在实际应用中的应用前景。
论文题目:Rigid Protein-Protein Docking via Equivariant Elliptic-Paraboloid Interface Prediction
作者:虞子扬,黄文炳,刘洋
通讯作者:黄文炳,刘洋
论文概述:刚性蛋白质-蛋白质对接的研究在药物设计和蛋白质工程等多项任务中发挥着至关重要的作用。近年来提出的多种基于学习的对接方法速度明显快于传统方法。本文提出了一种名为ElliDock的新颖学习方法,该方法通过预测椭圆抛物面表示蛋白质-蛋白质对接界面。具体而言,模型分别估计两个输入蛋白质的椭圆抛物面界面,并通过使两个界面重合来获得对接所需的旋转和平移变换。ElliDock 具有对蛋白质任意旋转、平移的等变性,这意味着很好的泛化能力。实验证明,ElliDock在所有比较方法中需要最短的推断时间,并且在抗体-抗原对接方面优于DiffDock-PP和Alphafold-Multimer等目前最先进的学习方法。
论文题目:Space Group Constrained Crystal Generation
作者:矫瑞,黄文炳,刘宇,赵德丽,刘洋
通讯作者:黄文炳,刘洋
论文概述:晶体是许多科学和工业应用的基础。尽管多种基于学习的晶体生成方法已经被提出,但现有方法忽略了空间群约束。空间群对于描述晶体的几何结构至关重要,并且与许多理想的性质密切相关。然而,由于因为其多样性和非平凡形式,考虑空间群约束是一项具有挑战性的任务。在本文中,我们将空间群约束简化为一个等效的公式,该公式更易于手工处理并纳入到生成过程中。具体而言,我们将空间群约束转化为两种情况:晶格矩阵在不变指数空间中的约束和原子分数坐标Wyckoff位置约束。在上述约束条件下,我们提出了一种新颖的扩散模型DiffCSP++,通过进一步考虑空间群约束,增强了先前的工作DiffCSP(这个工作也是我们提出)。在几个常见数据集上的实验证明了引入空间群约束的好处,并表明DiffCSP++在晶体结构预测和从头开始晶体生成方面取得了最佳或相当的性能。
论文题目:Towards Codable Text Watermarking for Large Language Models
作者:王乐安,杨文恺,陈德里,周昊,林衍凯,孟凡东,周杰,孙栩
通讯作者:林衍凯,孙栩
论文概述:近来,随着以 ChatGPT 为代表的大语言模型展现出越来越强的生成能力和应用潜力,人们对于大模型技术对人类社会秩序和安全的威胁的担心也越来越强。文本水印技术可以帮助人们判定和识别AI生成的文本,这可以有效防止AI生成文本被滥用或者恶意使用。但是,我们指出当前的文本水印技术只能编码1比特的信息到文本中(即该文本是否由某一特定模型生成),这无法适用于更加复杂多变的实际场景。所以,我们首次提出了可编码文本水印的概念,旨在将更多比特的定制化信息(例如编码厂商,模型版本,文本生成时间,UserID(不暴露用户真实隐私前提下)等等)编码进文本携带的水印中,以此实现更精细的AI文本识别和溯源。基于此,我们首先提出了一套衡量可编码文本水印算法效率的评价体系。此外,为了缓解当前水印算法在每一步生成时随机划分词表而大幅降低生成文本质量的缺陷,我们提出了一种新的基于小型代理模型预测的等概率词表划分方法。实验证明我们的改进方法在植入相同比特信息水印的设定下,实现了更高的水印植入成功率、更高的生成文本质量,以及具有更好的抗文本修改鲁棒性。
论文题目:ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
作者:秦禹嘉,梁世豪,叶奕宁,朱昆仑,严澜,卢雅西,林衍凯,从鑫,唐相如,钱比尔,赵思涵,弘劳拉,田润初,谢若冰,周杰,马克·杰斯顿,李大海,刘知远,孙茂松
通讯作者:林衍凯,刘知远,孙茂松
论文概述:尽管开源的大型语言模型(LLM),例如LLaMA,已经取得了进步,但它们在使用外部工具(API)来完成人类指令的能力方面仍然有待加强。这是因为当前的指令微调技术主要关注基本语言任务,而忽视了工具使用能力。这与最先进的闭源LLM(例如ChatGPT)的出色工具使用能力形成了鲜明对比。为了弥补这一差距,我们提出了ToolLLM,一个通用的工具使用框架,包括数据构建、模型训练和评估。我们提出了ToolBench,这是一个针对工具使用的指令调优数据集。此外,为了评估LLM的工具使用能力,我们开发了一个自动评估器:ToolEval。基于ToolBench,我们对LLaMA进行了微调,得到了一个ToolLLaMA,并为其配备了一个神经API检索器,以推荐每个指令的合适API。实验表明,ToolLLaMA展现出了执行复杂指令的显著能力,并能泛化到未见过的API,其表现与ChatGPT相当。我们的ToolLLaMA还在APIBench中展示了强大的零样本泛化能力。
论文题目:Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
作者:胡锦毅,姚远,王崇屹,王珊,潘寅旭,陈乾瑜,余天予,吴航昊,赵越,张皓烨,韩旭,林衍凯,薛娇,李大海,刘知远,孙茂松
论文概述:最近,多模态大模型得到了快速发展,但这些模型主要都面向英文,其他非英文语言的多模态能力显著落后,一个主要原因是缺少相应的非英文语言的高质量图文数据。在这项工作中,我们提出了一种针对非英文多模态大模型的有效训练范式MPM。MPM证明了基于多语言大模型进行多模态对齐训练,可以实现多模态能力的高效跨语言泛化。在文生图和图生文的任务上,通过纯英文图文数据训练,可以零样本迁移到其他语言上,甚至好于基于本地图文数据训练的模型。基于MPM,我们构建了中英文多模态大模型VisCPM,在中文图像到文本和文本到图像生成任务上取得了良好效果,相关模型开源于https://github.com/OpenBMB/VisCPM。
论文题目:Predicting Emergent Abilities with Infinite Resolution Evaluation
作者:胡声鼎,刘鑫,韩旭,张新荣,贺超群,赵威霖,林衍凯,丁宁,欧泽彬,曾国洋,刘知远,孙茂松
论文概述:对大语言模型进行规模扩展需要全面了解它们的规模化特性。然而,现有工作对规模化特性的研究仅针对预训练损失,任务性能的规模化定律还没有进行探索。任务性能通常在小模型上不太明显,直到模型参数量超过一定规模后才会显著提升,这体现了大模型“能力涌现”的特点。在本工作中,我们发现,尽管小模型展现性能较差,它们随着参数量增长存在一致的任务性能提升,但由于任务评价分辨率不足,未能被传统评估方法捕捉。我们引入了PassUntil,一种理论上具有无限分辨率的评估策略,可以通过在解码阶段的大规模抽样实现,并基于PassUntil对任务性能的规模化定律进行了研究。