谨慎的扩散语言模型在放弃自尊时如何发展?

该文件的联合导演作者Yu Runpeng和Li Qi是新加坡国立大学XML研究所的博士生,其教练是Wang Xinchao。研究地址是大型多模式模型和可靠的深度模型。本文主要介绍XML团队的文档:大规模语言和多模型模型的个人传播:调查。论文中的链接:https://arxiv.org/pdf/2506.13759githubository:https://github.com/liqiii/dllm-survey中有大型诱导大型语言模型(LLM)和多元模型(MLLMS)。但是,当人们看到更快,更可控制和更聪明的一代范式时,就会出现新兴路径:谨慎的扩散。这篇综述系统地组织了在离散传播地址中的研究图,并在许多领域的应用中提出进步,例如理由,代表性模型,培训和离散扩散语言模型(DMLLM)(DMLLM)(DMLLM)以及推理,愿景和生物学y。框架结构的局限性和内容的自我返回以及图1中回顾的离散扩散的增加,在大型传统模型中使用自我抑制体系结构(AR)。从左到右的右至右方法的单词是自然的,但具有重要的性能瓶颈。它不能并行解码。控制输出是困难的,并且仅限于入口的静态感知,并且建模功能不足以完成和推断。这限制了需要结构化控制和动态感知的复杂场景中的性能。离散扩散模型打破了此范式。它没有通过单词来预测单词,而是将世代作为“更改掩码”的迭代过程,并在全球护理机制的帮助下处理所有平行的令牌,从而实现基人的感知。该设计提供了三个核的优势。平行解码:平行解码是最重要的字符离散扩散模型的ISTIC和优势。并行推理允许单独的差分来解码每次迭代中的多个令牌,从而提高解码速度。输出和完全控制:掩模:训练解密机制,每个响应都预设了响应的长度,格式和结构,这使您可以为响应建立模板。动态感知:在全球护理机制下左代币模型的处理受右令牌的影响。多次迭代的解码机制允许对所有令牌进行处理几次。这允许DLLM和DMLM用于多个有条件的动态感知,而不是仅被感知一次,例如单向关注。图2自我 - 弹簧模型和谨慎扩散模型的比较,离散传播语言模型的典型数学基础D3PM框架(离散扩散概率模型)是许多离散扩散的数学模型的起点。 D3PM在谨慎的时间和谨慎的状态空间中提供Markov模型。整个模型由两个双重过程组成:一个正向传播过程和一个反向消除过程。在进度过程中,原始序列逐渐被与不同扩散行为相对应的噪声表示。例如,统一的转移摧毁了一个令牌的类似尊敬。吸收传输图将所有令牌转移到特定令牌[mask]。因此,使用可吸收状态转移的传播过程也称为掩模扩散,这是DLLM和电流DMLLM中最常用的类别。此外,基于集成的相似性,还有一个传播矩阵,带角或离散的高斯转移,以提高语义空间或局部结构中的建模能力。以几种格式,其转移机制是从一系列反向过程中学到的e时间依赖性转换矩阵,并了解如何消除阶跃以恢复高质量的文本。一般的。训练期间的损耗函数来自变化的下限(ELBO)。掩盖的扩散框架还允许将损失功能简化为加权掩盖语言建模损失。反向传递的概率与转移到原始令牌概率分布的概率结合构建。基于D3PM神经元网络,连续的时间传播模型将单个时间步骤概括为连续时间步骤,并在连续的时间内在谨慎的状态空间中构建Markov过程。 calify矩阵和乔尔(Joal)介绍了int概率比的乘积,概率比C是通过损失函数来学习的,例如得分重合和基于布雷格曼的差异的得分熵。离散的流量偶然介绍了流硬币的想法与谨慎的空间结合,并在特定原点的目的地和噪声分布之间建立了连续变化的概率途径。训练过程加速了在令牌水平上定义速度场的序列的产生,并加快了跨熵损失的优化。我将其分为矩阵的矩阵,以随时建模状态过渡。混凝土分数模型的离散传播语言模型的生态概述模型移动模型分离心语言矩阵图3离散扩散模型的发展历史,随着谨慎扩散语言模型(DLLM)(DLLM)的迅速增加,在此领域中出现在该领域中。与在不久的将来与LLM Self -Spring进行比较的大型离散扩散模型和多模式统一建模范式的扩展相比,在完全独立的技术途径中探索Livian模型。评论将大约划分当前模型分为四类的生态学:1。光模型:早期离散扩散模型的参数通常不超过1B,代表性的作品包括d3pm,rdm,rdm,nutdiffusion,nutdiffusion,tess,sedd,sedd,mdlm,mdlm,md4等。和多模式生成任务。 2. Great DLLM:技术成熟已导致多个任务将其传播体系结构扩展到超过10亿个参数,并完全了解语言和发电能力,从而构建了“非自动净模型”。代表性的模型包括Llada,Dillt/Diffflullama,Dream和更多系列。这项工作会大规模扩大传播语言模型的限制,并系统地探索工程的生存能力。 3。多模式扩展(DMLLM):在语言的能力变得越来越完美之后,研究人员开始探索DLLM在多模式任务中的适应性。典型的代表是:4。统一生成模型:谨慎频率的生存能力图像中生成的离子已经经过了很长时间的测试。改进的语言生成能力导致MMADA,FUDOKI和MULOS模型(例如DDIT)提供了统一的体系结构,该体系结构使用单独的扩散模型同时对神经元网络中的文本和视觉产生进行建模。 DLLM和DMLLM培训和推理技术不断发展,并伴随培训和推理技术的连续创新。该评论系统地组织并总结了现有模型中使用的中心方法,并不断收集并不断更新该领域的最新发展。训练技术传播的谨慎模型在培训过程中面临着一系列独特的挑战。这包括使用低语料库,长度偏差和随机时间抽样提供的低监督信号覆盖范围。为了解决这些问题,研究人员提出了各种创新的培训机制。以下类别主要总结在评论中S:初始化机制:使用经过训练的BERT或AR模型作为训练的起点,或者首先对模型进行训练,然后进行弥散训练。典型的模型包括难度,差异和凹痕。这种类型的初始化技术可以加速培训过程,确保模型的性能并通过有限的资源来实现培训的关键结果。互补掩蔽:为了提高语料库使用的效率,建立了一对互补的面具样本,并且掩模位置是相互排斥的,但是可以将它们组合起来以使所有令牌制成所有标记,从而解决了信息的小问题。典型的模型包括Lavida和困难。掩盖编程功能:睫毛膏编程功能确定在thetrawing过程中每个时间步中掩盖比的大小。在培训过程中,您可以为所有令牌配置统一的编程功能,或为每个令牌配置不同的编程功能。在线性编程中f联合性,掩模比率随时间线性变化,这使得令牌的数量在大约相等的步骤中增加了噪声。在凸编程函数中,掩码函数梯度的绝对值首先大,然后更小。 Reservasi陆军IMSTEP并不大,该模型可以在训练过程中暴露于更大声的样本,并且还鼓励推断缓慢而快速移动,而在每个步骤中,第一个较小的代币数量都较小。再次测量策略:通过几个令牌调整损失函数的价值,以改善特定令牌的学习。例如,MGDM以损失的极大功能增加了令牌的重量,将注意力集中在困难的位置上并加速收敛。蒸馏:知识的蒸馏实现了推理步骤的压缩,将几个步骤的“教师模型”的知识传输到“学生模型”,并以更少的步骤传递。这些技术优化了PR从培训目标到使用数据初始化网络的狂欢训练过程,这允许DLLM在大型且更复杂的任务中保持稳定而有效的培训性能。图4口罩编程功能推断的几种技术。 DLLM和DMLLMS推理过程中的每个步骤都会在所有令牌中进行并行同步预测,并确定基于特定规则维护预测的位置。为了考虑质量和生产效率,研究人员提出了一套推理技术。以下类别主要总结在评论中:掩盖策略确定了“生成”的内容。在推论中,每回合中只有少数几个令牌预测,而Symmedy策略负责确定什么解决方案和哪些解决方案。解码位置是随机选择或基于度量的,其首选位置基于模型ReliabiliTY,负熵和其他度量。可以根据训练期间的编程函数来确定每个步骤中解码的令牌数量。如果使用由公制驱动的解码策略,则还可以使用一种解码算法,该算法信任动态调整以Tarkun阈值为单位的令牌数量。技术的还原实现了“固定”,并解决了吸收态扩散模型后“无法改变的限制”。稀有性使您可以再次将解码的令牌配置为掩盖,这使您可以进行注意计算中间,并有选择地更新它们以加速生成。 DLLM可以修改和控制的能力,逐渐构建非自治语言推论具有实际价值的范式。图5除了先前的内容(未遵守策略的结论)之外,本综述还介绍了DLLM和生物学,愿景,推理等方面的DMLLM探索未来发展地址。随着大型语言模型继续扩大限制,离散扩散模型(DLLM和DMLLM)为传统自我引用范式提供了强大的替代途径。平行解码,结构控制和动态感知等优点使我们能够在自我代表模型的效率和控制方面打破瓶颈。从基本理论到工程优化,多模式和跨域应用,离散扩散范式逐渐成熟。 @misc {yu2025dllmsurvey,title = {单独的语言和多模型模型},作者= {runpeng yu and qi li and qi li and xinchao wang},年= {2025},print = {2506.13759},Archivefrefix = {2506.13759} {2506.13756.13756.1356.1356。 url = {https://arxiv.org/abs/2506.13759},},}