
Mamba提议者对变压器进行了挑战,以创建热门段语言的第一个模型,或者是一般基本模型的主要体系结构
资料来源:DeepTech在美国卡内基·梅隆大学(Carnegie Mellon University)担任助理教授,以及Cartesia的联合创始人,美国AI创业公司,Albert GU已被选为100 AI的时间,用于联合Mamba提案,这是建模订单的新建筑,还包括2025 Google Research Scholars计划。 丨阿尔伯特·古(Albert Gu)(来源:https://mement.epfl.ch/event/ai-center- x-cleaire-ml-fundamentals-seminar-seminar-comp-al////),他和他的韩国学生Huang Xijun(Sukjun Hwang)和中国田纳西亚团队的中国核心网络(sukjun Hwang)和最终的网络(heir)网络(heir)hierarch(h-n-n-n-n-n-n-n n-net), https://sukjunhwang.github.io/)建议注意到,作为中国人,布兰登·王(Brandon Wang)是相关帕帕尔(Reles Papel)的合着者,该公司是美国加利福尼亚州萨拉托加高中的毕业生。他最终赢得了金牌通过递归,依靠动态块(DC,动态分解)过程的数据来获得原始数据,该过程代表了第一个没有段的实际端到端段模型。该模型是通过单阶段动态块的。当字节级H-NET具有超过10亿的参数时,该任务的混淆和流程性能与基于字节对编码(BPE,字节对编码)分词的变压器模型可比。上下文相关的机制,因此可以显着提高建模能力。 H-NET采用了先前研究的层次结构,该层次与自动估计U-NET有些相似:首先,折磨数据是由小型编码器网络处理的;然后下样本并传递到在压缩块上运行的主要网络;最后,将样本并传递到运行原始分辨率的解码器网络。该模块化设计产生了自然处理的层次结构,其中外阶段获得了细粒度模式,WHILE内部阶段基于类似于传统粒子的粒状表示的操作。尽管主要网络包含大多数参数,但研究团队发现,通过使用状态空间模型(SSM,状态空间模型)可以显着改善编码器和解码器网络,因为SSM具有压缩的电感偏置。根据报道,H-NET核心在于采用新型动态块(DC,动态块)机制,该机制可以将主网络连接到编码器/解码器网络。在使用标准的不同优化算法时,您可以学习如何团结数据。阻止的动态技术由两种互补的新技术组成:首先,一个路由模块,通过标记的均匀性来预测相邻元素之间的边界;其次,使用路由模块的输出来插值表示,以减少不确定边界的影响并显着提高LE的能力Arn。研究团队还结合了以下创新技术:首先,集成 - 辅助辅助设计用于目标下采样率的新功能;其次,结合基于梯度的现代学习方法进行离散决策。基于此,DY允许动态块以完全端到端的方式了解数据的压缩方法。研究团队还引入了几种架构和培训技术,以提高端到端处理过程中的稳定性和可扩展性。这些步骤包括:一方面,仔细设置投影层和归一化层,以平衡交互式子网之间的信号传播;另一方面,根据每一层批次的尺寸和有效大小的参数优化,这将变为层次结构的不同阶段。据报道,H-NET是动态的,将输入向量强迫基于CO的重要块通过研究在骨干网络上优化的细分方法来进行NTEXTUAL信息。从经验上讲,动态阻止模块自然会在类似于BPE单词分段器(4.5-5字节/块)的分辨率上压缩THEDATA,并且可以在整个过程中学习重要的边界,而无需外部监督或启发式。 ARXIV)以前的端到端方法在实践中具有不稳定。据了解,深入研究的一个通用目的是从原始数据中找出重要的模式,自动检索特征并以端到端的方式发展抽象概念。但是,固定的词汇分词 - 即通过算法(例如BPE)用预定的块压缩原始文本的过程,是在现代语言模型中通常是一个经济阶段的预处理步骤。单词段中有许多预先证实的缺陷:对水平的理解水平差,缺乏意义和可解释性,而IT的退化是复杂的语言,并且方式。使用单个端到端模型代替单词分词语言模型 - deword-de-de-de-word-topelacement过程更符合深度研究的本质。理想情况下,随着数据和参数的增加,它们的扩展功能变得更强。但是,该单词段仍然是语言模型和其他合规性数据的组成部分,因为它可以压缩和缩短依从性。迄今为止,借助可比的计算资源,未付费单词的段段的端到端单词都达到了基于段的语言性能级别的水平。最近的一系列研究开始努力克服自回归模型的单个段问题 - 遵循自回归,但这需要孤独感以一系列复杂的技术挑战。尽管培训的预测范围是理想的解决方案,但它们需要不支持的离散选择操作,这在根本上是一个具有挑战性的问题。因此,现有的端到端方法具有INS实践中的可操作性,使模型以更大的尺寸进行测量并嵌套层次结构。最初,建立没有细分段的体系结构需要将数据块过程直接集成到模型中,同时通过效率的挑战,了解的能力和在主要情况下的稳定性来克服。基于此,研究团队进行了这项研究。预计将成为纸质基本模型的主要体系结构的研究团队,如纸质asin补充解决单词分割问题所述,H-NET在各种情况下都改善了整体建模顺序。阻止是从低数据级别开发高水平抽象概念的过程,而在语言模型中的子词参与是阻止智能的一种特殊情况,也是智能的关键要素。更重要的是,由于H-NET完全是端到端,因此可以递归重复,并且主网络本身也可以是H-网。从直觉上讲,阻止的更多阶段代表了遵守的较高含义。由于字符可以与单词结合在一起,因此单词也可以与子句,句子甚至更复杂的单元相结合。因此,预防层次结构应更好地利用综合资源和参数,并更有效地降低压缩表示。研究团队说,H-NET代表了一种新模型的主要体系结构,不仅可以解决单词细分的问题,而且还发现并从原始数据中学到的抽象功能,从而开发了具有较少预处理的更高质量模型。当第一个阶段的H-NET在第二阶段级别迭代时,其性能将得到进一步提高,并且明显优于所有基线模型。不仅曲线更陡峭,而且在扩展数据方面的性能也更好。字节级的2阶段H-NET不仅仅是具有300亿字节的强词变压器,并且该空间继续扩展到Throug训练过程。同时,下工作评估的结果与分量变压器的大小是两倍。而且,由于编码器和H-NET解码器网络具有双重目标和计算要求,因此它们面临着独特的设计障碍。每个编码器必须同时同时提出以下两个点:首先,将剩余连接保留良好的信息以传递到相应的解码器;其次,输入压缩块具有更丰富的表示形式,以供主网络使用。同时,解码器应有效地将主要网络的粗粒表示形式与残留残差的细节相结合。同样重要的是,编码器和解码器对未压缩的合规性 - 遵循的行为,这使计算效率成为重要的设计强迫,这使研究团队的建筑选择无力。最近的研究表明,SSM PerfoRMS在处理细性数据(包括音频,DNA序列和机器人控制信号)的处理中很好。基于这些观点,研究团队采用了MAMA-2层作为编码器和解码器网络构建的主要区块。这种选择带来了两个重要的好处:一个是能够有效处理细粒度输入的能力,另一个是处理更长和非压缩序列时的效率大大提高。消融实验表明,基于SSM的编码器/解码器不仅要在字节级别上,而且在更粗糙的输入中也比变压器层要好得多,研究小组认为,这些输入归因于kanionsion归因于kanionsion归因于kanionly在压缩中的诱导性偏置,从而有助于开发抽象表示。该设计涵盖了两个基本原则:首先,压缩副词-Next提供了每个块,以提供更多的参数和计算资源;其次,提高处理强度的抽象水平较高的好处。这主要网络是作为通用语言模型工作,并可以采用任何采用 - 隔离混合体系结构。研究小组默认使用变压器层的使用是有两个原因:首先,压缩表示非常符合变压器在处理离散,语义丰富的令牌方面的好处;其次,可以使用传统的基于BPE的变压器基线不经验进行更受控的比较。但是,这种模块化设计还允许直接更换其他体系结构。与标准各向同性模型相比,ARXIV)H-NET结构引入了一些新的架构大小,以平衡每个网络计算的参数/分配。最终,H-NET实现了以下好处:首先,它具有巨大的稳定性:预先训练的H-NET明显优于基于变压器的单词,而无需特殊数据混合,这证明了包含Hellaswag基准套件的噪声。其次,它有一个出色的解释:通过对学习界限进行出色的视觉分析,研究团队发现,H-NET可以在没有明确管理的情况下自动识别语义单元。这证明,对端到端的研究可以成功地看到人造单词段传统上实施的结构模式。第三,它在其他语言中具有优势:H-NET带来的改进在语言中(包括中文和代码)更为重要。在Xwinograd-ZH数据集中,与基于单词参与的trans相比,H-NET标记从59.9增加到66.3。 DNA语言建模也是如此,该模型比各向同性模型高3.6倍。通常,H-NET极大地改善了单词分割的问题,并以多种语言和类似语言的方式表现出很强的表现。研究小组认为,预计它将成为一般基本模型的基本架构,允许这一点E模型以更少的处理来实现更好的研究。目前,它是开放式模型代码,预先训练的检查站是研究团队。参考:https://time.com/7012853/albert-gu/https://cartesia.ai/https://sukjunhwang.gith.gith.github.io/htttps ://wwwwwwwww.wwwwwww..linkedin.com/in/in/in/in/in/in/brwa/brwa/https:/https:/hhttps:/hhttps:/hhttps://https://bb r-wa.github.githb.io//--