在东谈主工智能的寰宇里,追思是一个不朽的话题。无论是东谈主类的短期追思也曾恒久追思,齐在咱们的学习和决策中上演着至关首要的变装。但是,关于AI模子来说,怎样有用地追思和处理海量数据一直是一个广漠的挑战。传统的Transformer模子天然刚硬,但在处理长高下文时濒临着狡计复杂度和内存花费的瓶颈。目下,Google Research的科学家们提议了一种全新的神经集合架构——Titans,它不仅八成高效地追思历史信息,还能在测试时动态学习和淡忘,确实收场了AI的“恒久追思”。
论文地址:Titans: Learning to Memorize at Test Time
在已往的十多年里,忖度东谈主员一直在探索怎样有用地行使轮回模子和防御力机制。轮回模子试图将数据压缩到一个固定大小的荫藏景色中,而防御力机制则允许模子温存统统这个词高下文窗口,捕捉统统标识之间的径直依赖干系。但是,这种精准的依赖干系建模带来了二次方的狡计老本,狂放了模子只可处理固定长度的高下文。
Titans的提议恰是为了处罚这一问题。它引入了一个新的神经恒久追思模块,八成学习追思历史高下文,并匡助防御力机制在行使已往信息的同期温存现时高下文。从追思的角度来看,Titans将防御力机制视为短期追思,而神经追思模块则充任恒久追思。基于这两个模块,Titans架构应时而生,并在话语建模、学问推理、基因组学和时辰序列任务中弘扬出色,高出了现存的Transformer和当代线性轮回模子。
在这一部分,论文领先先容了Titans架构的基础想法和配景知识。作家接头了防御力机制偏激高效变体,并转头了当代线性轮回模子。通过这些配景知识,作家提议了一个追思视角,解释了怎样假想更有用的架构。
防御力机制:Transformer模子的中枢是防御力机制,它通过狡计查询(query)、键(key)和值(value)之间的相似性来生成输出。尽管防御力机制在调回方面相称刚硬,但其狡计复杂度较高,尤其是在处理长序列时。
高效防御力机制:为了提高防御力机制的狡计效果,忖度东谈主员提议了多种变体,如寥落防御力、近似softmax和基于核的线性防御力。这些才智通过减少狡计量,使得模子八成处理更长的序列。
当代线性模子偏激追思视角:线性Transformer和线性轮回神经集合(RNN)通过压缩历史数据到一个固定大小的矩阵或向量中来收场高效的狡计。但是,这种压缩花式在处理相称长的高下文时可能会导致信息丢失。因此,作家提议了一个重要问题:什么样的追思结构是好的? 以及怎样假想一个有用的追思更新和检索机制?
在这一部分,作家细心先容了Titans的中枢组件——神经恒久追思模块(neural long-term memory module)。这个模块八成在测试时动态学习和淡忘信息,从而收场对历史高下文的有用追思。
为了假想一个八成追思历史高下文的神经追思模块,作家提议了一个基于“惊喜”决议的更新机制。具体来说,当一个输入与模子的预期不符时,它被以为是“惊喜”的,从而更容易被追思。作家通过狡计输入联系于模子的梯度来量度这种“惊喜”,并使用梯度下跌法来更新追思。
为了加快磨真金不怕火进程,作家提议了一种并行化算法,行使矩阵乘法来高效地更新追思。这种才智不仅减少了狡计复杂度,还能充分行使硬件加快器(如TPU和GPU)的性能。
除了恒久追思模块,Titans还引入了一个抓久追思模块,用于存储任务有关的知识。这些参数是孤立于输入数据的,八成在不同任务中分享,从而提高了模子的泛化才智。
在这一部分,作家探求了怎样将神经追思模块有用地融入到深度学习架构中。Titans架构由三个主要模块构成:中枢模块、恒久追思模块和抓久追思模块。作家提议了三种不同的变体,辞别将追思模块当作高下文、门控机制和层来使用。
在这种架构中,追思模块被视为现时信息的高下文。模子通过查询追思模块来检索与现时高下文有关的历史信息,并将其与抓久追思参数一谈输入到防御力模块中。
在这种变体中,模子径直使用输入数据来更新恒久追思,并通过滑动窗口防御力机制来处理现时高下文。这种假想将滑动窗口防御力视为精准的短期追思,而神经追思模块则充任渐进的恒久追思。
在这种架构中,神经追思模块被用作深度神经集合的一层。这种假想访佛于将轮回模子与防御力机制相连,但Titans通过将追思模块与防御力模块分离,收场了更高效的数据处理。
在这一部分,作家通过一系列履行考据了Titans在多个任务中的弘扬,包括话语建模、学问推理、基因组学和时辰序列瞻望。
作家在履行中使用了三种Titans变体(MAC、MAG、MAL)以及单独的神经追思模块(LMM),并与现存的Transformer和线性轮回模子进行了对比。履行数据集包括Wikitext、LMB、PIQA、HellaSwag、WinoGrande等。
在话语建模任务中,Titans在统统变体中齐弘扬出了优于现存模子的性能,尤其是在处理长高下文时。Titans的神经追思模块在困惑度(perplexity)和准确率(accuracy)方面均获取了最好收获。
在针在干草堆(Needle in a Haystack)任务中,Titans展示了其在长高下文中的超卓弘扬。与现存模子比较,Titans八成更有用地从长文本中检索出重要信息,尤其是在高下文长度逾越2M时。
在BABILong基准测试中,Titans在少样本和微调建造下均弘扬出了优于现存模子的性能,致使逾越了GPT-4等大型模子。
作家还探求了追思深度对模子性能的影响。履行完了标明,跟着追思深度的加多,模子在处理长序列时的弘扬权贵普及,但磨真金不怕火速率会有所下跌。
在时辰序列瞻望任务中,Titans的神经追思模块相通弘扬出了优于现存模子的性能,尤其是在恒久瞻望任务中。
在DNA建模任务中,Titans的神经追思模块与现存的首先进模子比较弘扬出了竞争力,进一步解释了其在非天然话语任务中的后劲。
在效果方面,Titans的磨真金不怕火模糊量与现存模子特殊,尤其是在处理长序列时弘扬出色。
终末,作家通过消融忖度考据了Titans各个组件的孝顺。履行完了标明,权重衰减、动量、卷积和抓久追思等组件齐对模子的性能有权贵影响。
在本文中,作家提议了一种八成在测试时学习追思的神经恒久追思模块,并基于此假想了Titans架构。通过履行考据,Titans在多个任务中弘扬出了优于现存模子的性能,尤其是在处理长高下文时。Titans不仅八成膨胀到逾越2M的高下文窗口,还在准确率上高出了现存的Transformer和线性轮回模子。
Titans的收场基于PyTorch和JAX九游体育app官网,作家谋略在不久的畴昔公开代码,供忖度东谈主员和斥地者使用。