Transformer后继有模!MSRA提出全新大模型基础架构:推理速度

来源:IT之家   发布时间:2023-07-18 14:04:42   阅读量:6576  

微软大模型新架构,正式向 Transformer 发起挑战!论文标题明晃晃地写道:

Retentive Network:大模型领域 Transformer 的继任者。

论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:

RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构,成为大语言模型中 Transformer 的有力继承者。

而实验数据也显示,在语言建模任务上:

  • RetNet 可以达到与 Transformer 相当的困惑度

  • 推理速度达 8.4 倍

  • 内存占用减少 70%

  • 具有良好的扩展性

并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。

Transformer 果真“后继有模”了?具体详情,一起来看。

解决“不可能三角”

Transformer 在大语言模型中的重要性毋庸置疑。无论是 OpenAI 的 GPT 系列,还是谷歌的 PaLM、Meta 的 LLaMA,都是基于 Transformer 打造。

但 Transformer 也并非完美无缺:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为 O;Transformer 是内存密集型模型,序列越长,占用的内存越多。

在此之前,大家也不是没想过继续改进 Transformer。但主要的几种研究方向都有些顾此失彼:

  • 线性 attention 可以降低推理成本,但性能较差;

  • 循环神经网络则无法进行并行训练。

也就是说,这些神经网络架构面前摆着一个“不可能三角”,三个角代表的分别是:并行训练、低成本推理和良好的扩展性能。

RetNet 的研究人员想做的,就是化不可能为可能。

具体而言,RetNet 在 Transformer 的基础上,使用多尺度保持机制替代了标准的自注意力机制。

与标准自注意力机制相比,保持机制有几大特点:

  • 引入位置相关的指数衰减项取代 softmax,简化了计算,同时使前步的信息以衰减的形式保留下来。

  • 引入复数空间表达位置信息,取代绝对或相对位置编码,容易转换为递归形式。

另外,保持机制使用多尺度的衰减率,增加了模型的表达能力,并利用 GroupNorm 的缩放不变性来提高 retention 层的数值精度。

RetNet 的双重表示

每个 RetNet 块包含两个模块:多尺度保持模块和前馈网络(FFN)模块。

保持机制支持以三种形式表示序列:

  • 并行

  • 递归

  • 分块递归,即并行表示和递归表示的混合形式,将输入序列划分为块,在块内按照并行表示进行计算,在块间遵循递归表示。

其中,并行表示使 RetNet 可以像 Transformer 一样高效地利用 GPU 进行并行训练。

递归表示实现了 O 的推理复杂度,降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来,RetNet 就使得“不可能三角”成为可能。以下为 RetNet 与其他基础架构的对比结果:

在语言建模任务上的实验结果,进一步证明了 RetNet 的有效性。

结果显示,RetNet 可以达到与 Transformer 相似的困惑度。

同时,在模型参数为 70 亿、输入序列长度为 8k 的情况下,RetNet 的推理速度能达到 Transformer 的 8.4 倍,内存占用减少 70%。

在训练过程中,RetNet 在内存节省和加速效果方面,也比标准 Transformer+FlashAttention 表现更好,分别达到 25-50% 和 7 倍。

值得一提的是,RetNet 的推理成本与序列长度无关,推理延迟对批量大小不敏感,允许高吞吐量。

另外,当模型参数规模大于 20 亿时,RetNet 的表现会优于 Transformer。

研究团队

RetNet 的研究团队,来自微软亚研院和清华大学。共同一作为孙宇涛和董力。

孙宇涛,清华大学计算机系本科,现在在微软亚研院实习。

董力,微软亚研院研究员。他也是此前引发大量关注的“能记住 10 亿 token 的 Transformer”的论文作者之一。

RetNet 论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人,10 亿 token Transformer 亦是来自他的研究团队。

论文地址:

广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

为你推荐

火速护盘!当天制定回购方案,当天下场买股!上市公司真金白银看好后市

火速护盘!当天制定回购方案,当天下场买股!上市公司真金白银看好后市

4月25日,不少上市公司在下跌中果断实施回购。25日晚间,恒瑞医药、建霖家居、劲嘉股份等公司纷纷公告在盘中实施了回购;威...更多

2022-04-26 01:11:00
人弃我取时间已到!券商首席一致看多,A股迎接反攻时刻?

人弃我取时间已到!券商首席一致看多,A股迎接反攻时刻?

4月25日,上证指数重挫逾5%,失守3000点,创下2020年7月以来新低。盘后,券商中国记者采访了多位券商策略、宏观分...更多

2022-04-26 01:11:00
实实在在赚钱了!2021年收入增34%,这家公司要冲击“纯SaaS业务模

实实在在赚钱了!2021年收入增34%,这家公司要冲击“纯SaaS业务模

4月25日,新三板挂牌公司和创科技晒出了2021年“成绩单”,2021年实现收入1.45亿元,同比增长34%;经营现金流...更多

2022-04-26 01:00:00
高玩不买单了水冷头一哥EKWB裁员1/4:业绩持续暴跌

高玩不买单了水冷头一哥EKWB裁员1/4:业绩持续暴跌

虽然AIO一体式水冷很方便,但分体式水冷依然是目前散热最好、效果最炫的方案,只不过价格很贵,只有高玩才会折腾。然而这个高...更多

2022-04-26 00:38:00
IEEE发布首个供应链金融区块链国际标准蚂蚁集团牵头制定

IEEE发布首个供应链金融区块链国际标准蚂蚁集团牵头制定

,IEEE计算机协会区块链和分布式记账标准委员会召开全体会议,《基于区块链的供应链金融标准》正式发布。这是IEEE发布的...更多

2022-04-26 00:37:00
外媒预计在建设P3晶圆厂后三星电子还将在平泽建设P4晶圆厂

外媒预计在建设P3晶圆厂后三星电子还将在平泽建设P4晶圆厂

,据国外媒体报道,此前有报道称,三星电子2020年年中开始在韩国平泽建设的P3晶圆厂,将在下月开始设备的安装,设备的进入...更多

2022-04-26 00:35:00
万华化学首季净利降近两成2021年分红超78亿

万华化学首季净利降近两成2021年分红超78亿

25日盘后,万华化学披露2022年第一季度报告。一季度,公司在营业收入增超30%的情况下,净利润回落近两成。具体来看,一...更多

2022-04-26 00:35:00
盈利下滑、应收账款和现金流状况恶化!泽达易盛股价较高点已跌超八成

盈利下滑、应收账款和现金流状况恶化!泽达易盛股价较高点已跌超八成

董事长、财务总监协助调查,股价暴跌,业绩下滑,笼罩在泽达易盛头上的疑云久久不散。3月17日晚,泽达易盛发布重大事项公告,...更多

2022-04-26 00:34:00