News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

DeepSeek的MLA，恣意大模子都能轻松迁徙了

复旦 NLP 试验室博士后纪焘是这篇文章的第一作者，研讨偏向为年夜模子高效推理、多模态年夜模子，近期代表任务为首个NoPE外推HeadScale、留神力分块外推LongHeads、多视觉专家年夜模子MouSi，宣布ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。DeepSeek-R1 作为 AI 工业推翻式翻新的代表惊动了业界，特殊是其练习与推理本钱仅为等同机能年夜模子的数非常之一。多头潜伏留神力收集（Multi-head Latent At188BET亚洲体育投注tention, MLA）是其经济推理架构的中心之一，经由过程对键值缓存停止低秩紧缩，明显下降推理本钱 [1]。但是，现有主流年夜模子依然基于尺度留神力架构及其变种（e.g., MHA, GQA, MQA），推理本钱比拟 MLA 浮现明显优势。使预练习的恣意 LLMs 疾速迁徙至 MLA 架构而无需重新预练习，这既有严重意思又存在挑衅性。复旦 NLP 试验室、华东师年夜、上海 AI Lab、海康威视结合提出 MHA2MLA 框架，经由过程局部 RoPE 保存（Partial-RoPE）跟键值结合表现低秩近似（Low-rank Approximation）两个要害步调，胜利将恣意 MHA/GQA 架构迁徙到 MLA。

现在，MHA2MLA 已位列

News

DeepSeek的MLA，恣意大模子都能轻松迁徙了

Tel

Mail

Map

Share

Contact