News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

DeepSeek的MLA,恣意大模子都能轻松迁徙了

复旦 NLP 试验室博士后纪焘是这篇文章的第一作者,研讨偏向为年夜模子高效推理、多模态年夜模子,近期代表任务为首个NoPE外推HeadScale、留神力分块外推LongHeads、多视觉专家年夜模子MouSi,宣布ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。DeepSeek-R1 作为 AI 工业推翻式翻新的代表惊动了业界,特殊是其练习与推理本钱仅为等同机能年夜模子的数非常之一。多头潜伏留神力收集(Multi-head Latent At188BET亚洲体育投注tention, MLA)是其经济推理架构的中心之一,经由过程对键值缓存停止低秩紧缩,明显下降推理本钱 [1]。但是,现有主流年夜模子依然基于尺度留神力架构及其变种(e.g., MHA, GQA, MQA),推理本钱比拟 MLA 浮现明显优势。使预练习的恣意 LLMs 疾速迁徙至 MLA 架构而无需重新预练习,这既有严重意思又存在挑衅性。复旦 NLP 试验室、华东师年夜、上海 AI Lab、海康威视结合提出 MHA2MLA 框架,经由过程局部 RoPE 保存(Partial-RoPE)跟键值结合表现低秩近似(Low-rank Approximation)两个要害步调,胜利将恣意 MHA/GQA 架构迁徙到 MLA。现在,MHA2MLA 已位列
Tel
Mail
Map
Share
Contact