News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

「常识蒸馏」+SFT,可得「推理」否?

DeepSeek R1 的技巧讲演验证了常识蒸馏+SFT的方式可能让小模子取得优胜的推理才能。这种看似极具性价比的计划激发了大批存眷跟分析。因为业界对蒸馏的工艺跟下限尚未构成共鸣,因而也带来了对该技巧更为体系的摸索任务。目次01. 「常识蒸馏」+SFT 做推理模子,究竟是「端庄方式」仍是「投契取巧」 ?极具性价比的蒸馏+SFT 真的能进步年夜模子的推理才能吗?...02. 蒸馏+SFT 虽适用,但 bug 也不小?常识蒸馏+SFT 的范围性由何而来?...03. 蒸馏也有 Scaling Law?什么才是蒸馏后果晋升的要害?蒸馏存在什么情形下才有性价比?...01 「常识蒸馏」+SFT 做推理模子,究竟是「端庄方式」仍是」投契取巧」 ?1、蒸馏技巧在年夜模子范畴普遍应用,且近期在 DeepSeek R1 的技巧讲演中获得了尤为显明的功效。① 在 R1 的技巧讲演中,DeepSeek 团队展现了他们怎样经由过程蒸馏将 R1 模子的推理才能迁徙到更小的麋集模子中,并让这些模子取得优胜的推理才能。② 研讨者将 DeepSeek-R1 作为老师模子,经由过程其天生的 800K 样本作为练习属于,用其对 6 个在 AI 社区中普遍应用的范围较小的麋集模子(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 跟 Llama-3.3-70B-Instruct)停止 SFT,并失掉了 DeepSeek-R1-Distill-Qwen-7B 等 6 个蒸馏后的模子。③ 蒸馏后的模子在推理义务上表示杰出。比方,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基准测试中到达了 55.5%的 pass@1 分数,超越了 QwQ-32B-Preview。2、R1 所采取的「蒸馏」方式指应用较强模子蒸馏出高品质样本,进而用于较小模子的 SFT,从而使较小的模子取得更强才能的操纵。① 这种方式经由过程老师采样天生序列,以 SFT 的方法练习先生模子,因而也被称为硬蒸馏(Hard Distillation)或「蒸馏+SFT」。3、这种蒸馏技巧在 o1 模子复现任务跟 LLaMA 系列等任务中均被验证过无效性,固然存在版权争议,但在产业利用场景被视为一种性价比极高的计划。① 此前,有任务发明 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模子年夜多存在差别水平的蒸馏。② 这种技巧的性价比表现在用强盛的模子天生高品质数据,让企业打造更精致化的垂直营业模子,或是让研讨者经由过程数据复现更强的推理模子,推进学术停顿。4、以 R1 任务为代表的结果证实了高品质数据除了让蒸馏失掉的小模子取得范畴常识,还能进一步晋升推理才能,因而激发了很多摸索。① 上海交年夜的研讨者在 LIMO 任务中阐述了小模子的推理才能能够经由过程经心计划的大批样本激起出来,而不是简略地经由过程大批的数据练习取得。② 该任务假设预练习阶段曾经片面编码了范畴常识的基本模子中,庞杂的推理才能能够经由过程少少量但经心计划的认知进程示例(即高品质 CoT)来激起。③ 该任务用 817 条经心计划的练习样本微调 Qwen2.5-32B-Instruct 失掉的 LIMO 模子实现了 AIME 2024 基准测试中正确率从 6.5%到 57.1%的晋升,在 MATH 500 基准测试中实现了从 59.2%晋升至 94.8%。④ 李飞飞的 s1 任务同样采取大批高品质数据微调 Qwen2.5-32B-Instruct,实现超越 o1-preview 的推理才能。02 蒸馏+SFT 虽适用,但 bug 也不小?DeepSeek R1 的技巧讲演固然展现了蒸馏 SFT 对小模子推理才能晋升的无效性,且须要比强化进修更少的盘算资本。但该任务同样夸大假如要超出智能的界限,可能依然须要更强盛的基本模子跟更年夜范围的强化进修...... 存眷
Tel
Mail
Map
Share
Contact