大语言模型的推理优化是今年最热门的研究方向之一。本文解读两篇重要的最新论文。
Sparse MoE:稀疏专家混合
核心思想
传统 MoE 所有专家都参与计算,Sparse MoE 只激活与输入相关的专家:
传统 MoE: 全部 K 个专家都参与
Sparse MoE: 只激活 Top-K 个相关专家
性能收益
- 推理速度提升 2-3 倍
- 保持模型能力不下降
- 显存占用显著降低
推测解码:Speculative Decoding
工作原理
- 使用小模型快速生成候选 tokens
- 大模型并行验证这些 tokens
- 接受正确的 tokens,拒绝错误的
实际效果
# 伪代码示例
small_output = small_model.generate(draft_tokens)
verified = large_model.verify(small_output, draft_tokens)
final_output = accept_correct_tokens(verified)
论文推荐
- “Sparse MoE as an Alternative to Dense LLMs” - 2026
- “Speculative Decoding for Production LLMs” - 2026
实践建议
- 对延迟敏感的场景优先考虑推测解码
- 对话机器人适合 Sparse MoE
- 两者可以结合使用