LLM 推理优化:Sparse MoE 与推测解码实战

解读最新论文,探讨如何在保持模型能力的同时大幅提升推理速度。