大模型推理速度的瓶颈,正在被一项新的系统工程创新打破。 6月28日,DeepSeek与北京大学团队联合发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,提出了一套名为DSpark的大模型推理加速框架。论文披露,DSpark已进入DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview的生产服务系统,并替代了此前的MTP-1方案。 在线上真实用户流量中,在系统总吞吐水平相同的情况下,DSpark将DeepSeek-V4-Flash的单用户生成速度提升了60%至85%,将DeepSeek-V4-Pro的单用户生成速度提升了57%至78%。这意味着,用户等待AI回复时的“挤牙膏”感将大幅缓解。






