要闻 经济 栏目首页 聚焦 科技 连接 系统 产品 联想专题 资讯 金融 科技 理财 财经 知识 金融 游戏
首页 > > 正文

百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

2025-10-28 15:01:46来源:实况网

10 月 28 日,百度智能云宣布携手SGLang 社区,将一套针对DeepSeek-V3.2推理性能优化的 MTP(Multi-Token Prediction,多token预测)技术代码正式开源。SGLang 社区实测显示,采用这套技术, DeepSeek-V3.2 模型解码吞吐量能提升超过 2 倍。

据了解,这套技术代码来自于百度智能云内部百舸AI计算平台团队。代码开源之前也已经在百度内部核心业务中长期运行,性能与稳定性上均经过严苛考验。社区用户可以结合自身业务场景,“开箱即用”地使用这套代码能力。

今年年初,DeepSeek以低成本和高性能横空出世,迅速吸引全球科技圈关注。而MTP正是其实现这一效果的核心技术创新之一。

在DeepSeek之前,大模型和推理多采用传统的自回归解码方式,模型每次只生成一个 token,生成下一个时必须等待上一个完成。如同逐字输入,过程稳定但速度存在瓶颈。

MTP则采用的是批量生成、集中验证的机制。模型会一次性智能地推算出多个后续 token 作为候选,然后统一进行验证。这好比从逐字输入升级为智能联想输入,一次性能提供多个候选词句,从而大幅减少生成轮次,突破序列化瓶颈。

在训练阶段,MTP有助于大模型更好地理解词元之间的依赖关系,从而提升大模型整体性能;在推理阶段,MTP快速生成多个候选词元,并由主模型进行一次前向传播来验证和修正,从而实现推理加速。

作为模型的配套技术,MTP需要与大模型自身的架构保持深度适配。这也导致最新的 DeepSeek-V3.2由于采用了与过往不同的的 DSA(DeepSeek Sparse Attention,稀疏注意力)架构,使得此前适用于 DeepSeek 老版本的 MTP 代码无法直接复用于 DeepSeek-V3.2,急需全新的系统级优化和深度适配工作。

百度百舸团队此次开源的MTP 方案,与 DeepSeek-V3.2的 DSA架构进行了深度适配,并在百度集团内部业务中进行了生产级场景的完整验证。此次开源,使得 SGLang 社区开发者无需重复底层探索与试错,能够直接获得性能倍增且稳定可靠的推理能力。

未来,百度百舸团队将持续开源生产级别核心代码,方便中小企业及开发者快速、稳定、低成本地部署先进AI能力,加速创新落地。

百度百舸AI计算平台是百度智能云打造的面向大模型训推一体化的基础设施,可以从资源准备、模型开发、模型训练到模型部署,为AI工程全周期提供丰富特性和极致易用体验。今年8月,百度智能云正式发布百度百舸5.0,在网络、算力、推理系统,以及训推一体系统等四大方向上全面升级,并正式上线了昆仑芯超节点公有云服务。

代码地址:https://github.com/sgl-project/sglang/pull/11652



免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。


关键词:

推荐内容

热点
39热文一周热点