发布日期:2025-09-02 07:15 点击次数:114

新浪科技讯 5月7日晚间音讯,新浪科技获悉,腾讯技能团队针对DeepSeek开源的DeepEP通讯框架进行深度优化,使其在多种网罗环境下均竣事权贵性能晋升。经测试,优化后的通讯框架性能在RoCE网罗环境晋升100%云开体育,IB网罗环境晋升30%,为企业开展AI大模子检会提供更高效的责罚有诡计。该技能有诡计赢得了DeepSeek公开致谢,称这是一次“huge speedup”代码孝敬。
自本年2月DeepSeek开源包括DeepEP在内的五大代码库以来,该团队便向业界展示了何如诈欺有限的硬件资源竣事接近万卡集群的性能。在这些技能中,DeepEP凭借碎裂性的身手晋升了300%的通讯效果,收效责罚了MoE架构大模子对英伟达NCCL的依赖问题。但该技能在老本较低、适用面更广的RoCE网罗环境中发达欠安,罢昭着其在更世俗场景的应用。这一痛点激发了开源社区的握续究诘。
据悉,腾讯星脉网罗团队在DeepEP开源后便伸开技能攻关,发现两大枢纽瓶颈:一是关于双端口网卡带宽诈欺率不及,二是CPU界限面交互存在时延。
在腾讯的技能优化下,DeepEP不仅在RoCE网罗竣事性能翻倍,反哺到IB(InfiniBand)网罗时更使原有通讯效果再晋升30%。
现在,该技能已全面开源,并收效应用于腾讯混元大模子等技俩标检会推理,在腾讯星脉与H20行状器构建的高性能环境中,这套有诡计展现出出色的通用性。(文猛)
海量资讯、精确解读,尽在新浪财经APP
背负裁剪:何俊熹 云开体育