中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

刚刚,字节豆包大模型团队官宣!攻克了关键技术!

3月10日,字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。

据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

入选顶级会议MLSys 2025

据了解,MoE是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。以海外主流模型Mixtral-8x7B为例,其训练过程中通信时间占比可高达40%。

针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025 ,被认为“在大规模生产环境中极具应用潜力”。

COMET与Deepseek研发的DualPipe方案还可以联合使用。在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DualPipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

目前,COMET支持多种MoE并行模式,部署灵活、方便。同时,COMET核心代码已开源,并向开发者提供了一套友好的Python API,计划兼容Triton等编译生态。

近期国内大模型研发技术快速获得突破,相关APP下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿,DeepSeek在中国区苹果应用商店免费APP下载排行榜首,第二名是豆包,第三名是腾讯元宝。

最新辟谣

3月10日,寒武纪-U(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。

有市场消息称,字节跳动向寒武纪下单4万颗580芯片,单价2.5万元,总价值合计10亿元。

对此,字节跳动相关负责人表示,消息不实。

近期一度爆火的Manus也传曾婉拒字节的投资。

据报道,开发出Manus的中国创业公司——Monica,在2024年年初曾经与字节进行过一轮收购谈判。当时字节出价3000万美元,但因为远远达不到创始人肖弘的心理价位,这次谈判最终不欢而散。

接近Monica内部的从业者表示,字节收购的逻辑是以3000万美元的价格收购团队,将其团队和产品整合到豆包体系中,但是Monica进入字节后就会跟字节大模型战略绑定,就丧失了Monica产品上的独特优势。这也是肖弘及其团队不看好这场收购的主要原因。目前Monica估值接近1亿美元。

对此,截至目前,字节跳动并未给予回应。

传抖音将接入豆包大模型

近期有消息称,抖音APP正在测试接入豆包APP的AI能力,为用户带来更加丰富多元的智能体验。

在测试版本中,抖音为豆包APP开放了两个超级入口:一个置于短视频界面,与点赞、评论、转发等功能并列;另一个则放在抖音的消息列表内,使AI技术与社交功能深度融合,进一步强化了用户互动体验。

此前,豆包APP虽然具备对话、创作及图像生成等功能,但用户需要离开抖音APP才能使用,这在一定程度上,也限制了豆包大模型的使用频率。

而通过将豆包直接嵌入抖音的两个重要入口,抖音APP将直接打通豆包大模型中成熟的AI功能,用户无需跳转即可使用AI服务,这不仅能强化抖音自身的AI能力,实现流量与功能的深度绑定,还能通过抖音庞大的用户基数为豆包导流,推动“AI生态闭环”的建设。

此外,抖音接入豆包还可以延长用户在抖音的停留时间,增加流量和用户黏性,为广告、电商等传统业务提供更大空间。

来源:e公司

声明:数据宝所有资讯内容不构成投资建议,股市有风险,投资需谨慎。

责编:周莎

未经允许不得转载: 中意资讯网 » 刚刚,字节豆包大模型团队官宣!攻克了关键技术!