当前位置：首页 » 前沿资讯 »

刚刚，字节豆包大模型团队官宣！攻克了关键技术！

创始人更新于 2025-03-10 21:26:18 首发于 2025-03-10 21:26:48 前沿资讯 0

3月10日，字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术，可将大模型训练效率提升1.7倍，成本节省40%。

据悉，该技术已实际应用于字节的万卡集群训练，累计帮助节省了数百万GPU小时训练算力。

入选顶级会议MLSys 2025

据了解，MoE是当前大模型的主流架构，但其在分布式训练中存在大量跨设备通信开销，严重制约了大模型训练效率和成本。以海外主流模型Mixtral-8x7B为例，其训练过程中通信时间占比可高达40%。

针对这一难题，字节在内部研发了COMET计算-通信重叠技术，通过多项创新，大幅压缩了MoE专家通信空转时间。

相较DeepSeek近期开源的DualPipe等MoE优化方案，COMET可以像插件一样直接接入已有的MoE训练框架，支持业界绝大部分主流大模型，无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025 ，被认为“在大规模生产环境中极具应用潜力”。

COMET与Deepseek研发的DualPipe方案还可以联合使用。在降低MoE通信开销上，COMET采用了计算-通信融合算子的优化方式，DualPipe则通过排布算子来掩盖通信，两种方案并不冲突，结合使用或将更大幅度压缩模型训练成本。

目前，COMET支持多种MoE并行模式，部署灵活、方便。同时，COMET核心代码已开源，并向开发者提供了一套友好的Python API，计划兼容Triton等编译生态。

近期国内大模型研发技术快速获得突破，相关APP下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿，DeepSeek在中国区苹果应用商店免费APP下载排行榜首，第二名是豆包，第三名是腾讯元宝。

最新辟谣

3月10日，寒武纪-U（688256.SH）股价午后出现拉升，一度涨超5%，收涨3.87%，报779元/股，总市值3252亿元。

有市场消息称，字节跳动向寒武纪下单4万颗580芯片，单价2.5万元，总价值合计10亿元。

对此，字节跳动相关负责人表示，消息不实。

近期一度爆火的Manus也传曾婉拒字节的投资。

据报道，开发出Manus的中国创业公司——Monica，在2024年年初曾经与字节进行过一轮收购谈判。当时字节出价3000万美元，但因为远远达不到创始人肖弘的心理价位，这次谈判最终不欢而散。

接近Monica内部的从业者表示，字节收购的逻辑是以3000万美元的价格收购团队，将其团队和产品整合到豆包体系中，但是Monica进入字节后就会跟字节大模型战略绑定，就丧失了Monica产品上的独特优势。这也是肖弘及其团队不看好这场收购的主要原因。目前Monica估值接近1亿美元。

对此，截至目前，字节跳动并未给予回应。

传抖音将接入豆包大模型

近期有消息称，抖音APP正在测试接入豆包APP的AI能力，为用户带来更加丰富多元的智能体验。

在测试版本中，抖音为豆包APP开放了两个超级入口：一个置于短视频界面，与点赞、评论、转发等功能并列；另一个则放在抖音的消息列表内，使AI技术与社交功能深度融合，进一步强化了用户互动体验。

此前，豆包APP虽然具备对话、创作及图像生成等功能，但用户需要离开抖音APP才能使用，这在一定程度上，也限制了豆包大模型的使用频率。

而通过将豆包直接嵌入抖音的两个重要入口，抖音APP将直接打通豆包大模型中成熟的AI功能，用户无需跳转即可使用AI服务，这不仅能强化抖音自身的AI能力，实现流量与功能的深度绑定，还能通过抖音庞大的用户基数为豆包导流，推动“AI生态闭环”的建设。

此外，抖音接入豆包还可以延长用户在抖音的停留时间，增加流量和用户黏性，为广告、电商等传统业务提供更大空间。

来源：e公司

声明：数据宝所有资讯内容不构成投资建议，股市有风险，投资需谨慎。

责编：周莎

未经允许不得转载：中意资讯网 » 刚刚，字节豆包大模型团队官宣！攻克了关键技术！