3月10日,字节豆包大模子团队官宣开源一项针对MoE架构的关节优化时代,可将大模子磨练恶果栽植1.7倍九游体育娱乐网,老本从简40%。
据悉,该时代已本色愚弄于字节的万卡集群磨练,累计匡助从简了数百万GPU小时磨练算力。
入选顶级会议MLSys 2025
据了解,MoE是刻下大模子的主流架构,但其在散播式磨练中存在大齐跨设备通讯支拨,严重制约了大模子磨练恶果和老本。以国外主流模子Mixtral-8x7B为例,其磨练历程中通讯时辰占比可高达40%。
针对这一穷困,字节在里面研发了COMET计较-通讯重迭时代,通过多项翻新,大幅压缩了MoE各人通讯空转时辰。
相较DeepSeek近期开源的DualPipe等MoE优化决策,COMET不错像插件相通平直接入已有的MoE磨练框架,撑执业界绝大部分主流大模子,无需对磨练框架进行侵入式转换。该责任以5/5/5/4的高分入选环球机器学习系统顶级会议MLSys 2025 ,被合计“在大限制坐褥环境中极具愚弄后劲”。
COMET与Deepseek研发的DualPipe决策还不错荟萃使用。在裁减MoE通讯支拨上,COMET聘任了计较-通讯交融算子的优化面容,DualPipe则通过排布算子来覆盖通讯,两种决策并不冲突,讨好使用或将更大幅度压缩模子磨练老本。
当今,COMET撑执多种MoE并行阵势,部署无邪、便捷。同期,COMET中枢代码已开源,并向开发者提供了一套友好的Python API,贪图兼容Triton等编译生态。
近期国内大模子研发时代快速赢得冲突,关系APP下载量也飞速增长。下载量排名成为外界不雅察各家大模子实用材干最平直的窗口。收尾发稿,DeepSeek在中国区苹果愚弄商店免费APP下载名次榜首,第二名是豆包,第三名是腾讯元宝。
最新辟谣
3月10日,寒武纪(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。
有商场音信称,字节跨越向寒武纪下单4万颗580芯片,单价2.5万元,总价值所有10亿元。
对此,字节跨越关系认真东说念主示意,音信空虚。
近期一度大火的Manus也传曾婉拒字节的投资。
据报说念,开发出Manus的中国创业公司——Monica,在2024年年头还是与字节进行过一轮收购考虑。其时字节出价3000万好意思元,但因为远远够不上首创东说念主肖弘的心扉价位,此次考虑最终不欢而散。
接近Monica里面的从业者示意,字节收购的逻辑所以3000万好意思金的价钱收购团队,将其团队和居品整合到豆包体系中,可是Monica参预字节后就会跟字节大模子政策绑定,就丧失了Monica居品上的专有上风。这亦然肖弘额外团队不看好这场收购的主要原因。当今Monica估值接近1亿好意思元。
对此,收尾当今,字节跨越并未赐与讲述。
传抖音将接入豆包大模子
近期有音信称,抖音App正在测试接入豆包App的AI材干,为用户带来愈加丰富多元的智能体验。
在测试版块中,抖音为豆包App灵通了两个超等进口:一个置于短视频界面,与点赞、驳斥、转发等功能比肩;另一个则放在抖音的音信列表内,使AI时代与搪塞功能深度交融,进一步强化了用户互动体验。
此前,豆包App天然具备对话、创作及图像生成等功能,但用户需要离开抖音App才能使用,这在一定进度上,也限制了豆包大模子的使用频率。
而通过将豆包平直镶嵌抖音的两个蹙迫进口,抖音App将平直买通豆包大模子中熟悉的AI功能,用户无需跳转即可使用AI工作,这不仅能强化抖音本人的AI材干,完结流量与功能的深度绑定,还能通过抖音繁密的用户基数为豆包导流,激动“AI生态闭环”的开荒。
此外,抖音接入豆包还不错蔓延用户在抖音的停留时辰,增多流量和用户粘性九游体育娱乐网,为告白、电商等传统业务提供更大空间。