微博
加入微博一起分享新鲜事
登录
|
注册
140
2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮… https://www.jiqiren.org.cn/zixun/%e6%9c%88%e4%b9%8b%e6%9a%97%e9%9d%a2-kimi-
请登录并选择要私信的好友
300
2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮… https://www.jiqiren.org.cn/zixun/%e6%9c%88%e4%b9%8b%e6%9a%97%e9%9d%a2-kimi-
赞一下这个内容
公开
分享
获取分享按钮
正在发布微博,请稍候