写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:196637

评论

发布
暂无评论

介绍一种对 SAP GUI 里的收藏夹事务码管理工具增强的实现方案

汪子熙

SAP abap SAPGUI 企业管理软件 7月月更

龙蜥社区开源 coolbpf,BPF 程序开发效率提升百倍

OpenAnolis小助手

Linux 开源 内核 龙蜥技术 BPF

陈宇(Aqua)-安全->云安全->多云安全

火线安全

云安全 云安全技术 云安全研究

刘对(火线安全)-多云环境的风险发现

火线安全

云安全 云安全技术 云安全研究

6年技术迭代,阿里全球化出海&合规的挑战和探索

阿里技术

阿里巴巴 最佳实践 方法论 全球化

洞态在某互联⽹⾦融科技企业的最佳落地实践

火线安全

漏洞检测 IAST

如何看待国企纷纷卸载微软Office改用金山WPS?

优秀

wps office办公软件

JVM有哪些类加载机制?

源字节1号

软件开发

孔松(信通院)-数字化时代云安全能力建设及趋势

火线安全

云安全 云安全技术 云安全研究

web前端培训Docker入门指南

@零度

Docker 前端开发

当你真的学会DataBinding后,你会发现“这玩意真香”!

编程的平行世界

JetPack andiod

SpringSecurity的初始化流程

急需上岸的小谢

7月月更

SAP 智能机器人流程自动化(iRPA)解决方案分享

汪子熙

SAP 业务流程自动化 7月月更 企业自动化 iRPA

[Ljava.lang.Object;是什么?

okokabcd

Java

2022上半年英特尔有哪些“硬核创新”?看这张图就知道了!

科技之家

开源者的自我修养|为 ShardingSphere 贡献了千万行代码的程序员,后来当了 CEO

SphereEx

开源 代码 ShardingSphere

Linux设备驱动1:硬件基础

贾献华

7月月更

大数据培训 | Scala语言知识分享,直击面试

@零度

scala 大数据开发

leetcode 322. Coin Change 零钱兑换(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

一文读懂TDengine的窗口查询功能

TDengine

tdengine 时序数据库

Java培训 | 详解 Linux 中的权限,这一篇就够了

@零度

Linux JAVA开发

使用强大的DBPack处理分布式事务(PHP使用教程)

峨嵋闲散人

分布式事务 分库分表 读写分离 seata dbmesh

研发效能度量框架解读

思码逸研发效能

研发效能 效能度量

向Spring框架学习设计模式

慕枫技术笔记

设计模式 spring框架 7月月更

数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

Baidu AICLOUD

大数据 数据仓库 数据湖 对象存储 湖仓一体

学会使用LiveData和ViewModel,我相信会让你在写业务时变得轻松🌞

编程的平行世界

JetPack Andriod

直播带货系统软件开发,Android和iOS的区别在哪里?

开源直播系统源码

ios开发 Android开发 直播带货系统 原生开发 混合开发

SpringBoot工程创建Swagger文档并自动生成调用代码

百家饭隐私计算平台创业者

JavaScript Spring Boot swagger

焱融看 | 混合云时代下,如何制定多云策略

焱融科技

存储 文件存储 混合云 多云

60 个前端 Web 开发流行语你都知道哪些?

海拥(haiyong.site)

前端 Web 7月月更

进入前六!博云在中国云管理软件市场销量排行持续上升

BoCloud博云

云原生 cmp 云管理

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章