报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

截胡 DeepSeek 开源周?Kimi 深夜首发开源模型,杨植麟参与,同计算量下好过 DeepSeek?

  • 2025-02-24
    北京
  • 本文字数:911 字

    阅读完需:约 3 分钟

大小:293.46K时长:01:40
截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?

2 月 23 日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了 MoE 模型 Moonlight( MIT 许可证),模型激活参数仅需 3B。


 

论文显示,月之暗面通过深度改造 Muon 优化器并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍且模型性能想相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token 上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”



月之暗面此次贡献主要在于:

 

  • Muon 有效扩展分析:月之暗面发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。

  • 高效分布式实现:团队开发了一个基于 ZeRO-1 优化的 Muon 分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。

  • Scaling Law 验证:月之暗面进行了 Scaling Law 研究,比较了 Muon 与 AdamW 的性能,结果显示 Muon 具有更优的表现。根据 Scaling Law 结果,Muon 在性能上与 AdamW 训练的对比模型相当,但训练所需的 FLOP 仅约为 AdamW 的 52%。

 


对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡 DeepSeek。2 月 21 日午间,DeepSeek 团队在 X 官方账号发布消息,下周将陆续完全开源 5 个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

 

根据媒体消息,QuestMobile 最新数据显示,DeepSeek App 以“零营销”姿态创造增长神话:上线至 2 月 9 日,累计下载量突破 1.1 亿次,周活跃用户最高触及 9700 万。这一成绩正在重塑行业竞争规则。

 

反观传统玩家的“重营销”策略遭遇寒冬。Kimi 过去一年投入近 9 亿元营销费用,每月营销预算高达 2 亿元,在小红书等平台大手笔投放,一度让 B 站"沦陷"。然而即便投入如此巨资,其日活规模仍未破千万,与 DeepSeek 短短数十天靠自然流量达到 3500 万日活形成鲜明对比。此外,豆包的投放规模据称是 Kimi 的数倍,Minimax 的 Talkie 在海外投入数千万美金,星野在国内市场也投入上亿元。


代码和实现:https://github.com/MoonshotAI/Moonlight

完整模型系列:https://huggingface.co/moonshotai

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

 

2025-02-24 10:196573

评论

发布
暂无评论

【Linux技术专题系列】「必备基础知识」一起探索和实践sftp配置之密钥方式登录

码界西柚

Linux SSH SSH工具 sftp

Python 内置界面开发框架 Tkinter入门篇 甲

eng八戒

Python GUI tkinter

工作这么多年,我总结的数据传输对象 (DTO) 的最佳实践

JAVA旭阳

Java 架构

开源移动核心网Magma架构设计启示

俞凡

架构 网络 通信

你知道哈希算法,但你知道一致性哈希吗?

JAVA旭阳

Java 架构

技术如何分担产品之忧?

石云升

极客时间 1月月更 技术领导力实战笔记

CleanMyMacX4.12.2最新版本更新下载

茶色酒

CleanMyMacX

复习前端:前端应掌握的网络知识

devpoint

OSI七层协议 http2 HTTPS协议加密

2022年终总结-无所吊谓

wood

年终总结 稳定 开心 普通的一年

复习前端:JavaScript V8 引擎机制

devpoint

chrome JIT V8

JSON.stringify() 的 5 使用场景

devpoint

JavaScript 前端开发 JSON格式化

【腾讯云AI】用1行Python代码识别增值税发票,YYDS

程序员晚枫

Python 人工智能 发票 OCR

架构误区系列12:一切皆依赖云平台

agnostic

云计算 部署架构

【Redis技术专区】「优化案例」谈谈使用Redis慢查询日志以及Redis慢查询分析指南

码界西柚

redis 性能调优 慢查询

从任务分配角度来看管理

石云升

极客时间 1月月更 技术领导力实战笔记

【PHP】英文博客专栏PHP快速入门个人笔记

懒时小窝

php

我们需要怎样的低代码平台

agnostic

低代码

水果软件2024FL Studio中文语言版本下载

茶色酒

FL Studio FL Studio 21

Portraiture2024汉化版磨皮插件下载

茶色酒

Portraiture2023 Portraiture

万字长文搞懂产品模式和项目模式

俞凡

团队管理

精华推荐 | 【JVM深层系列】「GC底层调优系列」一文带你彻底加强夯实底层原理之GC垃圾回收技术的分析指南(GC原理透析)

码界西柚

Java JVM JVM原理 2023

FPGA:硬件描述语言简介

timerring

FPGA

会声会影2023和谐版本补丁包下载

茶色酒

会声会影 会声会影2023

我总结了写出高质量代码的12条建议

JAVA旭阳

Java

如何快速优雅的用Know Streaming创建Topic

石臻臻的杂货铺

获取 topic等信息 后端、

CleanMyMac X2024汉化版安装包新增

茶色酒

CleanMyMac X CleanMyMac X2023

技术管理者如何获得下属的认同?

石云升

极客时间 1月月更 技术领导力实战笔记

关于环境变量配置的思考总结

timerring

Go 环境变量

极客时间运维进阶训练营第十二周作业

9527

架构误区系列11:无聊的架构归一

agnostic

架构治理

Studio One2024旗舰级DAW的跨版本升级

茶色酒

Studio One 5 Studio One2023

截胡DeepSeek开源周?Kimi深夜首发开源模型,杨植麟参与,同计算量下好过DeepSeek?_AI&大模型_褚杏娟_InfoQ精选文章