写点什么

90 后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面 Kimi 正被大厂“围剿”

  • 2024-03-25
    北京
  • 本文字数:3384 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”

上周,月之暗面(Moonshot AI)公司宣布旗下对话式 AI 助理产品 Kimi 应用现已支持 200 万字无损上下文输入。去年 10 月发布时,Kimi 仅支持 20 万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k 公布的数字约 10 万汉字,百川智能发布的 Baichuan2-192K 能够处理约 35 万个汉字。


因为在长上下文窗口技术上取得突破,月之暗面这款产品 Kimi 在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi 概念股”:近来因 Kimi 概念被市场高度关注的九安医疗,3 月 20 日—22 日,股票交易异常波动,收盘价格涨幅偏离值累计超 20%。


Kimi 之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。


长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。


在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而 Kimi 正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi 的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21 日下午,月之暗面旗下大模型应用 kimi 的 APP 和小程序均无法正常使用。


此前,月之暗面发布情况说明:从 2024.3.209:30:00 开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 2024.3.2010:00:00 开始,有较多的 SaaS 客户持续的体验到 429:engineisoverloaded 的异常问题,并对此表示深表抱歉。


公开资料显示,月之暗面成立于 2023 年 4 月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超 10 亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达 25 亿美元(约合人民币 180 亿元),是国内最主要的大模型独角兽之一。


然而,就在 Kimi 风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了 1000 万字的长文本处理能力,这一数字远超 Kimi 目前能提供的 200 万字长文本处理能力。


360 公司也不甘示弱,其 360 智脑开始内测 500 万字的长文本处理功能,并计划将其整合至 360AI 浏览器中。


百度作为国内互联网巨头之一,也宣布计划在下月推出 200 万至 500 万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?


AI 前线采访了某大模型研发公司一位技术专家 Jack,他是 Kimi 的第一批注册用户,使用的是月之暗面宣传的 20k 上下文的模型。


据 Jack 表示,“Kimi 最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”


“比如进行文章辅助阅读时,Kimi 对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”


某数据平台公司技术专家 Petter 表示自己也曾测试过 Kimi,当时他充值了 50 元钱测试了 Web 版本和 API,让 Peter 觉得有趣的是充值系统竟然是银行转账。


Petter 称:“Kimi Web 版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”


“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而 Kimi 的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?


长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。


可以看出,在大模型技术不断更新的如今,并不是 Kimi 一家在长文本处理能力上下足了功夫。


今年 2 月初,谷歌发布了 Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。


根据官方披露,Gemini1.5 Pro 将上下文窗口容量提到了 100 万 token(极限为 1000 万 token),远远超出了 Gemini 1.0 最初的 32000 个 token,此前的 SOTA 模型也才将上下文窗口容量提高到了 20 万 token。


这意味着 Gemini1.5 Pro 可以自如地处理 22 小时的录音、超过十倍的完整的 1440 页的书(587,287 字)《战争与和平》,以及四万多行代码、三小时的视频。


凭借超长上下文理解能力,Gemini 1.5 Pro 得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。


当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5 上下文输入长度从 4 千增长至 1.6 万 token,GPT-4 从 8 千增长至 3.2 万 token;Anthropic 一次性将上下文长度打到了 10 万 token;LongLLaMA 将上下文的长度扩展到 25.6 万 token,甚至更多。


大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?


Petter 表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。


就此问题 AI 前线还采访了某数据库厂商的技术专家 Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。


Lucky 表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”


在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。


从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的 Kimi Chat 目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用 AI 应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。


对于长文本未来的发展趋势,Petter 也坦言,就像现在内存从 64k 发展到了普通 PC 的 128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与 Kimi 合作


月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是 90 后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年 2 月,该公司完成了一笔巨额融资,以超过 10 亿美元的 B 轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约 25 亿美元。


Kimi 的火爆,引发相关概念股震动。截至 3 月 21 日收盘,华策影视 20cm 涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超 5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。


与此同时,市场上也出现“这些企业是否和 Kimi 有合作”的疑问。近日,多家上市公司回应了相关问题。


中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。


海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入 Kimi Chat;卫宁健康表示自研医疗大模型 WiNGPT 目前未用到 Kimi 相关技术;中广天择也发公告表示目前公司和 Kimi 没有合作。


在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入 Kimi 语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。


月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi 智能助手背后的同款大模型 API 接入到自己的产品或服务中。


值得注意的是,3 月 20 日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。


特别说明:此文章中的提到的技术专家 Jack、Petter 和 Lucky 均为化名。

2024-03-25 16:215153
用户头像
李冬梅 加V:busulishang4668

发布了 1054 篇内容, 共 668.4 次阅读, 收获喜欢 1214 次。

关注

评论 1 条评论

发布
用户头像
概念股也太概念了,做为客户都能沾光,笑死了
2024-03-29 14:40 · 北京
回复
没有更多了
发现更多内容

ECS公网连接指南:精明选择公网IP计费策略

极客天地

云端简易指南:快速启动与管理您的ECS实例

极客天地

日立公司采用元太科技电子纸实现了无纸化营运

财见

敏捷开发:想要快速交付就必须舍弃产品质量?

敏捷开发

项目管理 Scrum 敏捷开发 产品研发 研发

解锁TikTok直播专线,提高使用体验

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 tiktok直播网络

保障校园网络安全用堡垒机的几个原因分析

行云管家

网络安全 数据安全 堡垒机 等保合规 校园

如何轻松管理你的海外主机?实用技巧大公开!

一只扑棱蛾子

海外主机

同城双活:交易链路的稳定性与可靠性探索

得物技术

Java 后端 中间件 双活

聊聊我做测试开发的十年心路历程

阿里技术

测试 开发

山东省正规等保测评机构名称以及地址一览表

行云管家

等保 山东 等级保护 等保测评

OLAP性能再获突破!火山引擎ByteHouse性能白皮书发布

极客天地

一站式大数据开发与治理产品实践

Jackchang234987

元数据 大数据平台 数据开发平台 数据中台数据治理

分享一些大数据处理算法

宇文辰皓

大数据

软件测试学习笔记丨Allure2 报告中添加附件(视频)

测试人

软件测试

最新 Apifox 3 月更新:详解多分支升级、Query 参数支持枚举、自定义快捷键

Apifox

程序员 Apifox API 接口工具 API 工具

“专业敏捷教练课程” 6月1-2日 · CSP-SM认证周末班【晋升高阶享多重福利】

ShineScrum

比 MyBatis 效率快 100 倍...

Java技术精选

更轻松地部署和升级 NGINX Service Mesh

NGINX开源社区

nginx Kubernetes Helm Service Mesh 服务网格 mTLS

深入理解精准测试理论与技术:揭秘测试技术的核心原理

测吧(北京)科技有限公司

测试

库存控制秘诀:鞋服品牌如何避免库存积压风险

第七在线

软件测试学习笔记丨Allure2报告中添加附件-日志

测试人

软件测试 测试开发

阿里云实时计算Flink的产品化思考与实践【上】

Apache Flink

大数据 flink 实时计算

SpringBoot集成ElasticSearch,实现模糊查询,批量CRUD,排序,分页,高亮...

Java技术精选

新版Redis不再“开源”,对使用者都有哪些影响?

华为云开发者联盟

数据库 redis 华为云 华为云开发者联盟 华为云GeminiDB

TikTok直播专线是什么?有什么用?

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 海外直播网络

中国 10 亿参数规模以上大模型数量已超 100 个;GitHub 推出代码自动修复工具丨 RTE 开发者日报 Vol.172

声网

是什么阻碍了你的成长

老张

个人成长 职场成长

ChatTuGraph:通过大模型“与图对话”

TuGraphAnalytics

graph FineTuning Text2GQL

亚马逊云科技携手埃森哲、Anthropic助力企业打造负责任的AI

财见

90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”_生成式 AI_李冬梅_InfoQ精选文章