写点什么

90 后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面 Kimi 正被大厂“围剿”

  • 2024-03-25
    北京
  • 本文字数:3384 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”

上周,月之暗面(Moonshot AI)公司宣布旗下对话式 AI 助理产品 Kimi 应用现已支持 200 万字无损上下文输入。去年 10 月发布时,Kimi 仅支持 20 万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k 公布的数字约 10 万汉字,百川智能发布的 Baichuan2-192K 能够处理约 35 万个汉字。


因为在长上下文窗口技术上取得突破,月之暗面这款产品 Kimi 在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi 概念股”:近来因 Kimi 概念被市场高度关注的九安医疗,3 月 20 日—22 日,股票交易异常波动,收盘价格涨幅偏离值累计超 20%。


Kimi 之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。


长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。


在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而 Kimi 正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi 的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21 日下午,月之暗面旗下大模型应用 kimi 的 APP 和小程序均无法正常使用。


此前,月之暗面发布情况说明:从 2024.3.209:30:00 开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 2024.3.2010:00:00 开始,有较多的 SaaS 客户持续的体验到 429:engineisoverloaded 的异常问题,并对此表示深表抱歉。


公开资料显示,月之暗面成立于 2023 年 4 月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超 10 亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达 25 亿美元(约合人民币 180 亿元),是国内最主要的大模型独角兽之一。


然而,就在 Kimi 风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了 1000 万字的长文本处理能力,这一数字远超 Kimi 目前能提供的 200 万字长文本处理能力。


360 公司也不甘示弱,其 360 智脑开始内测 500 万字的长文本处理功能,并计划将其整合至 360AI 浏览器中。


百度作为国内互联网巨头之一,也宣布计划在下月推出 200 万至 500 万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?


AI 前线采访了某大模型研发公司一位技术专家 Jack,他是 Kimi 的第一批注册用户,使用的是月之暗面宣传的 20k 上下文的模型。


据 Jack 表示,“Kimi 最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”


“比如进行文章辅助阅读时,Kimi 对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”


某数据平台公司技术专家 Petter 表示自己也曾测试过 Kimi,当时他充值了 50 元钱测试了 Web 版本和 API,让 Peter 觉得有趣的是充值系统竟然是银行转账。


Petter 称:“Kimi Web 版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”


“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而 Kimi 的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?


长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。


可以看出,在大模型技术不断更新的如今,并不是 Kimi 一家在长文本处理能力上下足了功夫。


今年 2 月初,谷歌发布了 Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。


根据官方披露,Gemini1.5 Pro 将上下文窗口容量提到了 100 万 token(极限为 1000 万 token),远远超出了 Gemini 1.0 最初的 32000 个 token,此前的 SOTA 模型也才将上下文窗口容量提高到了 20 万 token。


这意味着 Gemini1.5 Pro 可以自如地处理 22 小时的录音、超过十倍的完整的 1440 页的书(587,287 字)《战争与和平》,以及四万多行代码、三小时的视频。


凭借超长上下文理解能力,Gemini 1.5 Pro 得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。


当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5 上下文输入长度从 4 千增长至 1.6 万 token,GPT-4 从 8 千增长至 3.2 万 token;Anthropic 一次性将上下文长度打到了 10 万 token;LongLLaMA 将上下文的长度扩展到 25.6 万 token,甚至更多。


大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?


Petter 表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。


就此问题 AI 前线还采访了某数据库厂商的技术专家 Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。


Lucky 表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”


在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。


从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的 Kimi Chat 目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用 AI 应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。


对于长文本未来的发展趋势,Petter 也坦言,就像现在内存从 64k 发展到了普通 PC 的 128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与 Kimi 合作


月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是 90 后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年 2 月,该公司完成了一笔巨额融资,以超过 10 亿美元的 B 轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约 25 亿美元。


Kimi 的火爆,引发相关概念股震动。截至 3 月 21 日收盘,华策影视 20cm 涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超 5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。


与此同时,市场上也出现“这些企业是否和 Kimi 有合作”的疑问。近日,多家上市公司回应了相关问题。


中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。


海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入 Kimi Chat;卫宁健康表示自研医疗大模型 WiNGPT 目前未用到 Kimi 相关技术;中广天择也发公告表示目前公司和 Kimi 没有合作。


在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入 Kimi 语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。


月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi 智能助手背后的同款大模型 API 接入到自己的产品或服务中。


值得注意的是,3 月 20 日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。


特别说明:此文章中的提到的技术专家 Jack、Petter 和 Lucky 均为化名。

2024-03-25 16:214858
用户头像
李冬梅 加V:busulishang4668

发布了 979 篇内容, 共 583.8 次阅读, 收获喜欢 1136 次。

关注

评论 1 条评论

发布
用户头像
概念股也太概念了,做为客户都能沾光,笑死了
2024-03-29 14:40 · 北京
回复
没有更多了
发现更多内容

如何在VMware Workstation虚拟机上快速部署AntDB社区版

亚信AntDB数据库

数据库 AntDB数据库 企业号 6 月 PK 榜

tidb变更大小写敏感问题的总结

TiDB 社区干货传送门

集群管理 故障排查/诊断

见“芯”知著,浅析北斗芯片关键技术

江湖老铁

FinClip | 来看看5月的成绩单吧

FinClip

微服务架构中的数据一致性:解决方案与实践| 得物技术

得物技术

微服务 数据一致性

为什么 Serverless 能提升资源利用率?

阿里巴巴云原生

阿里云 Serverless 云原生

# 文盘Rust -- tokio绑定cpu实践

TiDB 社区干货传送门

开发语言

【TiDB Future App Hackathon 2023 】TiDB 首届全球黑客马拉松,开发者的狂欢夏日盛会!快来一起 Coding 吧!

TiDB 社区干货传送门

洋洋洒洒2000字带你了解微服务高并发知识:Sentinel的特性

互联网架构师小马

Java 微服务 sentinel

2023年甘肃省等级保护测评机构新鲜出炉!

行云管家

等保 等级保护 甘肃

北京云管平台采购选哪家?为什么?多少钱?

行云管家

云计算 多云管理 云管平台 云管平台厂商

MIAOYUN“一云多芯”解决方案获评2023西部信创优秀解决方案

MIAOYUN

解决方案 信创 信创生态 MIAOYUN 一云多芯

v7.1.0 Resource Control 功能测试

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

专访泛境科技:如何借助3DCAT实时云渲染打造元宇宙解决方案

3DCAT实时渲染

元宇宙 元宇宙解决方案 元宇宙实时云渲染

Testng和Junit5多线程并发测试对比

javalover123

Java 单元测试 JUnit testNG junit5

微服务高并发流量服务降级、限流、熔断、流量效果控制

互联网架构师小马

Java 微服务

提示工程七巧板:让ChatGPT发挥出最佳性能

博文视点Broadview

微服务高并发基础知识:Sentinel性能压测

互联网架构师小马

Java 微服务 sentinel

Vue-路由的props配置

张三丰无极

6 月 优质更文活动

Vue-命名路由

张三丰无极

6 月 优质更文活动

终极指南:Scrum中如何设置需求优先级

敏捷开发

项目管理 Scrum 敏捷开发 优先级

Vue-<router-link>的replace属性

张三丰无极

6 月 优质更文活动

v7.1 LTS Resource Control 试用

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

普通Java工程师如何成长为一名优秀的架构师?

程序员小毕

程序人生 高并发 架构师 java程序员 java面试

MobPush 消息重弹

MobTech袤博科技

5分钟了解Kubernetes Ingress和Gateway API

俞凡

架构 云原生 网络

Vue-缓存路由组件

张三丰无极

6 月 优质更文活动

微服务高并发概念与核心类:了解Sentinel的一些概念

互联网架构师小马

Java 微服务 sentinel

Vue-路由的params参数

张三丰无极

6 月 优质更文活动

分布式数据库 Join 查询设计与实现浅析 | 京东云技术团队

京东科技开发者

MySQL 数据库 elasticsearch join 企业号 6 月 PK 榜

Vue-路由传递query参数两种方式

张三丰无极

6 月 优质更文活动

90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”_生成式 AI_李冬梅_InfoQ精选文章