写点什么

90 后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面 Kimi 正被大厂“围剿”

  • 2024-03-25
    北京
  • 本文字数:3384 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”

上周,月之暗面(Moonshot AI)公司宣布旗下对话式 AI 助理产品 Kimi 应用现已支持 200 万字无损上下文输入。去年 10 月发布时,Kimi 仅支持 20 万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k 公布的数字约 10 万汉字,百川智能发布的 Baichuan2-192K 能够处理约 35 万个汉字。


因为在长上下文窗口技术上取得突破,月之暗面这款产品 Kimi 在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi 概念股”:近来因 Kimi 概念被市场高度关注的九安医疗,3 月 20 日—22 日,股票交易异常波动,收盘价格涨幅偏离值累计超 20%。


Kimi 之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。


长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。


在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而 Kimi 正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi 的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21 日下午,月之暗面旗下大模型应用 kimi 的 APP 和小程序均无法正常使用。


此前,月之暗面发布情况说明:从 2024.3.209:30:00 开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 2024.3.2010:00:00 开始,有较多的 SaaS 客户持续的体验到 429:engineisoverloaded 的异常问题,并对此表示深表抱歉。


公开资料显示,月之暗面成立于 2023 年 4 月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超 10 亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达 25 亿美元(约合人民币 180 亿元),是国内最主要的大模型独角兽之一。


然而,就在 Kimi 风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了 1000 万字的长文本处理能力,这一数字远超 Kimi 目前能提供的 200 万字长文本处理能力。


360 公司也不甘示弱,其 360 智脑开始内测 500 万字的长文本处理功能,并计划将其整合至 360AI 浏览器中。


百度作为国内互联网巨头之一,也宣布计划在下月推出 200 万至 500 万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?


AI 前线采访了某大模型研发公司一位技术专家 Jack,他是 Kimi 的第一批注册用户,使用的是月之暗面宣传的 20k 上下文的模型。


据 Jack 表示,“Kimi 最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”


“比如进行文章辅助阅读时,Kimi 对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”


某数据平台公司技术专家 Petter 表示自己也曾测试过 Kimi,当时他充值了 50 元钱测试了 Web 版本和 API,让 Peter 觉得有趣的是充值系统竟然是银行转账。


Petter 称:“Kimi Web 版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”


“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而 Kimi 的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?


长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。


可以看出,在大模型技术不断更新的如今,并不是 Kimi 一家在长文本处理能力上下足了功夫。


今年 2 月初,谷歌发布了 Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。


根据官方披露,Gemini1.5 Pro 将上下文窗口容量提到了 100 万 token(极限为 1000 万 token),远远超出了 Gemini 1.0 最初的 32000 个 token,此前的 SOTA 模型也才将上下文窗口容量提高到了 20 万 token。


这意味着 Gemini1.5 Pro 可以自如地处理 22 小时的录音、超过十倍的完整的 1440 页的书(587,287 字)《战争与和平》,以及四万多行代码、三小时的视频。


凭借超长上下文理解能力,Gemini 1.5 Pro 得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。


当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5 上下文输入长度从 4 千增长至 1.6 万 token,GPT-4 从 8 千增长至 3.2 万 token;Anthropic 一次性将上下文长度打到了 10 万 token;LongLLaMA 将上下文的长度扩展到 25.6 万 token,甚至更多。


大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?


Petter 表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。


就此问题 AI 前线还采访了某数据库厂商的技术专家 Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。


Lucky 表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”


在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。


从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的 Kimi Chat 目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用 AI 应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。


对于长文本未来的发展趋势,Petter 也坦言,就像现在内存从 64k 发展到了普通 PC 的 128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与 Kimi 合作


月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是 90 后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年 2 月,该公司完成了一笔巨额融资,以超过 10 亿美元的 B 轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约 25 亿美元。


Kimi 的火爆,引发相关概念股震动。截至 3 月 21 日收盘,华策影视 20cm 涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超 5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。


与此同时,市场上也出现“这些企业是否和 Kimi 有合作”的疑问。近日,多家上市公司回应了相关问题。


中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。


海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入 Kimi Chat;卫宁健康表示自研医疗大模型 WiNGPT 目前未用到 Kimi 相关技术;中广天择也发公告表示目前公司和 Kimi 没有合作。


在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入 Kimi 语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。


月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi 智能助手背后的同款大模型 API 接入到自己的产品或服务中。


值得注意的是,3 月 20 日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。


特别说明:此文章中的提到的技术专家 Jack、Petter 和 Lucky 均为化名。

2024-03-25 16:215012
用户头像
李冬梅 加V:busulishang4668

发布了 1003 篇内容, 共 617.4 次阅读, 收获喜欢 1178 次。

关注

评论 1 条评论

发布
用户头像
概念股也太概念了,做为客户都能沾光,笑死了
2024-03-29 14:40 · 北京
回复
没有更多了
发现更多内容

什么是云服务?

anyRTC开发者

音视频 WebRTC 云服务 RTC

什么是低代码(Low-Code)?

移动研发平台EMAS

工具 研发效能 低代码 开发 代码

DàYé的CTO姗姗学步路

曲水流觞TechRill

管理 CTO

CSS 排版与正常流 —— 重学CSS

三钻

CSS 排版

synchronized 到底该不该用

古时的风筝

Java synchronized

Jira停售Server版政策客观解读——如何最小化风险?

爱吃小舅的鱼

项目管理 研发管理 Jira Atlassian

IoT企业物联网平台,从设备端到云端业务系统全链路开发实战

不吃米饭

阿里云 最佳实践 物联网 IoT

科普干货|漫谈鸿蒙LiteOS-M与HUAWEI LiteOS内核的几大不同

华为云开发者联盟

华为 鸿蒙 IoT

一次 Java 进程 OOM 的排查分析(glibc 篇)

996小迁

Java 编程 架构 面试 计算机

《垃圾回收的算法与实现》.pdf

田维常

垃圾回收

前嗅教你大数据——什么是代理IP?

前嗅大数据

爬虫 数据采集 静态IP 代理IP 动态IP

分布式事务太繁琐?官方推荐Atomikos,5分钟帮你搞定

互联网应用架构

分布式事务 springboot

太赞了!腾讯T3-3架构师整理了5000页的Java学习手册免费开放下载

Java架构之路

Java 程序员 架构 面试 编程语言

Dubbo 接口,导出 Markdown ,这些功能 DocView 现在都有了!

程序员小航

markdown idea插件 IntelliJ IDEA 文档生成 Doc View

#不吐不快# CV千千条,修改最重要。代码不规范,伙伴两行泪!

程序员小航

奇葩的经历 不吐不快

高性能利器!华为云MRS ClickHouse重磅推出!

华为云开发者联盟

数据库 Clickhouse MRS

Nginx-技术专题-技术介绍

洛神灬殇

区块链,音乐,流媒体和版税

CECBC

区块链 艺术

MySQL从库维护经验分享

Simon

MySQL 主从复制

【活动回顾】WebRTC服务端工程实践和优化探索

ZEGO即构

WebRTC 服务端工程

圆通快递回应内鬼泄露用户信息:严打数据倒卖灰色产业

石头IT视角

小学妹问我:如何利用可视化工具排查问题?

田维常

可视化

SpringBoot:整合Swagger3.0与RESTful接口整合返回值(2020最新最易懂)

比伯

Java 编程 架构 面试 计算机

【涂鸦物联网足迹】涂鸦云平台消息服务—顺带Pulsar简单介绍

IoT云工坊

人工智能 物联网 云服务 Apache Pulsar 云平台

SQL数据库:窗口函数

正向成长

窗口函数

Glide.with(view)挂在了谁的生命周期上

mengxn

生命周期 Glide Activity Fragment

#不吐不快# 三观很正的Boss,你遇到过么?

架构精进之路

职场成长 奇葩的经历 不吐不快

一瞬间让我秒变“快男”!腾讯内部强推Java性能优化手册,快了不止一点点。

Java架构追梦

Java 架构 jdk 面试 性能优化

年轻人不讲武德不仅白piao接口测试知识还白piao接口测试工具会员

测试人生路

接口测试

云原生2.0时代下,DevOps实践如何才能更加高效敏捷?

华为云开发者联盟

云计算 数字化 华为云

区块链在债券市场如何应用

CECBC

区块链 债券

90后清华学霸带队、成立不足一年估值破百亿元,“狂卷”长文本的月之暗面Kimi 正被大厂“围剿”_生成式 AI_李冬梅_InfoQ精选文章