MiniMax 视频生成模型首秀！闫俊杰：大模型的研发核心是“快”_AI&大模型_褚杏娟

智能体刷屏的背后，是 AI 应用拐点的来临？AICon 北京站议程重磅公布，50+ 硬核分享不容错过了解详情 



 写点什么



1.0x 

大小：1.42M时长：08:16

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版，很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。

在 MiniMax 内部，多模态已经是一件非常确定的事情了。

“在人类社会，大模型的核心意义是做更好的信息处理，而大部分的信息体现在多模态内容里，而非文字上，文字很多时候只是其中精华的一小部分。”闫俊杰解释道。

“为了有非常高的用户覆盖度和使用深度，唯一的办法就是能够输出动态的内容，而非只输出单纯的文字内容，这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来，这两点是达成“Intelligence with Everyone”的核心，也是 MiniMax 的差异化能力。

用户方面，MiniMax 已经有了不错的成绩。据统计，MiniMax 每日与全球用户进行超 30 亿次交互，处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音，大模型日处理交互量排名国内 AI 公司首位。

但在视频生成赛道，MiniMax 的发布算不上早。闫俊杰对此的解释是，“我们在解决一个更难的技术问题：如何能够原生地训练算力比较高的东西。”

具体来说，首先，训练视频生成能力时也需要先把视频变成一些 token，视频变成的 token 非常长，越长复杂度就越高，MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。

其次，视频还很大，比如 5 秒的视频有几兆，而 5 秒看到的文字可能不到 1K，这是千倍的存储差距。因此，之前基于文本模型的基础设施，对视频模型来说是不适用的，这意味着要对基础设施进行升级。

“一两周新的东西出来，并达到我们更加满意的状态后，可能会考虑商业化。”闫俊杰表示。

“能带来数倍提升的技术才值得投入研发”

视频生成模型的研发更让闫俊杰坚定了一件事：无论是视频、文本还是声音，核心都不是让一个算法带来 5%、10% 的提升，重要的是找到提升数倍的方式，如果能够提升数倍就一定要做出来，如果只提升 5% 就不太值得做。

“从读书、工作，到现在创业，我对技术的理解慢慢变得非常简单，就是第一性原理。技术，特别是有很大研发投入的技术，追求的不应该是 10% 的提升，如果一个技术的提升只有 10%，那这个技术就不应该做，原因是你不做也会有人做或有人开源出来，其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。

“对创业来说，一块钱掰成几份来花是非常难的。像我们这样的创业公司，真正应该花钱做的研发是那种能够带来几倍变化的技术，这种东西很多时候如果我们自己不做，外面也没有，但对满足用户的需求又很重要，只能自己来做，这样的才是核心的东西。”闫俊杰说道。

那么，MiniMax 做大模型的核心是什么？

闫俊杰的答案是：快 = 好。

在率先判断出 MoE 技术路线后，MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构，MiniMax 大模型能在单位时间内更加高效地训练海量数据，极大地提升了模型的实用性和响应速度。

MiniMax 与 GPT-4o 同一代模型能力进行对比发现，新一代模型处理 10 万 token 时效率可提升 2-3 倍，并且随着长度越长，提升越明显。相比于通用 Transformer 架构，在 128K 的序列长度下，新架构成本减少 90% 以上。

“不管是做 MoE、Linear attention 还是其他的，本质上是让同样的效果模型变得更快，快才意味着同样的算力可以做得更好，这是我们最底层的研发思路。”闫俊杰说道。

“从实际应用上，就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容，这对用户的体验损伤比较大，如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。

“产品不赚钱是技术不够好”

目前，MiniMax 在国内 C 端的主打产品是星野和海螺 AI。

“当一个产品没人用或者不赚钱的时候，肯定不能怪用户，大部分时候只能怪自己的技术做得不够好，或者产品做得不够好。”闫俊杰说道。

因此，在闫俊杰看来，像基于 GPT-4 的 GPT Store 跑不通的根本原因，不是因为 Agent 的框架写得不够好，是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”

现在所有的模型错误率都是 20% 的量级，闫俊杰认为，真正发生变革的是有一个模型可以把错误率降低到个位数，这会让很多复杂的任务从“不可以”变得“可以”。

“当技术做得不好的时候，所有东西都是问题，当技术做好了，似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素，我觉得我花了两年才意识到这件事。”闫俊杰说道。

在闫俊杰看来，做技术是一件非常奢侈的事，这件事甚至只有创业的时候才会理解，因为做技术，可能会失败、投入也很大。当一个东西很奢侈时，很多时候就会想要不要走点捷径，比如不做技术，先把产品提升好等。

“实践经验证明，走捷径的时候会被打脸。”闫俊杰笑道。

目前，MiniMax 的商业化基本上分成两种模式：一是面向企业的开放平台，现在已经有两千多家的客户，包括互联网公司、传统企业等；二是在自有产品里设立广告机制进行变现。

“现阶段，最重要的还不是商业化，是真正地对技术到达广泛可用的程度。”闫俊杰表示。

对于国内市场，MiniMax 希望打造偏工具类的产品，比如会给海螺 AI 不断打磨出新的功能，直到产生了很强的用户粘性。“粘性构造起来后，我们才会考虑 ROI 和 Retention。这个飞轮转起来了，我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。

盛静远认为，这个 ROI 会有转起来的一天，但不是今天的产品形态。“作为一个普通消费者，今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品，这个模式是不成立的。”

但海外市场不太一样。海外企业更愿意付费，因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了，更多是公司的精力和资源，以及怎么变现的问题。海外市场有一套自己的打法，会相对地比较 straightforward，变现也更快。”

实际上，MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中，Talkie 位列 22 位。

盛静远总结道，任何伟大的 2 C 产品都是基于人性的深入思考，另外则要考虑 AI 在高容错率的情况下可以做什么，并变成大众喜闻乐见的产品。

结束语

大模型领域的竞争依然在继续。闫俊杰表现得比较淡然，“这就是一个发展的客观规律，作为一家创业公司，如果我们在竞争中打不赢，那我们就应该被淘汰，其实也没有其他的选择。”

在与大厂的竞争中，闫俊杰认为，要赢就要更快地看清非常底层的东西，“大公司开始跟你竞争时，就会意识到有些东西是没用的，因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情：一是提升技术；二是跟用户共创，这两点非常关键的判断是需要长期积累的。”

而对于国内的大模型价格战，闫俊杰认为确实非常大地提高了模型的调用量，本来认为大模型很贵的公司，包括很多传统的企业开始愿意使用大模型，因为成本低对出错的容忍度也会高一些。“正是激烈的竞争，推动了大家必须得把模型做好。一定阶段之后，大家会发现自己的模型在海外也有竞争力，比如东南亚等，至少目前已经在非英语国家的语种上跟 GPT 不相上下。”

“我们看到乐观的一面，国内大模型的使用量确实在显著地增长，并且中国的模型在海外确实越来越具有竞争力，我觉得这是两个积极的变化。”闫俊杰说道。

发布

暂无评论

创作场景

MiniMax 视频生成模型首秀！闫俊杰：大模型的研发核心是“快”

“能带来数倍提升的技术才值得投入研发”

“产品不赚钱是技术不够好”

结束语

评论

RVB2601应用开发实战系列二: 跑马灯

执行update语句，用没用到索引，区别大吗？

tomcat启动失败常见错误

云小课｜VMware备份上云学习专列来了，快加入吧~

你了解自己的业务IO么？

惊艳！阿里自爆用480页讲清楚了44种微服务架构设计模式

RVB2601应用开发实战系列三: GUI图形显示

Tapdata 肖贝贝：实时数据引擎系列(四)-关于 Oracle 与 Oracle CDC

21年字节+美团+腾讯，大厂必问面试真题总结（Java岗）

NeonIO 云原生存储简介与应用

面面俱到！阿里巴巴2021最新Java面试参考权威指南泰山版震撼来袭

Premo测试框架详解

iOS 屏幕实时共享功能实践（内附详细代码）

逐梦航天—数字孪生技术仿真火箭发射！

GameFi/DeFi+NFT软件系统开发方案

RVB2601应用开发实战系列四：FOTA镜像升级

mac idea配置类和方法的注释

带你彻底认识Paxos算法、Zab协议和Raft协议的原理和本质

后疫情时代新机遇，运营商如何把握智能家居市场？

RVB2601应用开发实战系列五：网络播放器设计(一）

GameFi游戏金融系统软件开发介绍

game+defi系统软件开发内容

TLS协议分析 (一) 设计目标及历史

手撕HashMap源码

RVB2601 应用开发实战系列一: Helloworld 最小系统

做百度AI工程师，还要会“相牛”？

Redis与Memcache对比

没项目经历，面试有点怂....

学生管理系统详细架构设计

TLS协议分析 (二) 架构总览

做百度AI工程师，还要会“相牛”？

创作场景

MiniMax 视频生成模型首秀！闫俊杰：大模型的研发核心是“快”

“能带来数倍提升的技术才值得投入研发”

“产品不赚钱是技术不够好”

结束语

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载