写点什么

MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”

  • 2024-09-11
    北京
  • 本文字数:2936 字

    阅读完需:约 10 分钟

大小:1.42M时长:08:16
MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”
00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版,很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。


    在 MiniMax 内部,多模态已经是一件非常确定的事情了。


    “在人类社会,大模型的核心意义是做更好的信息处理,而大部分的信息体现在多模态内容里,而非文字上,文字很多时候只是其中精华的一小部分。”闫俊杰解释道。


    “为了有非常高的用户覆盖度和使用深度,唯一的办法就是能够输出动态的内容,而非只输出单纯的文字内容,这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来,这两点是达成“Intelligence with Everyone”的核心,也是 MiniMax 的差异化能力。


    用户方面,MiniMax 已经有了不错的成绩。据统计,MiniMax 每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量排名国内 AI 公司首位。


    但在视频生成赛道,MiniMax 的发布算不上早。闫俊杰对此的解释是,“我们在解决一个更难的技术问题:如何能够原生地训练算力比较高的东西。”


    具体来说,首先,训练视频生成能力时也需要先把视频变成一些 token,视频变成的 token 非常长,越长复杂度就越高,MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。


    其次,视频还很大,比如 5 秒的视频有几兆,而 5 秒看到的文字可能不到 1K,这是千倍的存储差距。因此,之前基于文本模型的基础设施,对视频模型来说是不适用的,这意味着要对基础设施进行升级。


    “一两周新的东西出来,并达到我们更加满意的状态后,可能会考虑商业化。”闫俊杰表示。


    “能带来数倍提升的技术才值得投入研发”


    视频生成模型的研发更让闫俊杰坚定了一件事:无论是视频、文本还是声音,核心都不是让一个算法带来 5%、10% 的提升,重要的是找到提升数倍的方式,如果能够提升数倍就一定要做出来,如果只提升 5% 就不太值得做。


    “从读书、工作,到现在创业,我对技术的理解慢慢变得非常简单,就是第一性原理。技术,特别是有很大研发投入的技术,追求的不应该是 10% 的提升,如果一个技术的提升只有 10%,那这个技术就不应该做,原因是你不做也会有人做或有人开源出来,其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。


    “对创业来说,一块钱掰成几份来花是非常难的。像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,但对满足用户的需求又很重要,只能自己来做,这样的才是核心的东西。”闫俊杰说道。


    那么,MiniMax 做大模型的核心是什么?


    闫俊杰的答案是:快 = 好。


    在率先判断出 MoE 技术路线后,MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构,MiniMax 大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。



    MiniMax 与 GPT-4o 同一代模型能力进行对比发现,新一代模型处理 10 万 token 时效率可提升 2-3 倍,并且随着长度越长,提升越明显。相比于通用 Transformer 架构,在 128K 的序列长度下,新架构成本减少 90% 以上。


    “不管是做 MoE、Linear attention 还是其他的,本质上是让同样的效果模型变得更快,快才意味着同样的算力可以做得更好,这是我们最底层的研发思路。”闫俊杰说道。


    “从实际应用上,就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容,这对用户的体验损伤比较大,如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。


    “产品不赚钱是技术不够好”


    目前,MiniMax 在国内 C 端的主打产品是星野和海螺 AI。


    “当一个产品没人用或者不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。”闫俊杰说道。


    因此,在闫俊杰看来,像基于 GPT-4 的 GPT Store 跑不通的根本原因,不是因为 Agent 的框架写得不够好,是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”


    现在所有的模型错误率都是 20% 的量级,闫俊杰认为,真正发生变革的是有一个模型可以把错误率降低到个位数,这会让很多复杂的任务从“不可以”变得“可以”。


    “当技术做得不好的时候,所有东西都是问题,当技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,我觉得我花了两年才意识到这件事。”闫俊杰说道。


    在闫俊杰看来,做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为做技术,可能会失败、投入也很大。当一个东西很奢侈时,很多时候就会想要不要走点捷径,比如不做技术,先把产品提升好等。


    “实践经验证明,走捷径的时候会被打脸。”闫俊杰笑道。


    目前,MiniMax 的商业化基本上分成两种模式:一是面向企业的开放平台,现在已经有两千多家的客户,包括互联网公司、传统企业等;二是在自有产品里设立广告机制进行变现。


    “现阶段,最重要的还不是商业化,是真正地对技术到达广泛可用的程度。”闫俊杰表示。


    对于国内市场,MiniMax 希望打造偏工具类的产品,比如会给海螺 AI 不断打磨出新的功能,直到产生了很强的用户粘性。“粘性构造起来后,我们才会考虑 ROI 和 Retention。这个飞轮转起来了,我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。


    盛静远认为,这个 ROI 会有转起来的一天,但不是今天的产品形态。“作为一个普通消费者,今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品,这个模式是不成立的。”


    但海外市场不太一样。海外企业更愿意付费,因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了,更多是公司的精力和资源,以及怎么变现的问题。海外市场有一套自己的打法,会相对地比较 straightforward,变现也更快。”


    实际上,MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中,Talkie 位列 22 位。


    盛静远总结道,任何伟大的 2 C 产品都是基于人性的深入思考,另外则要考虑 AI 在高容错率的情况下可以做什么,并变成大众喜闻乐见的产品。


    结束语


    大模型领域的竞争依然在继续。闫俊杰表现得比较淡然,“这就是一个发展的客观规律,作为一家创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。”


    在与大厂的竞争中,闫俊杰认为,要赢就要更快地看清非常底层的东西,“大公司开始跟你竞争时,就会意识到有些东西是没用的,因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情:一是提升技术;二是跟用户共创,这两点非常关键的判断是需要长期积累的。”


    而对于国内的大模型价格战,闫俊杰认为确实非常大地提高了模型的调用量,本来认为大模型很贵的公司,包括很多传统的企业开始愿意使用大模型,因为成本低对出错的容忍度也会高一些。“正是激烈的竞争,推动了大家必须得把模型做好。一定阶段之后,大家会发现自己的模型在海外也有竞争力,比如东南亚等,至少目前已经在非英语国家的语种上跟 GPT 不相上下。”


    “我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得这是两个积极的变化。”闫俊杰说道。


    2024-09-11 18:348076

    评论

    发布
    暂无评论
    发现更多内容

    SGY奇点交易所系统软件APP开发

    系统开发

    DolphinDB与Elasticserach在金融数据集上的性能对比测试

    DolphinDB

    数据处理 金融 时序数据库 tsdb DolphinDB

    Github 2020 年度报告:你以为新冠击溃了开发者?不!他们创造了更多代码...

    阿里巴巴云原生

    开源 Serverless 程序员 代码

    请问如何短时间突击 Java 通过面试?

    Java架构师迁哥

    Mybatis动态映射,so easy啦

    田维常

    四面腾讯pcg后端开发岗,一个星期面完成功拿到20K的offer。分享面经

    Java架构之路

    Java 程序员 架构 面试 编程语言

    刚拿到蚂蚁金服架构师offer!大佬教你如何成为offer收割机

    比伯

    Java 编程 架构 面试 计算机

    DeFi流动性挖矿系统开发(案例源码开发)

    系统开发咨询1357O98O718

    defi流动性挖矿系统开发

    四币连发平台系统开发详解丨四币连发源码(案例)

    系统开发咨询1357O98O718

    四币连发系统开发案例详解

    还有谁比阿里人更懂SpringCloud Alibaba 呢?P8大牛纯手打笔记免费分享!

    Java架构之路

    Java 程序员 架构 面试 编程语言

    服务于阿里、滴滴、华为等一线互联网公司的分布式消息中间件RocketMQ核心笔记

    Java架构追梦

    Java 架构 面试 RocketMQ 消息中间件

    JS&Swift

    ios swift

    阿里架构师经验分享!啃完999页Android面试高频宝典,面试心得体会

    欢喜学安卓

    android 程序员 面试 移动开发

    iOS面试基础知识 (一)

    iOSer

    ios 面试 runtime 编程开发 iOS Developer

    区块链BaaS应用平台开发

    13828808769

    仅凭这份Java大纲笔记,我如愿拿到了阿里offer。

    Java架构之路

    Java 程序员 架构 面试 编程语言

    恕我直言!有了这份MySQL学习文档,你收藏夹里的其他MySQL学习资料都可以扔了

    Java架构之路

    Java 程序员 架构 面试 编程语言

    助力孩子走上学霸之路,K12学习神器现已面世!

    E科讯

    SGY奇点交易所系统软件开发|SGY奇点交易所APP开发

    系统开发

    区分Protobuf 3中缺失值和默认值

    Gopher指北

    protobuf Go 语言

    智慧警务开发,二维码定位报警系统搭建

    t13823115967

    智慧公安 智慧公安扫码

    《数据结构与抽象:Java语言描述》.pdf

    田维常

    数据结构

    EPBC环保生态链系统开发案例丨环保生态链EPBC源码平台

    系统开发咨询1357O98O718

    环保链APP系统开发案例

    新思科技最新报告显示开源安全是首要考虑因素

    InfoQ_434670063458

    港美股交易系统开发框架构造简述篇

    软件开发大鱼V15988750073

    国际配售 港股交易系统开发 证券交易系统 资管系统 港股打新系统

    区块链信息共享应用落地搭建解决方案

    t13823115967

    区块链+ 区块链应用 信息共享

    Scala中String和Int隐式转换的问题分析

    木子李G

    scala 大数据 编程 隐式转换

    某美女的程序员老公半夜都还不回家,原来是偷偷在公司看Redis+JVM+Spring cloud+MySQL技术文档

    Java架构之路

    Java 程序员 架构 面试 编程语言

    了解OAuth2.0

    环信

    用60行代码实现一个高性能的圣诞抽抽乐H5小游戏(含源码)

    徐小夕

    Java 大前端 H5游戏 H5

    超详细讲解!Android面试真题解析火爆全网,搞懂这些直接来阿里入职

    欢喜学安卓

    android 编程 程序员 面试 移动开发

    MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”_AI&大模型_褚杏娟_InfoQ精选文章