AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”

  • 2024-09-11
    北京
  • 本文字数:2936 字

    阅读完需:约 10 分钟

大小:1.42M时长:08:16
MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”
00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版,很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。


    在 MiniMax 内部,多模态已经是一件非常确定的事情了。


    “在人类社会,大模型的核心意义是做更好的信息处理,而大部分的信息体现在多模态内容里,而非文字上,文字很多时候只是其中精华的一小部分。”闫俊杰解释道。


    “为了有非常高的用户覆盖度和使用深度,唯一的办法就是能够输出动态的内容,而非只输出单纯的文字内容,这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来,这两点是达成“Intelligence with Everyone”的核心,也是 MiniMax 的差异化能力。


    用户方面,MiniMax 已经有了不错的成绩。据统计,MiniMax 每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量排名国内 AI 公司首位。


    但在视频生成赛道,MiniMax 的发布算不上早。闫俊杰对此的解释是,“我们在解决一个更难的技术问题:如何能够原生地训练算力比较高的东西。”


    具体来说,首先,训练视频生成能力时也需要先把视频变成一些 token,视频变成的 token 非常长,越长复杂度就越高,MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。


    其次,视频还很大,比如 5 秒的视频有几兆,而 5 秒看到的文字可能不到 1K,这是千倍的存储差距。因此,之前基于文本模型的基础设施,对视频模型来说是不适用的,这意味着要对基础设施进行升级。


    “一两周新的东西出来,并达到我们更加满意的状态后,可能会考虑商业化。”闫俊杰表示。


    “能带来数倍提升的技术才值得投入研发”


    视频生成模型的研发更让闫俊杰坚定了一件事:无论是视频、文本还是声音,核心都不是让一个算法带来 5%、10% 的提升,重要的是找到提升数倍的方式,如果能够提升数倍就一定要做出来,如果只提升 5% 就不太值得做。


    “从读书、工作,到现在创业,我对技术的理解慢慢变得非常简单,就是第一性原理。技术,特别是有很大研发投入的技术,追求的不应该是 10% 的提升,如果一个技术的提升只有 10%,那这个技术就不应该做,原因是你不做也会有人做或有人开源出来,其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。


    “对创业来说,一块钱掰成几份来花是非常难的。像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,但对满足用户的需求又很重要,只能自己来做,这样的才是核心的东西。”闫俊杰说道。


    那么,MiniMax 做大模型的核心是什么?


    闫俊杰的答案是:快 = 好。


    在率先判断出 MoE 技术路线后,MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构,MiniMax 大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。



    MiniMax 与 GPT-4o 同一代模型能力进行对比发现,新一代模型处理 10 万 token 时效率可提升 2-3 倍,并且随着长度越长,提升越明显。相比于通用 Transformer 架构,在 128K 的序列长度下,新架构成本减少 90% 以上。


    “不管是做 MoE、Linear attention 还是其他的,本质上是让同样的效果模型变得更快,快才意味着同样的算力可以做得更好,这是我们最底层的研发思路。”闫俊杰说道。


    “从实际应用上,就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容,这对用户的体验损伤比较大,如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。


    “产品不赚钱是技术不够好”


    目前,MiniMax 在国内 C 端的主打产品是星野和海螺 AI。


    “当一个产品没人用或者不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。”闫俊杰说道。


    因此,在闫俊杰看来,像基于 GPT-4 的 GPT Store 跑不通的根本原因,不是因为 Agent 的框架写得不够好,是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”


    现在所有的模型错误率都是 20% 的量级,闫俊杰认为,真正发生变革的是有一个模型可以把错误率降低到个位数,这会让很多复杂的任务从“不可以”变得“可以”。


    “当技术做得不好的时候,所有东西都是问题,当技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,我觉得我花了两年才意识到这件事。”闫俊杰说道。


    在闫俊杰看来,做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为做技术,可能会失败、投入也很大。当一个东西很奢侈时,很多时候就会想要不要走点捷径,比如不做技术,先把产品提升好等。


    “实践经验证明,走捷径的时候会被打脸。”闫俊杰笑道。


    目前,MiniMax 的商业化基本上分成两种模式:一是面向企业的开放平台,现在已经有两千多家的客户,包括互联网公司、传统企业等;二是在自有产品里设立广告机制进行变现。


    “现阶段,最重要的还不是商业化,是真正地对技术到达广泛可用的程度。”闫俊杰表示。


    对于国内市场,MiniMax 希望打造偏工具类的产品,比如会给海螺 AI 不断打磨出新的功能,直到产生了很强的用户粘性。“粘性构造起来后,我们才会考虑 ROI 和 Retention。这个飞轮转起来了,我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。


    盛静远认为,这个 ROI 会有转起来的一天,但不是今天的产品形态。“作为一个普通消费者,今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品,这个模式是不成立的。”


    但海外市场不太一样。海外企业更愿意付费,因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了,更多是公司的精力和资源,以及怎么变现的问题。海外市场有一套自己的打法,会相对地比较 straightforward,变现也更快。”


    实际上,MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中,Talkie 位列 22 位。


    盛静远总结道,任何伟大的 2 C 产品都是基于人性的深入思考,另外则要考虑 AI 在高容错率的情况下可以做什么,并变成大众喜闻乐见的产品。


    结束语


    大模型领域的竞争依然在继续。闫俊杰表现得比较淡然,“这就是一个发展的客观规律,作为一家创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。”


    在与大厂的竞争中,闫俊杰认为,要赢就要更快地看清非常底层的东西,“大公司开始跟你竞争时,就会意识到有些东西是没用的,因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情:一是提升技术;二是跟用户共创,这两点非常关键的判断是需要长期积累的。”


    而对于国内的大模型价格战,闫俊杰认为确实非常大地提高了模型的调用量,本来认为大模型很贵的公司,包括很多传统的企业开始愿意使用大模型,因为成本低对出错的容忍度也会高一些。“正是激烈的竞争,推动了大家必须得把模型做好。一定阶段之后,大家会发现自己的模型在海外也有竞争力,比如东南亚等,至少目前已经在非英语国家的语种上跟 GPT 不相上下。”


    “我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得这是两个积极的变化。”闫俊杰说道。


    2024-09-11 18:347772

    评论

    发布
    暂无评论

    OpenMMLab图像分类实战代码演示

    IT蜗壳-Tango

    CV OpenMMLab 图片分类

    C++ 友元与运算符重载那些事

    王玉川

    c++ 编程语言 运算符 重载 friend

    Java高手速成 | Hibernate的配置文件与JPA API的基本用法

    TiAmo

    hibernate jpa api 网关

    推进行业生态发展完善,中国信通院第八批RPA评测工作正式启动

    王吉伟频道

    RPA 机器人流程自动化 中国信通院 RPA评测 RPA产业推进方阵

    试试 IntelliJ IDEA 新的 UI

    HoneyMoose

    架构实战营模块5 高性能高可用计算作业

    西山薄凉

    「架构实战营」

    ChatGPT真的可以取代基础工作岗位吗?

    老张

    人工智能 产业发展 ChatGPT

    IntelliJ IDEA 修改只读模式和可写模式

    HoneyMoose

    从 JDK 9 到 19,我们帮您提炼了和云原生场景有关的能力列表(上)

    阿里巴巴云原生

    阿里云 云原生

    为什么在容器中 1 号进程挂不上 arthas?

    阿里巴巴云原生

    Java 阿里云 容器 云原生

    核心应用实现云原生改造升级,波司登数字化战略加速落地

    阿里巴巴云原生

    阿里云 云原生

    10 亿月活用户下,快手基于 Dragonfly 的超大规模镜像分发实践

    阿里巴巴云原生

    阿里云 容器 云原生

    基于Verilog HDL的状态机描述方法

    timerring

    FPGA

    docker setup mysql

    平凡人生

    MySQL

    vue实现一个鼠标滑动预览视频封面组件(精灵图版本)

    JYeontu

    Vue 视频

    IntelliJ IDEA 撤销和反撤销

    HoneyMoose

    2022阿里云技术年报:基础产品篇

    阿里巴巴云原生

    阿里云 云原生 基础产品

    架构训练营模块七作业

    张建闯

    架构实战营

    C# 如何部分加载“超大”解决方案中的部分项目

    newbe36524

    C# Docker Kubernetes

    突破边界:“超融合+”带来的商业化精益之路

    脑极体

    全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking

    阿里巴巴云原生

    阿里云 容器 云原生

    基于SLO告警(Part 4):开源项目 pyrra 使用

    Grafana 爱好者

    云原生 可观测性 Prometheus SRE SLO

    技术服务深耕本地市场:阿里云在日本的探索与实践|国家经理专栏

    阿里巴巴云原生

    阿里云 云原生

    设计「业务」与「技术」方案

    Java 架构 技术 业务

    CleanMyMac X2023电脑最新版本更新内容

    茶色酒

    CleanMyMac X CleanMyMac X2023

    Higress + Nacos 微服务网关最佳实践

    阿里巴巴云原生

    阿里云 云原生 nacos Higress

    重磅发布丨《云原生实战指南》助力企业上云实践!

    阿里巴巴云原生

    阿里云 云原生实战

    架构训练营模块8

    张建闯

    架构实战营

    图片竟能直接生成逼真音效?这AI模型也太神奇了吧!

    科技热闻

    Java 中如何限制方法的返回时间

    HoneyMoose

    应用纳管和灰度发布:谐云基于 KubeVela 的企业级云原生实践

    阿里巴巴云原生

    阿里云 容器 云原生 KubeVela

    MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”_AI&大模型_褚杏娟_InfoQ精选文章