速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

科大讯飞大模型竞速 2 年多,答卷不只是语音

  • 2024-11-06
    北京
  • 本文字数:3286 字

    阅读完需:约 11 分钟

大小:1.82M时长:10:36
科大讯飞大模型竞速2年多,答卷不只是语音

从 2022 年 12 月启动“1+N”大模型技术攻关至今,科大讯飞已经在这个领域探索了两年多的时间。作为将大模型融入自身业务的典型,讯飞在大模型探索上是围绕业务“选择性答题”:不是要拿全领域第一名,但业务涉及的方向必须领先。


科大讯飞也取得了不错的成绩:根据真实数据背靠背的测试,讯飞星火 4.0 Turbo 七大核心能力全面超过 GPT-4 Turbo,数学和代码能力超越 GPT-4o;首发 11 项基于讯飞星火底座能力的技术和产品应用等。这也体现在了财报上,今年前三季度,科大讯飞实现收入 148.5 亿,同比增长 17.73%;毛利 60.07 亿,同比增长 18.17%。


面对市场的不断变化,科大讯飞必须学会做对的选择。那么,科大讯飞如何选择研发方向?具体都有哪些思考?科大讯飞研究院院长刘聪在近日接受 InfoQ 采访中,从不同的角度讲述了讯飞的发展经验以及自己的思考。


必答题:大模型推理


OpenAI 今年推出了对业界影响重大的三个模型:Sora、GPT-4o 和 o1,分别代表了当前视频生成、语音交互和推理的顶尖技术能力,这些也是国内企业正在竞相追赶的赛道,不过各家各有特长。


对于一个将大模型融入自身业务的典型,Sora 类技术并不符合讯飞当前业务需求,而 GPT-4o 和 o1 两个模型的技术路线,对其来说却是意义重大。


GPT-4o 代表的多模交互能力一直是讯飞专注的技术能力之一,多模态交互形式的出现也影响到了之前交互性并不强的领域,而 o1 的重要意义在于更复杂问题的解决上。


“我们初步判断 o1 这条路线有可能改善,虽然它没有公布任何技术细节,但它有可能提升推理过程,使其不再那么依赖大量的数据和精细设定的推理路径。如果实现了这样的改进,将对解决复杂问题大有裨益。”刘聪说道。


语言推理需要将思维链标识得非常细致,这种情况下推理过程非常依赖数据,甚至依赖设定的推理路径,否则成本会很高。过去人工标注的数据很贵,无法覆盖足够多的场景。但 o1 带来的启发是,只要答案存在于数据中,系统就能够自动操作、自发生成推理链,并在广阔的思维空间中寻找合理的解决方案。这意味着系统将采用以结果为导向的奖励机制来自动生成所需的推理链。


“这是我们未来要做的第一件事。”刘聪表示,它的意义不仅仅是自动生成思维链。“o1 甚至还有可能探索出一些与人类传统思维不同的新路径。”


刘聪表示,讯飞在推理方面主要关注两类问题:一是以数学为代表的学科类问题,如大学级别、奥数级别的问题;二是学科类中具有一定严格逻辑的大概率事件,比如医疗领域。后者则更为关键。据悉,讯飞今年年底实现类 o1 的高难度数学能力显著提升。


“推理能力的建设对讯飞大模型来说是必须重点投入的。”刘聪也说道,“算力对于讯飞来说还是非常重要的。”


去年,讯飞和华为一起建立了首个全国产万卡算力平台飞星一号。此前,Meta 发布的 92 页超长 Llama 3.1 论文中暴露,H100 万卡集群在 Llama3.1 训练平均 3 小时出现一次故障,这表明有卡可用只是第一步,对万卡集群的维护是下个重点。这一年以来,讯飞解决了 500 多次基础软硬件问题,模型训练适配优化平台耗时从 90 天缩减到 15 天,新增 30 多项框架和平台特性,优化了 150 多个基础、通信和融合算子。


今年,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动,向更大规模算力集群跃迁。


规模越大,挑战也越大。这时的技术团队不仅需要深入理解核心技术,还要在有限的资源下完成许多工作,包括构建通用的平台和实现产品的落地。同时,系统化的工程能力也非常重要,需要有架构性的能力来支持算法。“这两点对于推动国产算力的发展至关重要,缺一不可。”


当前,算力市场正在面临供需变化的情况。现在的算力建设越来越多,包括国产化算力的建设等各种渠道的算力供应逐渐增多,这对算力价格也产生了影响。同时,需求市场已经不如之前强劲,已经有企业被曝不做预训练模型开发,意味着之前的投入有了很多重复和浪费。


“不同的公司最后都要回到:技术进步能否支持行业场景的落地并产生商业闭环价值,这种商业闭环价值是否能帮助我们找到最重要的关键点,实现正循环。”刘聪说道。


业务题:数字人


数字人赛道,对于讯飞来说则是商业模式相关的选择。


讯飞大概是在 2018 年开始决定要做数字人,当时的设想场景比如给讯飞智作配备数字人并给它一些图片和文案,它就可以帮助做类似商品广告的事情,数字人是有一定的业务需求在的。


但在今年 10 月 24 日,讯飞首次发布自己的超拟人数字人。数字人是一个比较综合的方向,涉及建模、驱动、合成等技术,而数字人的智能程度则取决于大模型的情感对话能力、多模态交互能力等。


业内有 2D 数字人、3D 数字人等不同方向的探索,区别于短视频行业的数字人用于制作离线视频,讯飞基于自身业务会更加关注数字人的实时可交互性。


2D 的优势是更像真人,但如果做不好就会陷入恐怖谷效应,显得很不自然。讯飞最初就关注了数字人唇形和牙齿的问题,后期再结合上语音,通过技术将这些元素串连起来。


这些尝试,让刘聪对“超拟人”或“数字人”的概念有了更加清晰的认知。他认为,数字人首先必须具备实时交互能力,尤其在复杂和高精度的情境下非常关键。刘聪的经验是:算法本身决定了结果,如果算法不行,再怎么工程化也难以保证效果。


“我们将交互视作一个持续性的过程。这个过程中,所有元素都是连续的、相互关联并共同生成的。结合扩散技术和其他的方法,我们可以使表情变得更加丰富多样、更好地实现语义贯穿的“口唇 - 表情 - 动作”的超拟人数字人生成。”刘聪说道。“另外,过去做数字人只能预设一些固定动作,现在通过动作驱动技术可以实现更加自然和灵活的动作。这种技术的应用使得交互体验更加真实和生动。”


“数字人这个事情,大家也在摸索到底它能发挥什么样的实用。”刘聪说道,“坦白说,我们只能通过最终呈现效果进行评价,比如对比同一句话、输入给别人回答,观察它的效果和响应时间。”


“使命”题:AI for Science


今年的诺贝尔物理学奖、化学奖、经济学奖都颁发给了 AI 领域的科学家。这一定程度上带动了业内对 AI for Science 的关注。


科大讯飞已在“大模型 + 科研”领域做了许多探索,如联合中国科学技术大学刘海燕教授团队,AI 助力成功设计了 48 个自然界不存在的全新蛋白质;联合中科院动物研究所李鑫团队,研究单细胞基因表达课题;联合中科院等离子体物理研究所李建刚院士团队,研究托卡马克等离子体控制等。


“AI for Science 决定了中国科技发展的速度,赋能科研是讯飞星火的重要使命”刘庆峰说道。根据刘聪的介绍,AI for Science 赋能科研可以分为三个阶段:


  • 第一阶段,基础科研和基础工作的提效。这个阶段,没有具体的 AI for Science 科研任务。比如讯飞去年发布的科技文献大模型和星火科研助手更多是对已有论文的内容进行研究,比如搜索相关论文并写篇综述、论文辅助写作与修改等。

  • 第二阶段,科学任务建模。这一阶段的 AI for Science 只在某些场景使用。当模型变大后,使用新的算法会让任务完成得更好,比如讯飞与中科大刘海燕教授团队、李建刚院士团队及李鑫团队等的合作都是处于这一阶段。

  • 第三阶段,科研方案的辅助设计。这个阶段会将前面两个阶段结合在一起,比如化学领域,论文多、实验配置也多,这时不仅可以让 AI 回答推演中的问题,还可以输入问题进行回答,并基于回答设计一个新的实验等。“当大模型底座能力逐步增强后,降低了对专业领域数据的要求,甚至探索出生成新数据、拓展新场景都是很有可能的。”刘聪说道,


在与科研机构合作过程中,刘聪最大的感受是,双方都要真正了解自己的工作,不仅要会用,还要了解如果不够好用时如何改进。科研人员需要向讯飞研发提出具体的 AI 需求,讯飞研发人员则需要了解 AI for Science 的问题到底是什么。


“这是一个双向奔赴的过程。企业与科研机构的合作都是互相学习,其中定义问题非常关键。”刘聪表示,“不能简单地把 AI 当成工具。”


结束语


无论大模型硬实力、业务需求,还是给自己的责任,这是每个大模型落地企业都需要考虑的问题,科大讯飞给出了自己当前的回答。“解放生产力、释放想象力”是科大讯飞提出的口号,但目前整个行业都在想办法在“生产力”上下功夫,科大讯飞要做的答卷还很多。


2024-11-06 15:579645

评论

发布
暂无评论
发现更多内容

诚邀见证2024九章云极DataCanvas算力包产品发布会!

九章云极DataCanvas

9月20日,Bonree ONE 3.0 产品发布会北京站即将开启!

博睿数据

Cloud Kernel SIG 月度动态:ANCK 新增多家厂商硬件新特性支持

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥sig

简化插件的添加和更新流程

NocoBase

开源 低代码 无代码 版本更新

阿里 Qwen2.5 开源发布;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 开发者日报

声网

京东短网址高可用提升最佳实践

京东科技开发者

AI 镜像云市场伙伴招募计划发布!服务商闭门会精彩回顾 | 2024 龙蜥大会

OpenAnolis小助手

开源 操作系统 龙蜥社区 AI 镜像

AI 场景下如何构建运维的标准化能力?SOMA 智能运维计划发布 | 2024 龙蜥大会

OpenAnolis小助手

开源 操作系统 系统运维 龙蜥社区 龙蜥社区系统运维联盟

全面掌握 Jest:从零开始的测试指南(下篇)

EquatorCoco

前端

京东云JoyCoder荣获AI4SE“银弹”优秀案例

京东科技开发者

多协议数据库管理工具:Navicat Premium (Win&Mac) 中文激活版

你的猪会飞吗

Navicat Premium Navicat Premium 16 Navicat Premium 中文版

强大的终端SSH工具:SecureCRT (Win&Mac) 激活版

你的猪会飞吗

SecureCRT下载 SecureCRT mac SecureCRT Mac破解版 SecureCRT 安装教程

IPQ4019|Why Choose DR4019 SOM for Your Next WiFi Project? Dual-Band, USB 3.0, and OpenWRT

wallyslilly

Qwen2.5 大语言模型特点解析

Botnow

AI 大语言模型 LLMOps AI 智能体 Qwen2.5

专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥操作系统大会

签署《AI安全国际对话威尼斯共识》 智源持续推动人工智能安全发展

智源研究院

js基础之setTimeout与setInterval原理分析

京东科技开发者

高性能连接池之HikariCP框架分析:高性能逐条分解(架构师篇)

肖哥弹架构

Java HikariCP 连接池

详细介绍陪玩系统如何打包为APP小程序H5公众号

多客潇潇

行业报告:仅百度文心智能体平台实现帮开发者赚钱

Geek_2d6073

万界星空科技MES系统车间设备管理模块的功能

万界星空科技

工业互联网 mes 设备管理 万界星空科技 生产设备管理

软件系统反脆弱指南

FunTester

恭喜!龙蜥社区2024年中三大奖项评选名单新鲜出炉

OpenAnolis小助手

开源 操作系统 龙蜥社区

专访AMD:AMD 正式加入龙蜥社区首秀:开源协作与 AI 创新的交汇点

OpenAnolis小助手

开源 AI 操作系统 龙蜥社区

全面拥抱生成式AI时代 F5 AppWorld全球巡演中国站盛大启幕

科技热闻

避免高额开发费用,如何轻松开发类似喜马拉雅的听书平台?

软件开发-梦幻运营部

国产容器技术,实现小程序在任何应用中运行

Geek_2305a8

智启未来!和鲸联合南开大学赵宏教授,共论 AI 挑战下的教育教学新理念与新方法

ModelWhale

Python 人工智能 高等教育

Spring Boot 整合 MyBatis 的详细步骤(两种方式)

不在线第一只蜗牛

Spring Boot 后端

Difference analysis of IPQ4029 and IPQ4028 WiFi 5 chips

wifi6-yiyi

IPQ4019 wifi5

专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

OpenAnolis小助手

开源 AI 操作系统 龙蜥社区 龙蜥操作系统大会

科大讯飞大模型竞速2年多,答卷不只是语音_AI&大模型_褚杏娟_InfoQ精选文章