科大讯飞大模型竞速2年多，答卷不只是语音

从 2022 年 12 月启动“1+N”大模型技术攻关至今，科大讯飞已经在这个领域探索了两年多的时间。作为将大模型融入自身业务的典型，讯飞在大模型探索上是围绕业务“选择性答题”：不是要拿全领域第一名，但业务涉及的方向必须领先。

科大讯飞也取得了不错的成绩：根据真实数据背靠背的测试，讯飞星火 4.0 Turbo 七大核心能力全面超过 GPT-4 Turbo，数学和代码能力超越 GPT-4o；首发 11 项基于讯飞星火底座能力的技术和产品应用等。这也体现在了财报上，今年前三季度，科大讯飞实现收入 148.5 亿，同比增长 17.73%；毛利 60.07 亿，同比增长 18.17%。

面对市场的不断变化，科大讯飞必须学会做对的选择。那么，科大讯飞如何选择研发方向？具体都有哪些思考？科大讯飞研究院院长刘聪在近日接受 InfoQ 采访中，从不同的角度讲述了讯飞的发展经验以及自己的思考。

必答题：大模型推理

OpenAI 今年推出了对业界影响重大的三个模型：Sora、GPT-4o 和 o1，分别代表了当前视频生成、语音交互和推理的顶尖技术能力，这些也是国内企业正在竞相追赶的赛道，不过各家各有特长。

对于一个将大模型融入自身业务的典型，Sora 类技术并不符合讯飞当前业务需求，而 GPT-4o 和 o1 两个模型的技术路线，对其来说却是意义重大。

GPT-4o 代表的多模交互能力一直是讯飞专注的技术能力之一，多模态交互形式的出现也影响到了之前交互性并不强的领域，而 o1 的重要意义在于更复杂问题的解决上。

“我们初步判断 o1 这条路线有可能改善，虽然它没有公布任何技术细节，但它有可能提升推理过程，使其不再那么依赖大量的数据和精细设定的推理路径。如果实现了这样的改进，将对解决复杂问题大有裨益。”刘聪说道。

语言推理需要将思维链标识得非常细致，这种情况下推理过程非常依赖数据，甚至依赖设定的推理路径，否则成本会很高。过去人工标注的数据很贵，无法覆盖足够多的场景。但 o1 带来的启发是，只要答案存在于数据中，系统就能够自动操作、自发生成推理链，并在广阔的思维空间中寻找合理的解决方案。这意味着系统将采用以结果为导向的奖励机制来自动生成所需的推理链。

“这是我们未来要做的第一件事。”刘聪表示，它的意义不仅仅是自动生成思维链。“o1 甚至还有可能探索出一些与人类传统思维不同的新路径。”

刘聪表示，讯飞在推理方面主要关注两类问题：一是以数学为代表的学科类问题，如大学级别、奥数级别的问题；二是学科类中具有一定严格逻辑的大概率事件，比如医疗领域。后者则更为关键。据悉，讯飞今年年底实现类 o1 的高难度数学能力显著提升。

“推理能力的建设对讯飞大模型来说是必须重点投入的。”刘聪也说道，“算力对于讯飞来说还是非常重要的。”

去年，讯飞和华为一起建立了首个全国产万卡算力平台飞星一号。此前，Meta 发布的 92 页超长 Llama 3.1 论文中暴露，H100 万卡集群在 Llama3.1 训练平均 3 小时出现一次故障，这表明有卡可用只是第一步，对万卡集群的维护是下个重点。这一年以来，讯飞解决了 500 多次基础软硬件问题，模型训练适配优化平台耗时从 90 天缩减到 15 天，新增 30 多项框架和平台特性，优化了 150 多个基础、通信和融合算子。

今年，科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动，向更大规模算力集群跃迁。

规模越大，挑战也越大。这时的技术团队不仅需要深入理解核心技术，还要在有限的资源下完成许多工作，包括构建通用的平台和实现产品的落地。同时，系统化的工程能力也非常重要，需要有架构性的能力来支持算法。“这两点对于推动国产算力的发展至关重要，缺一不可。”

当前，算力市场正在面临供需变化的情况。现在的算力建设越来越多，包括国产化算力的建设等各种渠道的算力供应逐渐增多，这对算力价格也产生了影响。同时，需求市场已经不如之前强劲，已经有企业被曝不做预训练模型开发，意味着之前的投入有了很多重复和浪费。

“不同的公司最后都要回到：技术进步能否支持行业场景的落地并产生商业闭环价值，这种商业闭环价值是否能帮助我们找到最重要的关键点，实现正循环。”刘聪说道。

业务题：数字人

数字人赛道，对于讯飞来说则是商业模式相关的选择。

讯飞大概是在 2018 年开始决定要做数字人，当时的设想场景比如给讯飞智作配备数字人并给它一些图片和文案，它就可以帮助做类似商品广告的事情，数字人是有一定的业务需求在的。

但在今年 10 月 24 日，讯飞首次发布自己的超拟人数字人。数字人是一个比较综合的方向，涉及建模、驱动、合成等技术，而数字人的智能程度则取决于大模型的情感对话能力、多模态交互能力等。

业内有 2D 数字人、3D 数字人等不同方向的探索，区别于短视频行业的数字人用于制作离线视频，讯飞基于自身业务会更加关注数字人的实时可交互性。

2D 的优势是更像真人，但如果做不好就会陷入恐怖谷效应，显得很不自然。讯飞最初就关注了数字人唇形和牙齿的问题，后期再结合上语音，通过技术将这些元素串连起来。

这些尝试，让刘聪对“超拟人”或“数字人”的概念有了更加清晰的认知。他认为，数字人首先必须具备实时交互能力，尤其在复杂和高精度的情境下非常关键。刘聪的经验是：算法本身决定了结果，如果算法不行，再怎么工程化也难以保证效果。

“我们将交互视作一个持续性的过程。这个过程中，所有元素都是连续的、相互关联并共同生成的。结合扩散技术和其他的方法，我们可以使表情变得更加丰富多样、更好地实现语义贯穿的“口唇 - 表情 - 动作”的超拟人数字人生成。”刘聪说道。“另外，过去做数字人只能预设一些固定动作，现在通过动作驱动技术可以实现更加自然和灵活的动作。这种技术的应用使得交互体验更加真实和生动。”

“数字人这个事情，大家也在摸索到底它能发挥什么样的实用。”刘聪说道，“坦白说，我们只能通过最终呈现效果进行评价，比如对比同一句话、输入给别人回答，观察它的效果和响应时间。”

“使命”题：AI for Science

今年的诺贝尔物理学奖、化学奖、经济学奖都颁发给了 AI 领域的科学家。这一定程度上带动了业内对 AI for Science 的关注。

科大讯飞已在“大模型 + 科研”领域做了许多探索，如联合中国科学技术大学刘海燕教授团队，AI 助力成功设计了 48 个自然界不存在的全新蛋白质；联合中科院动物研究所李鑫团队，研究单细胞基因表达课题；联合中科院等离子体物理研究所李建刚院士团队，研究托卡马克等离子体控制等。

“AI for Science 决定了中国科技发展的速度，赋能科研是讯飞星火的重要使命”刘庆峰说道。根据刘聪的介绍，AI for Science 赋能科研可以分为三个阶段：

第一阶段，基础科研和基础工作的提效。这个阶段，没有具体的 AI for Science 科研任务。比如讯飞去年发布的科技文献大模型和星火科研助手更多是对已有论文的内容进行研究，比如搜索相关论文并写篇综述、论文辅助写作与修改等。
第二阶段，科学任务建模。这一阶段的 AI for Science 只在某些场景使用。当模型变大后，使用新的算法会让任务完成得更好，比如讯飞与中科大刘海燕教授团队、李建刚院士团队及李鑫团队等的合作都是处于这一阶段。
第三阶段，科研方案的辅助设计。这个阶段会将前面两个阶段结合在一起，比如化学领域，论文多、实验配置也多，这时不仅可以让 AI 回答推演中的问题，还可以输入问题进行回答，并基于回答设计一个新的实验等。“当大模型底座能力逐步增强后，降低了对专业领域数据的要求，甚至探索出生成新数据、拓展新场景都是很有可能的。”刘聪说道，

在与科研机构合作过程中，刘聪最大的感受是，双方都要真正了解自己的工作，不仅要会用，还要了解如果不够好用时如何改进。科研人员需要向讯飞研发提出具体的 AI 需求，讯飞研发人员则需要了解 AI for Science 的问题到底是什么。

“这是一个双向奔赴的过程。企业与科研机构的合作都是互相学习，其中定义问题非常关键。”刘聪表示，“不能简单地把 AI 当成工具。”

结束语

无论大模型硬实力、业务需求，还是给自己的责任，这是每个大模型落地企业都需要考虑的问题，科大讯飞给出了自己当前的回答。“解放生产力、释放想象力”是科大讯飞提出的口号，但目前整个行业都在想办法在“生产力”上下功夫，科大讯飞要做的答卷还很多。

创作场景

科大讯飞大模型竞速 2 年多，答卷不只是语音

必答题：大模型推理

业务题：数字人

“使命”题：AI for Science

结束语