527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问，精彩回答十连！_阿里巴巴_鲁冬雪

每年的 5 月 27 日是蚂蚁集团的技术日，意在勉励蚂蚁技术人保持敬畏和创新之心。至今年，技术日已发展为技术周，一场涵盖技术论坛、技术集市、编程大赛、技术沙龙等活动的技术嘉年华。

5 月 28 日，第九届蚂蚁技术日对外开放，开放日上展示了诸多蚂蚁 AI 创新应用产品，向外界透传了“让 AI 像扫码支付一样便利每个人的生活”的技术主张和面貌。

在技术日第一天上午的 CTO 面对面环节，蚂蚁集团 CTO 何征宇回答了几十家媒体的提问，以下是精华内容整理：

Q1：刚才您提到“人工智能生活助理”。以后生活助理界面有没有可能更细化，比如说旅行助理、美食助理？把所有的助理放在一起，要选、要点、要对话的轮次会很多。

A：我们本质上就是有 N 多个小助手，但是我们认为这些助手不应是让你来选，而是让生活管家就能够理解你的意图。比如说，当我说我要去南京，我想吃点好吃的，它瞬间就是两个助手的化身，它可以帮你安排行程和吃饭的地方。所以我同意你的观点，应该是若干个助手，最终让你的生活更美好，所以我们姑且把它叫做生活管家，而且支付宝我们认为就是这么一个事情。

Q2：从去年开始，国家数据局成立，到今年，数据局已经在很多地方落地，隐私计算在这个过程中有没有发挥作用？

A：首先我想讲，国家数据局的数字中国公布了一些案例，我们是其中之一，是我们跟农业农村部合作做的农户的小额贷。我认为国家数据局讲的战略，或者数据基础设施是一个非常宏大和庞大的体系。蚂蚁也就聚焦于最关键的，我们认为最难的地方，对我们来说就是隐私计算。

隐私计算不是解决确权的问题，在我们的愿景中，我们认为它就是一个管道技术，我做的这个管道比别人更便宜，质量更好——不是一个石头做的，而是一个钛合金做的管子，非常安全，不用担心被泄露，又能非常快速的能把这个数据给传过去。其实我用这个比方是在讲，我们隐私计算就是这么一个技术，但是你要是真的要从确权、流转等等到最终的消费，这是一个非常庞大的技术体系，我觉得应该是全社会、全行业都来参与这个建设的。

蚂蚁在隐私计算方面的投入相对国内来说相对早，然后我们自己有使用的场景。简单讲，因为炼油的技术高，所以油要得多的话，我们需要有很好的管道技术，我们今天愿意把管道技术开放给社会，以商业化和开源的方式开放给社会，能够共建数据流转或者数据基础设施这些东西。

Q3：您刚刚提到蚂蚁内部现在全面推行 AI 编程，每周差不多超 5 成程序员在使用 CodeFuse。在这个过程中软件的开发模式相交之前是不是发生了一些变化？如果说程序员能够从繁琐、枯燥的工作中释放出来的话，那市场上对程序员的需求是不是发生变化。以前有一些采访对象跟我说过，未来程序员会和产品经理进行合并，你觉得会有这样的趋势吗？会有人才焦虑吗？

A：第一点，我不觉得写代码是一个很枯燥的事情。我不知道在座有多少人写过代码，我现在不写代码了，但是我几年前写代码的时候，我是觉得对于程序员、至少对我来说是可以写到脑嗨的那种状态的，远比我现在的工作回馈的环路要短。我每天把这个代码交上去了就很开心，跟玩乐高的感觉差不多，所以我不觉得写代码是一个很枯燥的工作。

第二点，我们今天在推行 AI 编程。是因为我们觉得就算你玩乐高，有个人在帮你提高效率，有个说明书放在旁边，我觉得是可以的。所以，今天 AI 编程它只是一个 Copilot，只是它针对不同的人有不同的 Copilot，因为我跟国外的一些公司也交流过，对于高级别的程序员，他更需要的是，那些很简单的代码他不想写了，有些东西他调一个库就搞定了，这个程序员一直这么干的。对于一般一点的程序员，他是需要告诉他一些经典的写法是什么？一些经常犯错的，比如说编码规范的东西，他需要一些提醒。像您刚才说对于产品经理，他不想写代码的人，他就需要一个端到端的东西。所以，我认为针对不同的人，需求是不一样的。我们不能简单的讲，有了 CodeFuse 就不需要程序员了，我认为这是人为创造的一种焦虑。

最后我想回答的是，AI 对于我们今天所有的软件工程的生产范式是有一些变化的。蚂蚁中间件的负责在去年就跟我说过，如果 AI 都会写代码了，是不是未来我最重要的工作就是让 AI 理解我的中间件？中间件就是我们在写程序的时候最基础的那层东西，蚂蚁的中间件叫 Sofa，它是给程序员用来编程的，这还是一个比较专业的事情。它是支持你的 Copilot，甚至是你的代码的导师，你去让它理解中间件。所以，我们的工作确实会发生一些变化，但是它的本质还是在 AI 这个新的生产力加入进来后，我们重新编排我们的代码流程，还是这么一个事。

Q4：您刚刚提到数据孤岛的问题，我觉得现在 AI 也存在这样一个问题，比如说各家手机厂商自己也有 AI 助手，如果你想要直接去问助手的话，用 GPT 或者用其他的。但当我真正需要生活服务的时候，我必须点开支付宝再去问，这样一个流程我能直接通过手机解决，而不用打开支付宝。

A：简单来讲，此助手非彼助手，世界上的助手有千千万，但是每个人的助手能力是不一样的。我们今天更重要的是提升我们自己助手的能力，支付宝今天是有一些独特的优势的，不是说我们技术有多牛，而是说我们支付宝今天整个开放生态的能量。

你真的要助手帮你去做件事情，它至少得有个服务商接口吧。当然，面向未来来看，我们希望我们真的能做到跟扫码支付一样，现在很多手机会绑定一些默认的扫码，有的就是支付宝。当我们做到那个量级的时候，我认为很多厂商会跟进的。核心是我们的产品能力是不是真的能便利每个人？我认为这个是关键。

Q5：刚才您在整个框架蓝图里面，从表现层-结构层-战略层的框架讲了很多东西，您有提到表现层是一些偏硬件的交互，比如里面像具生智能之类的新的交互方式。我想问一下，蚂蚁这么高的视角，您怎么看硬件交互新形式的节奏，您觉得下一个要出现的是什么？再下一个是什么？有没有具体的地图。

A：关于技术跟硬件结合相关的。我觉得我们是在做探索，是有一些想法，但也不是特别成熟。大家都是言必谈软硬件结合的产品，我认为软硬件结合目前不会是一个很成功的产品，这不是今天我说的，是很早之前我就说了，但是不代表他未来不会是。从整个科技来讲，必须要有一个先修桥，先修路的过程。你先得有一个基建的过程，包括今天的 AI 大模型。今天企业投了这么多钱、国家投了那么多钱为什么没有爆发点？但是试想一下，中国如果当年没有 3G、4G，今天也不会有移动互联网，这就是一个基建的过程。硬件的逻辑也是一样的，我认为硬件是基建，它是能够把更好的体验、更好的服务能够带给每个人的。但是不应该它想象成它马上能够产生一个巨大的消费市场，这种例子我认为还是比较鲜有的。即便是苹果这么厉害的世界头号的硬件公司，它最终能够产生真正的用户黏性，或者说能够提供最终的用户价值的，其实是上面的软件，以及它所有的生态里面提供的服务。所以，我们认为硬件只是一个基础，最终能够通过这个硬件、通过上面的叠加的软件、算法能够提供什么样的服务，我觉得是关键。

再回到跟蚂蚁结合的问题上来，我们虽然想星辰大海，但并不是什么都可以做。我们还是要聚焦到我们擅长的一些领域。比如在医疗领域，我们觉得有相应的机会。今天医疗健康这个大的赛道，其实你靠一个简单的手机跟你交互，我认为是非常浅的。因为它的 sensor 是不够多的，今天的多模态还是语音、图像这些东西，比如中医他具备望闻问切这一系列交互，更别说西医所有的一切了。所以在这方面的 sensor 或者多模态 sensor 数据融合上，这些硬件我认为也是有非常大的前景的。所以说结合行业，结合刚才讲的硬件的定位是基建，最后提供什么样的服务，这个东西是我们觉得是可以去探索的。

Q6：刚才您提到从擅长的事出发去做思考，这个决策过程是怎样的？不光是蚂蚁，在 AI 时代能成功的应用，它有些什么样的特征？它什么时候会出现？为什么是你们能做到这件事？支付宝流量这么大的平台做 AI 功能，怎么平衡 AI 创新和它的风险？

A：我先解释一下，我们主要的还是技术，不建议把它作为业务的考量，我们整个思考和逻辑的范围还是聚焦在技术里面。

技术带来什么样的变革？我们希望给世界带来微小而美好的变化。马斯克带大家登上火星，我觉得很伟大，但是能够让地球上所有人过上美好的生活，我认为同样伟大。今天你在看我们的所有支付宝从事的行业，十年前我们开始搞金融行业就在讲，让每个人能够享受到银行行长的待遇。之前在美国的时候我读过一本书《Bank4.0》，里面有一个章节就讲支付宝的。其中最核心的是，之前的银行都是要关门的，你要去银行取个钱、办个事你得请个假。但是今天因为数字化，因为我们的技术，今天有了 7×24 小时的银行。我觉得这就是我们带来的变化，蚂蚁也是通过二维码，二维码这个技术也不是支付宝发明的，但是扫码支付确实在中国我们是第一个推出来的。这个技术本身是没有问题的，它就是一个技术而已，但是你找到一个合适的场景的结合，然后把它变成一个普惠的服务，这是支付宝最擅长的。所以，我们今天看 AI 也是这个逻辑，我们今天不是说要做一个普惠的技术的提供者，而是我们如何用一个最好的技术，做一个最普惠的服务的提供商。

AI 今天能解决的问题是什么？我能够把服务推荐给你，我有个 AI 助手，它知道你需要什么服务，然后知道支付宝有什么好的服务，然后把这个服务推向给你，这就是我们想做的事情。

金融这个领域不用讲了，有一个词叫“Financialhealth”，你肯定是希望你的金融是安全的、是健康的。我们所谓的金融助手、金融管家也是要帮助大家的，我们发现很多人特别是很多初级的投资者，股票一下跌就会卖。这时候 AI 稍微跟他聊一聊，情绪稍微稳定一点，股票就不会卖了。因为很多人金融的决策不是理性的，而是情绪的，或者是道听途说有一些消息，有一些紧张情绪，就会做一个对他整体持仓不好的操作。医疗也是一样的。我们对风险的零容忍，其实是我们对自己有一个非常高的坝，我们觉得我们推出的服务、产品、技术，应该是经得起足够大规模的考验，以及足够挑剔的人群的考验的。所以，我们觉得在金融和医疗这里，是民生，是对每个人都重要的领域，值得我们真正去投入做，而且这也是对我们技术一个非常大的挑战，放眼整个行业来看，说的骄傲一点，如果我们不出手谁出手呢？我们觉得在这波技术的变革之下，我们应该可以去做这个行业的。

AI 创新和风险是要平衡的，一个是我们非常注重本身的科技伦理，技术是双刃剑，它有两面性。但是我们如何把握好这个技术，真正的让它科技向善，而不是去作恶。所以，我们有两道（关卡），一个是科技伦理委员会，每年我必须参加。在大模型这个领域我们也投了很多资源，蚂蚁百灵大模型接近 20% 的人是在做安全性，不能出现一些有伤社会伦理的事情；第二个是在风控与合规技术。这块我们的投入也非常大，这两个东西是一个枷锁，某种意义上有点像汽车的安全带，你想开快的时候一定要把安全带绑好了。但是安全带你能说他是枷锁吗？他是，但是某种意义上是能够让你上高速开的更快，我们就是这么去理解风险和创新的关系的。

Q7：原生多模态，您怎么看原生多模态这个趋势，它的能力边界在哪儿？

A：人机交互应该是这波 AI 革命所带来的，并不是 AI 本身。但是，我跟你在交流的时候，有语言、表情还有手势等等，这就是我们理解的多模态。

不是说我们今天的原生多模态就是去认识那个花是什么、那个草是什么，当然这个东西也有市场前景，但不代表原生多模态就应该去做这个东西。原生多模态核心的逻辑跟大模型一样，大模型大家都知道，今天的 Transformer 所有的架构，是从翻译来的，翻译里面是 LP 里面最难的一个领域。但是今天大家看，习以为常了。它最难的在哪儿？就是对齐。中国的语言和英文的语言，现在看似对的很齐，但其中包含跨文化的问题，比如在翻译诗词的时候就很难对齐。原生多模态的时候我们在跟什么东西对齐？是将人类的语言和我的手势、和所有自然界的东西对齐。所以整个大模型在干的一件事情，本质上就是在对齐。但是原生多模态意味着什么？我们把世界的万物、各种模态的数据，我用这个手势代表的是什么意思，我用语言表达出来的是什么意思？这个东西要对齐，这个是我们的核心。所以，这是大模型最核心、最关键我们在做的事情。

原生多模态，我们要理解后面的本质，徐鹏博士在负责我们的语言大模型，包括百灵，我们为什么会把这个组合放在一起，是因为我们觉得语言只是一个看似比较好对齐的东西。语言不是人造的，不是一个自然界的东西，它本身是有边界的。每发明一个词，边界会扩展一点，但是总体是有一个边界的。你今天如果扩展到多模态或者原生多模态这个领域，它的边界肯定是扩大的，它这个问题的象限或者复杂度是呈指数倍上升的。那我们判断要不要做这个事情？虽然它的难度很大，从中国的角度你必须要攻克这个事情，而不是说我跟在别人后面。这个事情本质上它是有意义的，就跟人脑是一样的，小朋友有的时候不会语言，他也看得懂你的知识。一只小狗，它也知道你摇摇手、或者挥挥手是什么意思，它也没有语言，这个东西是更底层的东西。所以我们未来的多模态就是帮你做一个东西，让你知道你的小狗狗到底最近怎么了。很多人不知道，我认为这个是我们可以攻克的。

所以，我们在做这个事情，回答你的边界，肯定是高于语言本身的，因为语言的边界是人为划了一个圈，但是它依然是核心，因为人类的智慧基本上就在语言的边界里面，能被语言表达出来的东西，其实都是人类的智慧。

Q8：去年 ChatGPT 刚出来的时候，咱们的认知有没有发生变化？

A：我们其实每天都在发生变化，但是大逻辑没有变。当然这可能是技术的局限，我们觉得这是一个很好、很先进的一个技术，而且最关键的是它让大家看到了一个可能性，我认为所有人去做就是因为这个可能性。但是从另外一方面，我们更关注的是，如何让它真正的能用起来，不是说只是变成少数人的 AI，我认为应该是大部分人的 AI，是所有人的 AI。我们思考的是怎么让这个东西做的更好用、更经济、更可靠，要把这个东西做出来，这是我们的一些思考。

Q9：现在可以看到几乎所有的互联网公司都在提大模型，大模型也用到各个领域。大模型背后是大数据或者云计算或者数据各方面应用。大模型会不会成为下一次宕机的威胁所在，这个技术会不会对所有平台造成新的技术挑战？出现这种问题，究竟是技术不够还是对技术的敬畏不够？

A：蚂蚁技术开放日是 2015 年的一次宕机引发的，到今天差不多 10 年了。这 10 年以来技术不断地发展，但是宕机和某某平台崩了还是会在热搜上出现。你刚刚提到敬畏技术，那这 10 年里面到底是技术不够还是敬畏不够？AI 本质上是不是足够大的风险？我倾向于更积极的去理解它。你说今天的互联网技术是不是一个风险？它很多时候其实是一个风险。但是我们需不需要互联网？我相信在座所有人都觉得我们需要互联网。任何事物都有它的两面性。

技术我偏向于中性的去理解它，关键在于你怎么使用它，你把它用在哪儿，或者说你对它有没有足够的敬畏，知道它的能力边界，不会去放大它，不会去夸张的吹嘘它。我认为 AI 这波浪潮也是一样的，打个比方，我一直认为它是大号的“复读机”，全世界的知识它能够复读出来。你把它用在关键核心的地方，可能你就要承受这种关键核心地方崩塌所带来的风险。你把它用在不重要的地方，那它就是一个背景音，像一个“收音机”，挂了就挂了，就是这样的一个逻辑。

到底是技术不够还是敬畏不够？我认为这是大家对技术的期待越来越高了。试想一下十年前或者更早一段时间，其实很多网站是有宕机护时间的。但是今天再看，哪个网站说我要宕机维护一下？国外的云几乎都需要维护，但是在中国，在阿里云是没有的。我们今天的技术在越来越深入的进入到国计民生各个行业。以支付宝为例，我们经常跟自己说，十年前的支付宝和现在的支付宝完全不一样，今天的支付宝要宕机 1 秒钟，可能上海的地铁的闸机就过不去了，但十年前我们是没有这个职责的。所以那时候宕机宕 2 个小时，大家觉得日子照常过，但是今天支付宝宕机 2 小时，那会产生非常大的影响，这是我们今天对技术的要求不一样。在这个过程当中，我认为技术不怕挑战，核心是说我们有更高的要求了，我们的技术一定会往上走的。AI 技术也是一样的道理，我们有要求，有足够的敬畏，有足够的投入，它一定会有足够的产出。

Q10：如果一个大模型要做到可靠的话，是目前 Transformer 这个底层是可以优化的，还是说需要一些技术辅助它去做，您有什么技术可以分享的？

A：我首先纠正一点，Transformer 不关键。因为 Transformer 的本质就是把序列数据变成并行化。之前语言大模型的训练是不可能那么快的，就算有卡也是不可能那么快的，Transformer 核心改变的就是这个。它的本质是在于我在模型训练时，包括从数据到最后的产生的输出，每一个 token 都是预测出来的，预测它一定会有误差的。但当你的误差累积到一个程度，它就一定会胡说八道的。所以，本质上是在控制这个数据流我怎么流进去以及我怎么输出来，让它在足够小的误差范围内，以及误差不要累积。

至于解决这个问题，肯定是有些手段和办法的。第一个是大家都知道所谓的 RAG，它核心是控制它的输入，我只能从这个知识库里面去流向到模型系统，然后再做输出，本质上是控制它的输入。然后，输出是靠什么？我们蚂蚁也开源了在金融领域的一个多智能体框架 agentUniverse。输出是干什么呢？我们是要多个模型去对，甚至按照一定的 SOP，按照一个专家流程来产生这个输出。或者简单讲，我们要尽量收紧它可输出的范围，来进一步的控制它的精确性。当然这个东西的问题就在这儿了，AI 其实就两个事，一个是泛化，一个是精准，足够泛化就很难精准，足够精准就很难泛化，这是一个本质矛盾。我们要干的事情是什么？我们在控制输入、控制输出的过程本身就是这么一个逻辑，在控制输入的时候它要足够的泛化能力，足够的泛化能力它是要靠中间的模型足够大、内容要足够多，然后我两头一掐，它牺牲掉以后，既有足够的精准性又有足够的智慧。

评论 1 条评论

发布

法喜

人手一组agent，指挥各类各个agent完成某件事

2024-06-03 13:36 · 广东

 0 回复

没有更多了

创作场景

527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问，精彩回答十连！

评论 1 条评论

WAIC2023丨AI图像内容安全“黑科技”如何助力科技向善发展？

Visual Studio Code错误：Cannot build and debug because the active file is not a C or C++ source file

免费试用商业智能工具，帮助您轻松解决商业智能选型问题

代码随想录 Day17 - 二叉树（四）

带你走进 IntelliJ IDEA 的插件世界

c++类型转换与RTTI运行阶段类型识别

ClickHouse 学习分享

解析！1V1直播源码开发搭建技术实时语音识别翻译功能的应用

从头学Java17-今天的Kotlin更香吗

真正的千万级分布式延迟任务系统 Grape

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)

Open-OAuth2Playground：开箱即用的开源版OAuth2在线调试服务

来自 BOSS 的需求，我们该怎么处理？

GitHub Copilot深度剖析：一个AI产品的性能提升、成本控制与效果评估

vscode GraphQL插件踩坑

对线面试官-Redis 九 | 持久化的方式及优缺点

Apache Doris 用户行为分析实践

2023-07-15：给你一个非递减的正整数数组 nums 和整数 K，判断该数组是否可以被分成一个或几个长度至少为 K 的不相交的递增子序列。输入：nums = [1,2,2,3,3,

ChatGPT：向未来迈进的智能对话伴侣 | 社区征文

AI的“道德感”如何训练而来（1）｜社区征文

创作场景

527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问，精彩回答十连！

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载