写点什么

527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问,精彩回答十连!

  • 2024-06-03
    北京
  • 本文字数:7179 字

    阅读完需:约 24 分钟

527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问,精彩回答十连!

每年的 5 月 27 日是蚂蚁集团的技术日,意在勉励蚂蚁技术人保持敬畏和创新之心。至今年,技术日已发展为技术周,一场涵盖技术论坛、技术集市、编程大赛、技术沙龙等活动的技术嘉年华。

 

5 月 28 日,第九届蚂蚁技术日对外开放,开放日上展示了诸多蚂蚁 AI 创新应用产品,向外界透传了“让 AI 像扫码支付一样便利每个人的生活”的技术主张和面貌。

 

在技术日第一天上午的 CTO 面对面环节,蚂蚁集团 CTO 何征宇回答了几十家媒体的提问,以下是精华内容整理:


Q1:刚才您提到“人工智能生活助理”。以后生活助理界面有没有可能更细化,比如说旅行助理、美食助理?把所有的助理放在一起,要选、要点、要对话的轮次会很多。

 

A:我们本质上就是有 N 多个小助手,但是我们认为这些助手不应是让你来选,而是让生活管家就能够理解你的意图。比如说,当我说我要去南京,我想吃点好吃的,它瞬间就是两个助手的化身,它可以帮你安排行程和吃饭的地方。所以我同意你的观点,应该是若干个助手,最终让你的生活更美好,所以我们姑且把它叫做生活管家,而且支付宝我们认为就是这么一个事情。


Q2:从去年开始,国家数据局成立,到今年,数据局已经在很多地方落地,隐私计算在这个过程中有没有发挥作用?


A:首先我想讲,国家数据局的数字中国公布了一些案例,我们是其中之一,是我们跟农业农村部合作做的农户的小额贷。我认为国家数据局讲的战略,或者数据基础设施是一个非常宏大和庞大的体系。蚂蚁也就聚焦于最关键的,我们认为最难的地方,对我们来说就是隐私计算。

 

隐私计算不是解决确权的问题,在我们的愿景中,我们认为它就是一个管道技术,我做的这个管道比别人更便宜,质量更好——不是一个石头做的,而是一个钛合金做的管子,非常安全,不用担心被泄露,又能非常快速的能把这个数据给传过去。其实我用这个比方是在讲,我们隐私计算就是这么一个技术,但是你要是真的要从确权、流转等等到最终的消费,这是一个非常庞大的技术体系,我觉得应该是全社会、全行业都来参与这个建设的。

 

蚂蚁在隐私计算方面的投入相对国内来说相对早,然后我们自己有使用的场景。简单讲,因为炼油的技术高,所以油要得多的话,我们需要有很好的管道技术,我们今天愿意把管道技术开放给社会,以商业化和开源的方式开放给社会,能够共建数据流转或者数据基础设施这些东西。

 

Q3:您刚刚提到蚂蚁内部现在全面推行 AI 编程,每周差不多超 5 成程序员在使用 CodeFuse。在这个过程中软件的开发模式相交之前是不是发生了一些变化?如果说程序员能够从繁琐、枯燥的工作中释放出来的话,那市场上对程序员的需求是不是发生变化。以前有一些采访对象跟我说过,未来程序员会和产品经理进行合并,你觉得会有这样的趋势吗?会有人才焦虑吗?

 

A:第一点,我不觉得写代码是一个很枯燥的事情。我不知道在座有多少人写过代码,我现在不写代码了,但是我几年前写代码的时候,我是觉得对于程序员、至少对我来说是可以写到脑嗨的那种状态的,远比我现在的工作回馈的环路要短。我每天把这个代码交上去了就很开心,跟玩乐高的感觉差不多,所以我不觉得写代码是一个很枯燥的工作。

 

第二点,我们今天在推行 AI 编程。是因为我们觉得就算你玩乐高,有个人在帮你提高效率,有个说明书放在旁边,我觉得是可以的。所以,今天 AI 编程它只是一个 Copilot,只是它针对不同的人有不同的 Copilot,因为我跟国外的一些公司也交流过,对于高级别的程序员,他更需要的是,那些很简单的代码他不想写了,有些东西他调一个库就搞定了,这个程序员一直这么干的。对于一般一点的程序员,他是需要告诉他一些经典的写法是什么?一些经常犯错的,比如说编码规范的东西,他需要一些提醒。像您刚才说对于产品经理,他不想写代码的人,他就需要一个端到端的东西。所以,我认为针对不同的人,需求是不一样的。我们不能简单的讲,有了 CodeFuse 就不需要程序员了,我认为这是人为创造的一种焦虑。

 

最后我想回答的是,AI 对于我们今天所有的软件工程的生产范式是有一些变化的。蚂蚁中间件的负责在去年就跟我说过,如果 AI 都会写代码了,是不是未来我最重要的工作就是让 AI 理解我的中间件?中间件就是我们在写程序的时候最基础的那层东西,蚂蚁的中间件叫 Sofa,它是给程序员用来编程的,这还是一个比较专业的事情。它是支持你的 Copilot,甚至是你的代码的导师,你去让它理解中间件。所以,我们的工作确实会发生一些变化,但是它的本质还是在 AI 这个新的生产力加入进来后,我们重新编排我们的代码流程,还是这么一个事。

 

Q4:您刚刚提到数据孤岛的问题,我觉得现在 AI 也存在这样一个问题,比如说各家手机厂商自己也有 AI 助手,如果你想要直接去问助手的话,用 GPT 或者用其他的。但当我真正需要生活服务的时候,我必须点开支付宝再去问,这样一个流程我能直接通过手机解决,而不用打开支付宝。

 

A:简单来讲,此助手非彼助手,世界上的助手有千千万,但是每个人的助手能力是不一样的。我们今天更重要的是提升我们自己助手的能力,支付宝今天是有一些独特的优势的,不是说我们技术有多牛,而是说我们支付宝今天整个开放生态的能量。

 

你真的要助手帮你去做件事情,它至少得有个服务商接口吧。当然,面向未来来看,我们希望我们真的能做到跟扫码支付一样,现在很多手机会绑定一些默认的扫码,有的就是支付宝。当我们做到那个量级的时候,我认为很多厂商会跟进的。核心是我们的产品能力是不是真的能便利每个人?我认为这个是关键。

 

Q5:刚才您在整个框架蓝图里面,从表现层-结构层-战略层的框架讲了很多东西,您有提到表现层是一些偏硬件的交互,比如里面像具生智能之类的新的交互方式。我想问一下,蚂蚁这么高的视角,您怎么看硬件交互新形式的节奏,您觉得下一个要出现的是什么?再下一个是什么?有没有具体的地图。

 

A:关于技术跟硬件结合相关的。我觉得我们是在做探索,是有一些想法,但也不是特别成熟。大家都是言必谈软硬件结合的产品,我认为软硬件结合目前不会是一个很成功的产品,这不是今天我说的,是很早之前我就说了,但是不代表他未来不会是。从整个科技来讲,必须要有一个先修桥,先修路的过程。你先得有一个基建的过程,包括今天的 AI 大模型。今天企业投了这么多钱、国家投了那么多钱为什么没有爆发点?但是试想一下,中国如果当年没有 3G、4G,今天也不会有移动互联网,这就是一个基建的过程。硬件的逻辑也是一样的,我认为硬件是基建,它是能够把更好的体验、更好的服务能够带给每个人的。但是不应该它想象成它马上能够产生一个巨大的消费市场,这种例子我认为还是比较鲜有的。即便是苹果这么厉害的世界头号的硬件公司,它最终能够产生真正的用户黏性,或者说能够提供最终的用户价值的,其实是上面的软件,以及它所有的生态里面提供的服务。所以,我们认为硬件只是一个基础,最终能够通过这个硬件、通过上面的叠加的软件、算法能够提供什么样的服务,我觉得是关键。

 

再回到跟蚂蚁结合的问题上来,我们虽然想星辰大海,但并不是什么都可以做。我们还是要聚焦到我们擅长的一些领域。比如在医疗领域,我们觉得有相应的机会。今天医疗健康这个大的赛道,其实你靠一个简单的手机跟你交互,我认为是非常浅的。因为它的 sensor 是不够多的,今天的多模态还是语音、图像这些东西,比如中医他具备望闻问切这一系列交互,更别说西医所有的一切了。所以在这方面的 sensor 或者多模态 sensor 数据融合上,这些硬件我认为也是有非常大的前景的。所以说结合行业,结合刚才讲的硬件的定位是基建,最后提供什么样的服务,这个东西是我们觉得是可以去探索的。

 

Q6:刚才您提到从擅长的事出发去做思考,这个决策过程是怎样的?不光是蚂蚁,在 AI 时代能成功的应用,它有些什么样的特征?它什么时候会出现?为什么是你们能做到这件事? 支付宝流量这么大的平台做 AI 功能,怎么平衡 AI 创新和它的风险?

 

A:我先解释一下,我们主要的还是技术,不建议把它作为业务的考量,我们整个思考和逻辑的范围还是聚焦在技术里面。

 

技术带来什么样的变革?我们希望给世界带来微小而美好的变化。马斯克带大家登上火星,我觉得很伟大,但是能够让地球上所有人过上美好的生活,我认为同样伟大。今天你在看我们的所有支付宝从事的行业,十年前我们开始搞金融行业就在讲,让每个人能够享受到银行行长的待遇。之前在美国的时候我读过一本书《Bank4.0》,里面有一个章节就讲支付宝的。其中最核心的是,之前的银行都是要关门的,你要去银行取个钱、办个事你得请个假。但是今天因为数字化,因为我们的技术,今天有了 7×24 小时的银行。我觉得这就是我们带来的变化,蚂蚁也是通过二维码,二维码这个技术也不是支付宝发明的,但是扫码支付确实在中国我们是第一个推出来的。这个技术本身是没有问题的,它就是一个技术而已,但是你找到一个合适的场景的结合,然后把它变成一个普惠的服务,这是支付宝最擅长的。所以,我们今天看 AI 也是这个逻辑,我们今天不是说要做一个普惠的技术的提供者,而是我们如何用一个最好的技术,做一个最普惠的服务的提供商

 

AI 今天能解决的问题是什么?我能够把服务推荐给你,我有个 AI 助手,它知道你需要什么服务,然后知道支付宝有什么好的服务,然后把这个服务推向给你,这就是我们想做的事情。

 

金融这个领域不用讲了,有一个词叫“Financialhealth”,你肯定是希望你的金融是安全的、是健康的。我们所谓的金融助手、金融管家也是要帮助大家的,我们发现很多人特别是很多初级的投资者,股票一下跌就会卖。这时候 AI 稍微跟他聊一聊,情绪稍微稳定一点,股票就不会卖了。因为很多人金融的决策不是理性的,而是情绪的,或者是道听途说有一些消息,有一些紧张情绪,就会做一个对他整体持仓不好的操作。医疗也是一样的。我们对风险的零容忍,其实是我们对自己有一个非常高的坝,我们觉得我们推出的服务、产品、技术,应该是经得起足够大规模的考验,以及足够挑剔的人群的考验的。所以,我们觉得在金融和医疗这里,是民生,是对每个人都重要的领域,值得我们真正去投入做,而且这也是对我们技术一个非常大的挑战,放眼整个行业来看,说的骄傲一点,如果我们不出手谁出手呢?我们觉得在这波技术的变革之下,我们应该可以去做这个行业的。

 

AI 创新和风险是要平衡的,一个是我们非常注重本身的科技伦理,技术是双刃剑,它有两面性。但是我们如何把握好这个技术,真正的让它科技向善,而不是去作恶。所以,我们有两道(关卡),一个是科技伦理委员会,每年我必须参加。在大模型这个领域我们也投了很多资源,蚂蚁百灵大模型接近 20% 的人是在做安全性,不能出现一些有伤社会伦理的事情;第二个是在风控与合规技术。这块我们的投入也非常大,这两个东西是一个枷锁,某种意义上有点像汽车的安全带,你想开快的时候一定要把安全带绑好了。但是安全带你能说他是枷锁吗?他是,但是某种意义上是能够让你上高速开的更快,我们就是这么去理解风险和创新的关系的。

 

Q7:原生多模态,您怎么看原生多模态这个趋势,它的能力边界在哪儿?

 

A:人机交互应该是这波 AI 革命所带来的,并不是 AI 本身。但是,我跟你在交流的时候,有语言、表情还有手势等等,这就是我们理解的多模态。

 

不是说我们今天的原生多模态就是去认识那个花是什么、那个草是什么,当然这个东西也有市场前景,但不代表原生多模态就应该去做这个东西。原生多模态核心的逻辑跟大模型一样,大模型大家都知道,今天的 Transformer 所有的架构,是从翻译来的,翻译里面是 LP 里面最难的一个领域。但是今天大家看,习以为常了。它最难的在哪儿?就是对齐。中国的语言和英文的语言,现在看似对的很齐,但其中包含跨文化的问题,比如在翻译诗词的时候就很难对齐。原生多模态的时候我们在跟什么东西对齐?是将人类的语言和我的手势、和所有自然界的东西对齐。所以整个大模型在干的一件事情,本质上就是在对齐。但是原生多模态意味着什么?我们把世界的万物、各种模态的数据,我用这个手势代表的是什么意思,我用语言表达出来的是什么意思?这个东西要对齐,这个是我们的核心。所以,这是大模型最核心、最关键我们在做的事情。

 

原生多模态,我们要理解后面的本质,徐鹏博士在负责我们的语言大模型,包括百灵,我们为什么会把这个组合放在一起,是因为我们觉得语言只是一个看似比较好对齐的东西。语言不是人造的,不是一个自然界的东西,它本身是有边界的。每发明一个词,边界会扩展一点,但是总体是有一个边界的。你今天如果扩展到多模态或者原生多模态这个领域,它的边界肯定是扩大的,它这个问题的象限或者复杂度是呈指数倍上升的。那我们判断要不要做这个事情?虽然它的难度很大,从中国的角度你必须要攻克这个事情,而不是说我跟在别人后面。这个事情本质上它是有意义的,就跟人脑是一样的,小朋友有的时候不会语言,他也看得懂你的知识。一只小狗,它也知道你摇摇手、或者挥挥手是什么意思,它也没有语言,这个东西是更底层的东西。所以我们未来的多模态就是帮你做一个东西,让你知道你的小狗狗到底最近怎么了。很多人不知道,我认为这个是我们可以攻克的。

 

所以,我们在做这个事情,回答你的边界,肯定是高于语言本身的,因为语言的边界是人为划了一个圈,但是它依然是核心,因为人类的智慧基本上就在语言的边界里面,能被语言表达出来的东西,其实都是人类的智慧。

 

Q8:去年 ChatGPT 刚出来的时候,咱们的认知有没有发生变化?

 

A:我们其实每天都在发生变化,但是大逻辑没有变。当然这可能是技术的局限,我们觉得这是一个很好、很先进的一个技术,而且最关键的是它让大家看到了一个可能性,我认为所有人去做就是因为这个可能性。但是从另外一方面,我们更关注的是,如何让它真正的能用起来,不是说只是变成少数人的 AI,我认为应该是大部分人的 AI,是所有人的 AI。我们思考的是怎么让这个东西做的更好用、更经济、更可靠,要把这个东西做出来,这是我们的一些思考。

 

Q9:现在可以看到几乎所有的互联网公司都在提大模型,大模型也用到各个领域。大模型背后是大数据或者云计算或者数据各方面应用。大模型会不会成为下一次宕机的威胁所在,这个技术会不会对所有平台造成新的技术挑战?出现这种问题,究竟是技术不够还是对技术的敬畏不够?

 

A:蚂蚁技术开放日是 2015 年的一次宕机引发的,到今天差不多 10 年了。这 10 年以来技术不断地发展,但是宕机和某某平台崩了还是会在热搜上出现。你刚刚提到敬畏技术,那这 10 年里面到底是技术不够还是敬畏不够?AI 本质上是不是足够大的风险?我倾向于更积极的去理解它。你说今天的互联网技术是不是一个风险?它很多时候其实是一个风险。但是我们需不需要互联网?我相信在座所有人都觉得我们需要互联网。任何事物都有它的两面性。

 

技术我偏向于中性的去理解它,关键在于你怎么使用它,你把它用在哪儿,或者说你对它有没有足够的敬畏,知道它的能力边界,不会去放大它,不会去夸张的吹嘘它。我认为 AI 这波浪潮也是一样的,打个比方,我一直认为它是大号的“复读机”,全世界的知识它能够复读出来。你把它用在关键核心的地方,可能你就要承受这种关键核心地方崩塌所带来的风险。你把它用在不重要的地方,那它就是一个背景音,像一个“收音机”,挂了就挂了,就是这样的一个逻辑。

 

到底是技术不够还是敬畏不够?我认为这是大家对技术的期待越来越高了。试想一下十年前或者更早一段时间,其实很多网站是有宕机护时间的。但是今天再看,哪个网站说我要宕机维护一下?国外的云几乎都需要维护,但是在中国,在阿里云是没有的。我们今天的技术在越来越深入的进入到国计民生各个行业。以支付宝为例,我们经常跟自己说,十年前的支付宝和现在的支付宝完全不一样,今天的支付宝要宕机 1 秒钟,可能上海的地铁的闸机就过不去了,但十年前我们是没有这个职责的。所以那时候宕机宕 2 个小时,大家觉得日子照常过,但是今天支付宝宕机 2 小时,那会产生非常大的影响,这是我们今天对技术的要求不一样。在这个过程当中,我认为技术不怕挑战,核心是说我们有更高的要求了,我们的技术一定会往上走的。AI 技术也是一样的道理,我们有要求,有足够的敬畏,有足够的投入,它一定会有足够的产出。

 

Q10:如果一个大模型要做到可靠的话,是目前 Transformer 这个底层是可以优化的,还是说需要一些技术辅助它去做,您有什么技术可以分享的?

 

A:我首先纠正一点,Transformer 不关键。因为 Transformer 的本质就是把序列数据变成并行化。之前语言大模型的训练是不可能那么快的,就算有卡也是不可能那么快的,Transformer 核心改变的就是这个。它的本质是在于我在模型训练时,包括从数据到最后的产生的输出,每一个 token 都是预测出来的,预测它一定会有误差的。但当你的误差累积到一个程度,它就一定会胡说八道的。所以,本质上是在控制这个数据流我怎么流进去以及我怎么输出来,让它在足够小的误差范围内,以及误差不要累积。

 

至于解决这个问题,肯定是有些手段和办法的。第一个是大家都知道所谓的 RAG,它核心是控制它的输入,我只能从这个知识库里面去流向到模型系统,然后再做输出,本质上是控制它的输入。然后,输出是靠什么?我们蚂蚁也开源了在金融领域的一个多智能体框架 agentUniverse。输出是干什么呢?我们是要多个模型去对,甚至按照一定的 SOP,按照一个专家流程来产生这个输出。或者简单讲,我们要尽量收紧它可输出的范围,来进一步的控制它的精确性。当然这个东西的问题就在这儿了,AI 其实就两个事,一个是泛化,一个是精准,足够泛化就很难精准,足够精准就很难泛化,这是一个本质矛盾。我们要干的事情是什么?我们在控制输入、控制输出的过程本身就是这么一个逻辑,在控制输入的时候它要足够的泛化能力,足够的泛化能力它是要靠中间的模型足够大、内容要足够多,然后我两头一掐,它牺牲掉以后,既有足够的精准性又有足够的智慧。

2024-06-03 09:564279
用户头像
鲁冬雪 InfoQ 策划主编

发布了 362 篇内容, 共 245.1 次阅读, 收获喜欢 291 次。

关注

评论 1 条评论

发布
用户头像
人手一组agent,指挥各类各个agent完成某件事
2024-06-03 13:36 · 广东
回复
没有更多了

npm进阶(一) 更换成淘宝镜像源以及 cnpm

No Silver Bullet

npm 12月日更

7.《重学JAVA》--运算符

杨鹏Geek

Java 25 周年 28天写作 12月日更

网易云信发布两大元宇宙解决方案,打响进军元宇宙第一枪

网易云信

人工智能 音视频 元宇宙

【等保小知识】信息安全等级保护四级系统有哪些?

行云管家

网络安全 等级保护

尚硅谷Maxwell视频教程发布!

@零度

大数据 Maxwell

SpringBoot中如何优雅的使用多线程

编程江湖

JAVA开发 springboot

跨越可观测性鸿沟|高手们都在用的“火焰图”是什么

尔达Erda

程序员 微服务 云原生 可观测性 链路追踪

恒源云(GPUSHARE)_【功能更新】实例日志上线,操作一目了然

恒源云

深度学习 算力加速

大厂高频面试题Spring Bean生命周期最详解

Tom弹架构

Java spring 源码

Kafka之为什么需要消息队列

编程江湖

大数据 kafka

JavaScript 中的 .forEach() 和 for...of

devpoint

JavaScript foreach for...of 12月日更

微信业务架构图

holdzhu

「架构实战营」

解决 Serverless 落地困难的关键,是给开发者足够的“安全感”

Serverless Devs

阿里巴巴 Serverless 运维 Faas 业务

netty系列之:性能为王!创建多路复用http2服务器

程序那些事

Netty 程序那些事 http2 12月日更

谈谈对微软Dapr的理解

行云创新

微软 服务网格 dapr

南瓜电影 7 天内全面 Serverless 化实践

Serverless Devs

阿里云 ECS 南瓜电影 SAE

常见杀毒软件及其引擎的特点

喀拉峻

网络安全 病毒扫描

Kyligence + 亚马逊云科技丨实现云上的精细化运营和数字化指挥

Kyligence

十年期货股票行情数据轻松处理——TDengine在同心源基金的应用

TDengine

数据库 tdengine 时序数据库

腾讯音乐iOS开发四次面试记录

iOSer

ios 腾讯 面试题 iOS面试 腾讯音乐

Aeron 是如何实现的?—— Ipc Subscription

BUG侦探

共享内存 Aeron Ipc Subscription

浅谈 OLAP 系统核心技术点

Kyligence

存储 Kyligence OLAP系统

运维提效 60%,视野数科 SAE + Jenkins 打造云原生 DevOps

Serverless Devs

大数据 数据 视野数科

List 去重的 6 种方法

编程江湖

List java 编程

Rust 元宇宙 14 —— 创建角色和同步

Miracle

rust 元宇宙

飞桨双十二礼包,上海“拆箱”啦!

百度大脑

人工智能

函数计算 GB 镜像秒级启动:下一代软硬件架构协同优化揭秘

Serverless Devs

主机入侵检测策略之基线检测

网络安全学海

网络安全 信息安全 渗透测试 安全漏洞 暴力猜解

es单机安装及配置其系统服务

elasticsearch

Python代码阅读(第68篇):指定值出现次数

Felix

Python 编程 列表 阅读代码 Python初学者

如何搭建批流一体大数据分析架构?

Kyligence

527 蚂蚁技术日 | 蚂蚁集团 CTO 何征宇答记者问,精彩回答十连!_阿里巴巴_鲁冬雪_InfoQ精选文章