每年的 5 月 27 日是蚂蚁集团的技术日,意在勉励蚂蚁技术人保持敬畏和创新之心。至今年,技术日已发展为技术周,一场涵盖技术论坛、技术集市、编程大赛、技术沙龙等活动的技术嘉年华。
5 月 28 日,第九届蚂蚁技术日对外开放,开放日上展示了诸多蚂蚁 AI 创新应用产品,向外界透传了“让 AI 像扫码支付一样便利每个人的生活”的技术主张和面貌。
在技术日第一天上午的 CTO 面对面环节,蚂蚁集团 CTO 何征宇回答了几十家媒体的提问,以下是精华内容整理:
Q1:刚才您提到“人工智能生活助理”。以后生活助理界面有没有可能更细化,比如说旅行助理、美食助理?把所有的助理放在一起,要选、要点、要对话的轮次会很多。
A:我们本质上就是有 N 多个小助手,但是我们认为这些助手不应是让你来选,而是让生活管家就能够理解你的意图。比如说,当我说我要去南京,我想吃点好吃的,它瞬间就是两个助手的化身,它可以帮你安排行程和吃饭的地方。所以我同意你的观点,应该是若干个助手,最终让你的生活更美好,所以我们姑且把它叫做生活管家,而且支付宝我们认为就是这么一个事情。
Q2:从去年开始,国家数据局成立,到今年,数据局已经在很多地方落地,隐私计算在这个过程中有没有发挥作用?
A:首先我想讲,国家数据局的数字中国公布了一些案例,我们是其中之一,是我们跟农业农村部合作做的农户的小额贷。我认为国家数据局讲的战略,或者数据基础设施是一个非常宏大和庞大的体系。蚂蚁也就聚焦于最关键的,我们认为最难的地方,对我们来说就是隐私计算。
隐私计算不是解决确权的问题,在我们的愿景中,我们认为它就是一个管道技术,我做的这个管道比别人更便宜,质量更好——不是一个石头做的,而是一个钛合金做的管子,非常安全,不用担心被泄露,又能非常快速的能把这个数据给传过去。其实我用这个比方是在讲,我们隐私计算就是这么一个技术,但是你要是真的要从确权、流转等等到最终的消费,这是一个非常庞大的技术体系,我觉得应该是全社会、全行业都来参与这个建设的。
蚂蚁在隐私计算方面的投入相对国内来说相对早,然后我们自己有使用的场景。简单讲,因为炼油的技术高,所以油要得多的话,我们需要有很好的管道技术,我们今天愿意把管道技术开放给社会,以商业化和开源的方式开放给社会,能够共建数据流转或者数据基础设施这些东西。
Q3:您刚刚提到蚂蚁内部现在全面推行 AI 编程,每周差不多超 5 成程序员在使用 CodeFuse。在这个过程中软件的开发模式相交之前是不是发生了一些变化?如果说程序员能够从繁琐、枯燥的工作中释放出来的话,那市场上对程序员的需求是不是发生变化。以前有一些采访对象跟我说过,未来程序员会和产品经理进行合并,你觉得会有这样的趋势吗?会有人才焦虑吗?
A:第一点,我不觉得写代码是一个很枯燥的事情。我不知道在座有多少人写过代码,我现在不写代码了,但是我几年前写代码的时候,我是觉得对于程序员、至少对我来说是可以写到脑嗨的那种状态的,远比我现在的工作回馈的环路要短。我每天把这个代码交上去了就很开心,跟玩乐高的感觉差不多,所以我不觉得写代码是一个很枯燥的工作。
第二点,我们今天在推行 AI 编程。是因为我们觉得就算你玩乐高,有个人在帮你提高效率,有个说明书放在旁边,我觉得是可以的。所以,今天 AI 编程它只是一个 Copilot,只是它针对不同的人有不同的 Copilot,因为我跟国外的一些公司也交流过,对于高级别的程序员,他更需要的是,那些很简单的代码他不想写了,有些东西他调一个库就搞定了,这个程序员一直这么干的。对于一般一点的程序员,他是需要告诉他一些经典的写法是什么?一些经常犯错的,比如说编码规范的东西,他需要一些提醒。像您刚才说对于产品经理,他不想写代码的人,他就需要一个端到端的东西。所以,我认为针对不同的人,需求是不一样的。我们不能简单的讲,有了 CodeFuse 就不需要程序员了,我认为这是人为创造的一种焦虑。
最后我想回答的是,AI 对于我们今天所有的软件工程的生产范式是有一些变化的。蚂蚁中间件的负责在去年就跟我说过,如果 AI 都会写代码了,是不是未来我最重要的工作就是让 AI 理解我的中间件?中间件就是我们在写程序的时候最基础的那层东西,蚂蚁的中间件叫 Sofa,它是给程序员用来编程的,这还是一个比较专业的事情。它是支持你的 Copilot,甚至是你的代码的导师,你去让它理解中间件。所以,我们的工作确实会发生一些变化,但是它的本质还是在 AI 这个新的生产力加入进来后,我们重新编排我们的代码流程,还是这么一个事。
Q4:您刚刚提到数据孤岛的问题,我觉得现在 AI 也存在这样一个问题,比如说各家手机厂商自己也有 AI 助手,如果你想要直接去问助手的话,用 GPT 或者用其他的。但当我真正需要生活服务的时候,我必须点开支付宝再去问,这样一个流程我能直接通过手机解决,而不用打开支付宝。
A:简单来讲,此助手非彼助手,世界上的助手有千千万,但是每个人的助手能力是不一样的。我们今天更重要的是提升我们自己助手的能力,支付宝今天是有一些独特的优势的,不是说我们技术有多牛,而是说我们支付宝今天整个开放生态的能量。
你真的要助手帮你去做件事情,它至少得有个服务商接口吧。当然,面向未来来看,我们希望我们真的能做到跟扫码支付一样,现在很多手机会绑定一些默认的扫码,有的就是支付宝。当我们做到那个量级的时候,我认为很多厂商会跟进的。核心是我们的产品能力是不是真的能便利每个人?我认为这个是关键。
Q5:刚才您在整个框架蓝图里面,从表现层-结构层-战略层的框架讲了很多东西,您有提到表现层是一些偏硬件的交互,比如里面像具生智能之类的新的交互方式。我想问一下,蚂蚁这么高的视角,您怎么看硬件交互新形式的节奏,您觉得下一个要出现的是什么?再下一个是什么?有没有具体的地图。
A:关于技术跟硬件结合相关的。我觉得我们是在做探索,是有一些想法,但也不是特别成熟。大家都是言必谈软硬件结合的产品,我认为软硬件结合目前不会是一个很成功的产品,这不是今天我说的,是很早之前我就说了,但是不代表他未来不会是。从整个科技来讲,必须要有一个先修桥,先修路的过程。你先得有一个基建的过程,包括今天的 AI 大模型。今天企业投了这么多钱、国家投了那么多钱为什么没有爆发点?但是试想一下,中国如果当年没有 3G、4G,今天也不会有移动互联网,这就是一个基建的过程。硬件的逻辑也是一样的,我认为硬件是基建,它是能够把更好的体验、更好的服务能够带给每个人的。但是不应该它想象成它马上能够产生一个巨大的消费市场,这种例子我认为还是比较鲜有的。即便是苹果这么厉害的世界头号的硬件公司,它最终能够产生真正的用户黏性,或者说能够提供最终的用户价值的,其实是上面的软件,以及它所有的生态里面提供的服务。所以,我们认为硬件只是一个基础,最终能够通过这个硬件、通过上面的叠加的软件、算法能够提供什么样的服务,我觉得是关键。
再回到跟蚂蚁结合的问题上来,我们虽然想星辰大海,但并不是什么都可以做。我们还是要聚焦到我们擅长的一些领域。比如在医疗领域,我们觉得有相应的机会。今天医疗健康这个大的赛道,其实你靠一个简单的手机跟你交互,我认为是非常浅的。因为它的 sensor 是不够多的,今天的多模态还是语音、图像这些东西,比如中医他具备望闻问切这一系列交互,更别说西医所有的一切了。所以在这方面的 sensor 或者多模态 sensor 数据融合上,这些硬件我认为也是有非常大的前景的。所以说结合行业,结合刚才讲的硬件的定位是基建,最后提供什么样的服务,这个东西是我们觉得是可以去探索的。
Q6:刚才您提到从擅长的事出发去做思考,这个决策过程是怎样的?不光是蚂蚁,在 AI 时代能成功的应用,它有些什么样的特征?它什么时候会出现?为什么是你们能做到这件事? 支付宝流量这么大的平台做 AI 功能,怎么平衡 AI 创新和它的风险?
A:我先解释一下,我们主要的还是技术,不建议把它作为业务的考量,我们整个思考和逻辑的范围还是聚焦在技术里面。
技术带来什么样的变革?我们希望给世界带来微小而美好的变化。马斯克带大家登上火星,我觉得很伟大,但是能够让地球上所有人过上美好的生活,我认为同样伟大。今天你在看我们的所有支付宝从事的行业,十年前我们开始搞金融行业就在讲,让每个人能够享受到银行行长的待遇。之前在美国的时候我读过一本书《Bank4.0》,里面有一个章节就讲支付宝的。其中最核心的是,之前的银行都是要关门的,你要去银行取个钱、办个事你得请个假。但是今天因为数字化,因为我们的技术,今天有了 7×24 小时的银行。我觉得这就是我们带来的变化,蚂蚁也是通过二维码,二维码这个技术也不是支付宝发明的,但是扫码支付确实在中国我们是第一个推出来的。这个技术本身是没有问题的,它就是一个技术而已,但是你找到一个合适的场景的结合,然后把它变成一个普惠的服务,这是支付宝最擅长的。所以,我们今天看 AI 也是这个逻辑,我们今天不是说要做一个普惠的技术的提供者,而是我们如何用一个最好的技术,做一个最普惠的服务的提供商。
AI 今天能解决的问题是什么?我能够把服务推荐给你,我有个 AI 助手,它知道你需要什么服务,然后知道支付宝有什么好的服务,然后把这个服务推向给你,这就是我们想做的事情。
金融这个领域不用讲了,有一个词叫“Financialhealth”,你肯定是希望你的金融是安全的、是健康的。我们所谓的金融助手、金融管家也是要帮助大家的,我们发现很多人特别是很多初级的投资者,股票一下跌就会卖。这时候 AI 稍微跟他聊一聊,情绪稍微稳定一点,股票就不会卖了。因为很多人金融的决策不是理性的,而是情绪的,或者是道听途说有一些消息,有一些紧张情绪,就会做一个对他整体持仓不好的操作。医疗也是一样的。我们对风险的零容忍,其实是我们对自己有一个非常高的坝,我们觉得我们推出的服务、产品、技术,应该是经得起足够大规模的考验,以及足够挑剔的人群的考验的。所以,我们觉得在金融和医疗这里,是民生,是对每个人都重要的领域,值得我们真正去投入做,而且这也是对我们技术一个非常大的挑战,放眼整个行业来看,说的骄傲一点,如果我们不出手谁出手呢?我们觉得在这波技术的变革之下,我们应该可以去做这个行业的。
AI 创新和风险是要平衡的,一个是我们非常注重本身的科技伦理,技术是双刃剑,它有两面性。但是我们如何把握好这个技术,真正的让它科技向善,而不是去作恶。所以,我们有两道(关卡),一个是科技伦理委员会,每年我必须参加。在大模型这个领域我们也投了很多资源,蚂蚁百灵大模型接近 20% 的人是在做安全性,不能出现一些有伤社会伦理的事情;第二个是在风控与合规技术。这块我们的投入也非常大,这两个东西是一个枷锁,某种意义上有点像汽车的安全带,你想开快的时候一定要把安全带绑好了。但是安全带你能说他是枷锁吗?他是,但是某种意义上是能够让你上高速开的更快,我们就是这么去理解风险和创新的关系的。
Q7:原生多模态,您怎么看原生多模态这个趋势,它的能力边界在哪儿?
A:人机交互应该是这波 AI 革命所带来的,并不是 AI 本身。但是,我跟你在交流的时候,有语言、表情还有手势等等,这就是我们理解的多模态。
不是说我们今天的原生多模态就是去认识那个花是什么、那个草是什么,当然这个东西也有市场前景,但不代表原生多模态就应该去做这个东西。原生多模态核心的逻辑跟大模型一样,大模型大家都知道,今天的 Transformer 所有的架构,是从翻译来的,翻译里面是 LP 里面最难的一个领域。但是今天大家看,习以为常了。它最难的在哪儿?就是对齐。中国的语言和英文的语言,现在看似对的很齐,但其中包含跨文化的问题,比如在翻译诗词的时候就很难对齐。原生多模态的时候我们在跟什么东西对齐?是将人类的语言和我的手势、和所有自然界的东西对齐。所以整个大模型在干的一件事情,本质上就是在对齐。但是原生多模态意味着什么?我们把世界的万物、各种模态的数据,我用这个手势代表的是什么意思,我用语言表达出来的是什么意思?这个东西要对齐,这个是我们的核心。所以,这是大模型最核心、最关键我们在做的事情。
原生多模态,我们要理解后面的本质,徐鹏博士在负责我们的语言大模型,包括百灵,我们为什么会把这个组合放在一起,是因为我们觉得语言只是一个看似比较好对齐的东西。语言不是人造的,不是一个自然界的东西,它本身是有边界的。每发明一个词,边界会扩展一点,但是总体是有一个边界的。你今天如果扩展到多模态或者原生多模态这个领域,它的边界肯定是扩大的,它这个问题的象限或者复杂度是呈指数倍上升的。那我们判断要不要做这个事情?虽然它的难度很大,从中国的角度你必须要攻克这个事情,而不是说我跟在别人后面。这个事情本质上它是有意义的,就跟人脑是一样的,小朋友有的时候不会语言,他也看得懂你的知识。一只小狗,它也知道你摇摇手、或者挥挥手是什么意思,它也没有语言,这个东西是更底层的东西。所以我们未来的多模态就是帮你做一个东西,让你知道你的小狗狗到底最近怎么了。很多人不知道,我认为这个是我们可以攻克的。
所以,我们在做这个事情,回答你的边界,肯定是高于语言本身的,因为语言的边界是人为划了一个圈,但是它依然是核心,因为人类的智慧基本上就在语言的边界里面,能被语言表达出来的东西,其实都是人类的智慧。
Q8:去年 ChatGPT 刚出来的时候,咱们的认知有没有发生变化?
A:我们其实每天都在发生变化,但是大逻辑没有变。当然这可能是技术的局限,我们觉得这是一个很好、很先进的一个技术,而且最关键的是它让大家看到了一个可能性,我认为所有人去做就是因为这个可能性。但是从另外一方面,我们更关注的是,如何让它真正的能用起来,不是说只是变成少数人的 AI,我认为应该是大部分人的 AI,是所有人的 AI。我们思考的是怎么让这个东西做的更好用、更经济、更可靠,要把这个东西做出来,这是我们的一些思考。
Q9:现在可以看到几乎所有的互联网公司都在提大模型,大模型也用到各个领域。大模型背后是大数据或者云计算或者数据各方面应用。大模型会不会成为下一次宕机的威胁所在,这个技术会不会对所有平台造成新的技术挑战?出现这种问题,究竟是技术不够还是对技术的敬畏不够?
A:蚂蚁技术开放日是 2015 年的一次宕机引发的,到今天差不多 10 年了。这 10 年以来技术不断地发展,但是宕机和某某平台崩了还是会在热搜上出现。你刚刚提到敬畏技术,那这 10 年里面到底是技术不够还是敬畏不够?AI 本质上是不是足够大的风险?我倾向于更积极的去理解它。你说今天的互联网技术是不是一个风险?它很多时候其实是一个风险。但是我们需不需要互联网?我相信在座所有人都觉得我们需要互联网。任何事物都有它的两面性。
技术我偏向于中性的去理解它,关键在于你怎么使用它,你把它用在哪儿,或者说你对它有没有足够的敬畏,知道它的能力边界,不会去放大它,不会去夸张的吹嘘它。我认为 AI 这波浪潮也是一样的,打个比方,我一直认为它是大号的“复读机”,全世界的知识它能够复读出来。你把它用在关键核心的地方,可能你就要承受这种关键核心地方崩塌所带来的风险。你把它用在不重要的地方,那它就是一个背景音,像一个“收音机”,挂了就挂了,就是这样的一个逻辑。
到底是技术不够还是敬畏不够?我认为这是大家对技术的期待越来越高了。试想一下十年前或者更早一段时间,其实很多网站是有宕机护时间的。但是今天再看,哪个网站说我要宕机维护一下?国外的云几乎都需要维护,但是在中国,在阿里云是没有的。我们今天的技术在越来越深入的进入到国计民生各个行业。以支付宝为例,我们经常跟自己说,十年前的支付宝和现在的支付宝完全不一样,今天的支付宝要宕机 1 秒钟,可能上海的地铁的闸机就过不去了,但十年前我们是没有这个职责的。所以那时候宕机宕 2 个小时,大家觉得日子照常过,但是今天支付宝宕机 2 小时,那会产生非常大的影响,这是我们今天对技术的要求不一样。在这个过程当中,我认为技术不怕挑战,核心是说我们有更高的要求了,我们的技术一定会往上走的。AI 技术也是一样的道理,我们有要求,有足够的敬畏,有足够的投入,它一定会有足够的产出。
Q10:如果一个大模型要做到可靠的话,是目前 Transformer 这个底层是可以优化的,还是说需要一些技术辅助它去做,您有什么技术可以分享的?
A:我首先纠正一点,Transformer 不关键。因为 Transformer 的本质就是把序列数据变成并行化。之前语言大模型的训练是不可能那么快的,就算有卡也是不可能那么快的,Transformer 核心改变的就是这个。它的本质是在于我在模型训练时,包括从数据到最后的产生的输出,每一个 token 都是预测出来的,预测它一定会有误差的。但当你的误差累积到一个程度,它就一定会胡说八道的。所以,本质上是在控制这个数据流我怎么流进去以及我怎么输出来,让它在足够小的误差范围内,以及误差不要累积。
至于解决这个问题,肯定是有些手段和办法的。第一个是大家都知道所谓的 RAG,它核心是控制它的输入,我只能从这个知识库里面去流向到模型系统,然后再做输出,本质上是控制它的输入。然后,输出是靠什么?我们蚂蚁也开源了在金融领域的一个多智能体框架 agentUniverse。输出是干什么呢?我们是要多个模型去对,甚至按照一定的 SOP,按照一个专家流程来产生这个输出。或者简单讲,我们要尽量收紧它可输出的范围,来进一步的控制它的精确性。当然这个东西的问题就在这儿了,AI 其实就两个事,一个是泛化,一个是精准,足够泛化就很难精准,足够精准就很难泛化,这是一个本质矛盾。我们要干的事情是什么?我们在控制输入、控制输出的过程本身就是这么一个逻辑,在控制输入的时候它要足够的泛化能力,足够的泛化能力它是要靠中间的模型足够大、内容要足够多,然后我两头一掐,它牺牲掉以后,既有足够的精准性又有足够的智慧。
评论 1 条评论