写点什么

章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势 | QCon

  • 2024-06-28
    北京
  • 本文字数:10527 字

    阅读完需:约 35 分钟

章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势 | QCon

4 月 11 日,由极客邦旗下 InfoQ 中国主办的 QCon 全球软件开发大会暨智能软件开发生态展在北京国测国际会议会展中心正式召开。主论坛压轴的圆桌对话环节,AutoMQ 联合创始人 & 首席战略官章文嵩、ProtonBase 研究员蒋晓伟、阿里云数据库产品事业部负责人李飞飞、蚂蚁集团 AI 安全商业化总经理张凯围绕“大模型时代的数据智能新趋势”主题展开了巅峰对谈。


InfoQ 将于 10 月 18—19 日举办 QCon 全球软件开发大会 上海站 ,覆盖前后端/算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。


会上我们也设置了【下一代 Data for AI 技术架构】专题,将从 LLM、智能 Agent、RAG 等不同的热点领域方向,来探讨新一代 Data 技术的突破方向与思路。了解更多内容,可访问大会官网:https://qcon.infoq.cn/2024/shanghai/track



以下是对谈实录,经过不改变原意的整理和简化(感谢 ProtonBase 对稿件整理的大力支持):

AI 与数据,它们的生产关系是不是发生了变化?


InfoQ:今天我们想探讨的是数据在大模型时代发生的一些变化。当下有一个话题非常火热,大家都在讨论 Data for AI 和 AI for Data ,在接下来的圆桌环节,我们希望以这个为话题展开讨论。


接下来我们讨论的第一部分话题是 AI 与数据,它们的生产关系是不是发生了变化?这次 QCon 展区悬挂了一些条幅,有咱们四位嘉宾的金句以及 slogan。其中飞刀的条幅上写的是算力驱动与数据驱动助力智能化时代加速进化,云原生与智能化推动结构化、半结构化、非结构化数据走向一体化、一站式处理。您能否解读一下这个观点?


李飞飞(飞刀):我觉得大模型本质上是一个数据驱动的 scaling law,从量变到质变发生作用的这么一个过程。今天这个趋势是很明显的,人工智能的经典理论体系里面是有符号主义和连接主义的,实际上这两个路线一直在螺旋式上升,有一段时间连接主义是看到一些曙光,但后来沉寂了很久,实际上我大学上本科的时候就有 Neural Network(神经网络)这个概念了,但当时根本没有看到它的潜力,但它的基本框架很早就有了。


后来我们又转到了以知识图谱为代表的三元组的这种符号主义,逻辑推理等,直到今天的大模型,我觉得有点像《指环王》里面的王者回归。好像连接主义 dominate everything,本质上是这么一个简单的总结过程。为什么我会说算力和数据驱动会让数据的处理变成一体化和一站式,核心就是数据有这么几种形态——结构化、非结构化、半结构化。在我们数据管理系统的历史发展长河中,到现在为止,我们做的比较好的是结构化数据的处理,从传统的数据库再到数据仓库,再到从数据仓库衍生出来的大数据的体系,基本上还是围绕结构化数据来处理的。


非结构化、半结构化数据的处理说实话是浅尝辄止的,但是我觉得大模型的突破,尤其是 scaling law 的进一步发展,有可能会打通符号主义和连接主义,这是我个人的一个判断。当这件事发生以后,我觉得结构化数据、半结构化数据、非结构化数据的一体化一站式处理将变成现实,我觉得这是非常激动人心的一个时刻。


在另外一个经典的模型里面叫 DIKW——Data ,Information, Knowledge, Wisdom(数据、信息、知识、最后再到智慧)。Data 是最底下一层,我觉得我断言句的核心逻辑是我认为在接下来的 3~5 年,一个非常大的机会点是如何将多模态、各种类型的数据做到统一处理。统一未必是说通过一个引擎、一个平台,这个未必,可以是多个引擎,比如说存储统一、元数据管理统一,其中还是有多个引擎的。但是数据之间的流转、语义的理解、上下文的理解、任务的转发、数据流的这种处理,我觉得是可以被自动化或者被屏蔽掉的。从最终的业务视角来看,就是数据的一体化一站式的处理。这是我对断言的一个简单的解读。


蒋晓伟(量仔):我非常同意飞飞老师,此外再补充两句。整个数据库和大数据所做的事情就是试图去理解数据,什么是结构化数据和什么是非结构化数据,它们的定义其实是在不断变化的。在关系型数据库出现之前,可能我们认为所有的数据都是非结构化的数据,但是关系型数据库引入了表的这种抽象,我们就开始给数据库表的结构。


在过去的两年之中,大语言模型对自然语言有了越来越深的了解,通过嵌入向量这种形式,给我们传统上认为是非结构化的文本数据赋予一种新的结构。这正是大数据和数据库对数据理解的下一个阶段。


随着从 AI 开始向 AGI 迈进,下一步自然就是给数据赋予智能的结构,接下来数据系统会有一个巨大的改变,数据系统新的使命将会是让数据涌现智能。


章文嵩:我其实跟他们两个的观点是一样的,实际上未来是更多的数据,多模态的数据,包括结构化和非结构化数据。另外尤其是现在的大模型,实际上是我们用大模型生成 embedding 很多向量数据,向量数据大部分是 AI 程序在用,我们现在在关系型数据库、数仓里面实际上存的都是基于关系型的数据,未来大模型更多使用的可能是基于概率的数据,这些向量数据。所以我觉得这个市场未来会非常大,因为关系型数据库的市场是一年几千亿美金的市场,未来云原生的向量数据库市场可能也规模不小。


张凯:蚂蚁今年有一个大的背景, AI First 也就是人工智能优先是我们集团的三大战略之一,所以从整个集团层面非常重视 AI 的投入。我所在的是安全相关的领域,我们自己内部有一句口号叫“AI 需要安全,安全需要 AI”,其实是形成一个自闭环。从生产关系的角度就是 AI 跟数据,我觉得第一点是数据本身已经成为生产关系的一个制高点,因为我们原先在训练模型的时候,更多的是模型驱动,数据本身对于模型的效能的占比不会特别大。随着大模型的出现,整个数据量级,包括数据的复杂度,数据已经成为生产关系的一个制高点。


第二点就是 AI 作为一个新的生产力,包括今年政府两会的报告也经常提出新质生产力这样一个新的名词。其实本质上我是觉得 AI 本身作为生产的一个生意,它已经具备了人脑的一些能力,我们经常说 AI 助手或者 AI 助理,不是说它在体力方面能够帮助我们去做什么,而是因为它在智力层面已经具备了一定的能力。从生产力的角度来看,这是一个非常大的升级。


最后一点我觉得 AI 跟数据本身已经形成了一个自闭环,包括我们现在通过 AI 的自动化技术去做数据标注,包括像医疗、金融等垂类的一些数据标注的服务,也包括现在比较火的,像合成数据,通过 AI 去生成一些新的数据。其实本身 AI 跟数据在这层生产关系上其实已经形成了闭环。

AI 是否已经成为数据架构新的驱动力?


InfoQ:前几年各个公司都在提,要做数据化,以及要做智能化,这两个其实是分开提的,但是在大模型诞生之后,数据化和智能化就合二为一,变成数智化这样一个大的战略方向。AI 是不是已经成为今天数据架构新的驱动力?


章文嵩:对,关键是你说的数据架构指的是什么?是整个数据链路的工程实现吗?如果是底层的系统工程实现,AI 怎么作为一个辅助力量,类似 Github 的 Copilot。当我们在编写程序的时候,它可能会给我们一些帮助,一些提示,但是还是得我们自己来选择。因为我觉得现在深层次的人工智能,它本身是并不理解这个结果的,因为它根据历史的数据进行预训练,然后针对问题,根据过去预训练出来的这些概率统计、组合生成一个结果,我觉得模型本身对这个结果是不理解的,所以有时候我们看到它一本正经地胡说八道。当然并不否定这个模型本身的有效性,它能把人类所有的文本知识都压缩在网络里面,如果我们会问问题,能很高效地找到想要的知识的话。当然,对生成的结果我们自己也要判断。所以我们做数据链路的工程实现上,整体的架构设计我们要理解需求是什么,要知道很多架构设计背后各方面的开销是什么,最终进行取舍。我觉得目前的大模型取代不了这方面的工作,最多是一个辅助的手段。


李飞飞(飞刀):文嵩刚才讲到的其中一部分,比如说代码生成 Github Copilot,我们在大量的实践中发现目前的这种 Copilot,它对比如说前端代码的生成已经做到几乎非常完美了,还有比如说生成 UT 我们基于通义的灵码做得已经非常完备了,但是真正的底层系统架构的这些内核的代码,说实话目前还是有挑战的。


核心的原因还是因为今天的大模型是基于连接主义的,本质上它是一个压缩总结,然后概率性地预测的一个逻辑,所以它的可解释性以及推理能力还没有那么强,当然这块是有可能会被颠覆的,因为如果它真的就是一个 scaling law 堆积的过程,可能它最终会从连接组里面自动地带出符号主义,就是所谓的智能涌现这个能力,真的就是 AGI 了。当然至少目前这件事还没发生是吧?我也不知道会不会发生,这是第一点。


第二点实际上在 AI 辅助这个事情上,我觉得这是大概率会渗透到我们的方方面面。在接下来的 2~3 年,我觉得一定会看到这件事的发生,不光是在代码生成这一个场景,可能在很多的场景下,通过 multi-agent 的这种应用,Agent 之间的,API 的,如果说我们的数字世界各个模块的 API 构建得足够地标准、完善,我觉得 AI 驱动的 multi-agent 会确定性地发生,当然前提是我们各个模块的 API 要足够标准,足够模块化。


最后一点我想讲的是,至少在目前看来,AIGC 适合没有非常严苛要求的场景,比如说生成一个文本,生成一个 transcript,生成一个图片。对有非常严苛的正确性要求的,我刚才和量仔还在底下交流,这种有极其严苛要求的任务,至少目前的大模型的能力还没有做到完全取代人的作用。这是我对这个问题的几个回应。


蒋晓伟(量仔):我非常同意文嵩和飞飞老师所说的,智能其实分为两个部分,第一个部分是人的直觉,见到一个事情,我觉得什么是对的。第二个部分是推理能力。我给了一个证明,我是不是能够读懂这个证明,这个证明是不是严格,来做这么一个判断。现在的大语言模型,生成式 AI,在直觉上我认为已经达到了人类水平,甚至已经超过了人类水平,但是在推理能力上与人类还有很大的差距。


推理能力的完善其实就是通向 AGI 之路,一旦它有了严格的推理能力之后,我们就已经跨越了奇点,达到了 AGI。在那步达到之前,我们需要选择对错误有容忍的场景。比如我们让它写代码,有错误的时候可能就会有问题,需要人去查看。但是如果让它写测试代码,测试一些错误,它的容忍度会相对高一些,所以我们就需要在工作之中去发现、挖掘这种场景。


InfoQ:其实我还想问一下大家,在各自的公司中有哪些地方已经开始已经利用大模型去改造你们的一些业务了?


蒋晓伟(量仔):现在还在初期,我们尝试着用大模型写一些测试,这也还是初期的一些尝试,同时我们也试图去用大模型从文本生成一些 SQL,效果现在还是有待改进。


李飞飞(飞刀):我具体讲两个例子。一个是代码生成,当然我们在公司内部不可能用 Github Copilot,因为安全的问题,我们自己基于通义做的灵码效果也非常好,我们现在全员用灵码做代码生成,尤其是前端代码,还有像测试 UT 等等,还有像一些任务流的生成,效果非常好,对我们 LOC 的提升是非常明显的,这是第一个。


第二个是比如说在应用侧 NL2SQL,借助大模型的能力去构建新的和数据库、大数据系统的交互方式,这块我觉得也是取得了非常好的业务进展。


张凯:大模型蚂蚁这儿其实是三类,第一类就是基座大模型或者是通用大模型,因为大模型大家现在看到它最强的能力其实是它的通用能力,也是为什么我们叫它 AGI 的原因,它能回答你各种各样的文科问题、理科问题等等,这是一类。


第二类其实我们会结合蚂蚁的禀赋去做一些垂类模型,比方说金融的大模型或者是医疗的大模型,大家在支付宝上可以看到,我们在 4 月初上线了一个医疗服务的大模型助手,因为我本人其实就头疼去医院挂号,专家问询等等。


第三类其实就是我的专业领域相关的安全大模型或者是大模型安全。因为大模型本身的一些内生的,像内容安全、数据安全等,一会儿我们可能会展开聊这块。

湖仓一体,它的终极形态应该是怎么样的?


InfoQ:我们可以看到目前为止,已经有各种各样的数据,它可能是非结构化的,也可能是半结构化的,包括它们可能是从不同的地方过来的,那么面对这样一些不同来源、不同形式的数据,是不是有一些新的方法能够实现更加有效的多模态数据融合?


章文嵩:前面飞飞已经提到过了,多种来源的数据肯定最好是在一个平台把它存起来,在一个平台进行加工处理。这个肯定是湖仓一体,这是大趋势。


InfoQ:我想沿着湖仓一体这个话题来问下一个问题,在您看来,湖仓一体,它的一个终极形态应该是怎么样的?尤其是在咱们大模型的推动之下。


章文嵩:湖仓一体的终极形态就是要集成多种数据源的存储处理,包括上面的使用。然后跟现有的很多系统应该可以对接起来,应该可以把更多的数据汇集到最终的一个平台上面来。


蒋晓伟(量仔):我的观点可能稍微有点争议。湖仓一体我们首先得理解它解决的问题是什么,我觉得数据湖主要解决两个问题:第一个问题是我们在一份数据之上需要有各种各样的数据处理能力和计算能力,现在没有一个系统能够具有所有的数据计算和处理的能力,所以我们就开始有了用多个引擎在同一份数据上处理的能力,所以我们把数据放到 S3,放在对象存储之中,这就形成了一个湖。这是它需要解决的第一个问题,能够在数据之上有更丰富的处理能力、计算能力。


它解决的第二个问题是成本问题,因为对象存储相对比较便宜,把数据存在对象存储之上能够减少我们的存储成本。


随着技术的发展,慢慢地会产生更好的平台或引擎,它们具有多种计算的能力,这个时候对湖的需求就会慢慢地减少。所以随着技术的发展,我认为湖的场景会变得越来越少,甚至湖就成了仓库的一部分,变成了房间里的一个游泳池。


所以我觉得湖仓一体的最终形态可能是湖被完全吸收到了一个功能更加强大,成本更低的数仓之中。


章文嵩:我觉得没有什么冲突,因为大部分的数据无论是结构化还是非结构化数据都会汇聚到类似对象存储上面去。对象存储之后,因为存算分离上面的计算部分可以有多种多样的计算引擎,这并不矛盾,因为如果我们把所有的数据汇聚到对象存储一个统一的存储层,那上面可以支撑所有的,因为统一的数据视图对任何一家公司、任何一个组织来说是至关重要的,在上面我可以堆叠很多种引擎。


我觉得终极的形态,首先上面肯定是更多地用自然语言来使用这样一个平台,量仔也在尝试能不能通过自然语言生成 SQL,这个准确度肯定是会随着时间不断地提高的。另一方面,计算引擎之上肯定更多的 AI 的程序会来使用。我们现在数据分析师做决策,大部分都是分析师在那看,未来是更多的程序,更多的 AI 程序查看数据,所以我觉得未来肯定是这两个趋势。


李飞飞(飞刀):为什么我那个断言里面提到了很重要的另外一个词叫云计算,我觉得算力的基础设施化,一定会让我们计算资源的解耦变成一个现实,比如说现在的存储计算分离,甚至下一代,我认为在计算这一层, CPU 和内存也会分离,内存也会池化。这样就带来一个显而易见的趋势,就是最底下的一层存储肯定是统一了,成本低,但延迟可能比较高,比如说像对象存储这样一层。然后为了计算加速,要有存储的专属格式,这是为什么以前有各种各样的数据系统的一个根因。但是存计分离以后,有三层的分离以后,专属格式可以在成本比较高的存储这一层再来实现,最低那一层的存储,就是一个通用的存储格式。所有标准层的,不管你上面是什么类型的,到那层统一掉,然后在上面这一层,比如说块存储,甚至本地盘,甚至到内存池化这一层,再转化成专属格式来做计算加速,然后计算有多个计算引擎,计算引擎计算可以是无状态的。


只要对用户做到元数据的统一管理、隔离、安全、AccessControl,并保证体验的统一,逻辑上来讲还是多个引擎,但是对用户侧来说,感知是完全统一的。我觉得未来大概率是往这个方向去演进。

如何衡量数据系统的物理极限?


InfoQ:量仔之前接受过我们的一个采访,当时你提到了一个新的名词 Data Warebase,这应该是一个比较新的词,能否再给我们阐释一下?


蒋晓伟(量仔):好的。最近马斯克在他的 X 平台发布了一个分享,他说评价一个产品正确的方式,不是跟竞争对手比(太容易),而应当跟物理极限比。如果我们把追求物理极限当做一个数据系统的目标,那我们应该从哪几个维度来评价物理极限呢?技术到最后还是要服务于业务,我认为从业务的视角来看,它有三个核心的需求:性能、正确性和实时性。


第一个需求是性能,它也是最显然的一个需求,性能也是过去 20 年里大数据蓬勃发展背后最主要的推动力,特别是在 AI 时代,数据量急剧增长,AI 对性能的需求也在不断地提升,用户希望数据系统能够满足 AI 所带来的无论多么高的性能需求,这是一个方面。第二个同样在 AI 时代,用户使用数据的方式也会变得越来越多样,场景也会越来越复杂。作为一个好的追求极限的数据系统,它能够满足数据任意使用方式的性能需求。


第二点是数据的正确性,正确性就意味着任何时候存储在系统之中的数据都是正确且一致的,当我们做任何一个查询,返回的结果也都是正确的、一致的,只有做到这一点,在数据系统之上用 AI 所做的各种智能决策才能够有坚实的基础。但数据的错误往往比较隐蔽,因此这一点比较容易被忽略,但是对于一个追求极限的数据系统来说,这必须是一个业务最核心,而且最基本的需求之一。


第三点是数据的实时性,不同的系统可能对数据的实时性要求不一样,有的系统达到小时级的实时性就够了,有的系统需要分钟级甚至秒级实时性。在有了 AI 之后,就可以通过 AI 让系统自动地做出很多决定,因此数据链路的实时性往往决定决策链路整体的实时性,这也会影响数据所能产生的业务价值。作为一个追求极致的数据系统,我们自然也希望它能够满足最苛刻业务的实时性需求,也就是它的数据延迟性必须做到任意的低。


我认为从业务这三个核心需求出发,接下来会涌现出一类全新的数据产品,它就是分布式 Data Warebase。Data Warebase 是 Data Warehouse(数据仓库)和 Database (数据库)这两个词的融合,它意味着这样一个系统同时具备了数仓和数据库的所有能力。分布式 Data Warebase 在数据库的场景将会是一个更好的数据库,因为它解决了数据库水平扩展的问题。分布式 Data Warebase 在数仓场景也会是一个更好的数仓,因为它同时解决了数仓场景数据正确性和实时性的问题。


所以分布式 Data Warebase 是从业务的三个核心需求——性能、正确性和实时性出发得到的一个必然推论。它不是一个发明,而是一个发现。


章文嵩:针对量仔说的这三点,我觉得应该再增加两点。第一个点是成本,因为是不是以最低的成本满足业务的需求,实际上是我们永远追求的。我的系统有没有足够多的弹性?随着业务的需求的增长,成本是逐渐增加的。另外就是安全性对吧?我们做任何系统怎么确保数据的安全,怎么确保用户的隐私,数据的保护,任何异常的行为,都要确保安全性,这样才会有业务的安全。


InfoQ:量仔其实提出过一句话,叫“从业务本质需求出发,探索数据系统物理极限”。所以前面的回答是在阐释这句话?


蒋晓伟(量仔):是的,如何衡量数据系统的物理极限,我们刚才说到了性能、正确性和实时性。文嵩老师又加了一个成本,在我看来成本其实是性能的一部分。


章文嵩:我觉得可能我们可以综合一下,这 5 点有可能是我们做系统永无止境追求的目标。


蒋晓伟(量仔):是的,非常同意。

数据和 AI 的基础设施协同目前已经达到有效的方式了吗?


InfoQ:文嵩老师其实一直在深耕数据基础设施层面的工作,在您看来,当前这个情况下,数据的基础设施和 AI 基础设施它们的协同目前已经达到一个有效的方式了吗?还是说我们还可以有一个更好的方式让它们更好地协同起来?


章文嵩:因为数据跟 AI 本身就是一体的,AI 需要数据,在数据上我们能产生更多的智能,但是我们知道 AI 成功的三个主要要素,我觉得是人、数据还有算力。为什么说人,我觉得人在里面是最关键的,人包括领域的人才、算法的人才,还有工程的人才,实际上要聚合这么多的人才并不容易,这实际上使得 AI 的门槛相对来说是比较高的。所以怎么样复用这些人才的经验,你要有数据的基础设施,包括 AI 应用的基础设施,能不能让更多的用户来使用 AI 的基础设施,搭建应用更方便。前面郭东白老师的分享中提到他是做应用架构的,要做很多的选择,其中一个考量点是要不要做 AI 大模型,我实际上有不同的观点。因为 AI 的模型实际上规模越来越大,从几千亿的参数到几万亿、几十万亿,未来 GPT6 要到 100 万亿这样参数的规模,这些 AI 的大规模训练成本不是中小企业能承担的,也不应该是中小企业要考虑的范围。所以我们更多地要用第三方的基础大模型服务,或者基于开源已经训练好的开源大模型来做,因为上面有更多灵活性。


所以上面你刚刚提到的两者,云原生的数据基础设施跟云原生的 AI 基础设施,肯定是相互协同的,因为数据基础设施提供了统一的、共享的数据平台,然后 AI 的基础设施之上开发应用会更加方便,更加快捷。我觉得在大模型时代, AI 应用的模型各方面的开发门槛会大幅降低,越来越多的中小企业甚至个人都可以做自己的 AI Agent。

数据安全领域的新挑战与发展方向


张凯:在当下的应用来讲,生成式 AI 的特性已经模糊了我们传统安全的边界,所以带来了大量的不确定性。主要包括三块:


第一块是数据层面,数据层面按照大模型的生命周期来讲,最早是要做预训练。预训练的时候,喂大量 PB 级别的数据进去之后要祛毒,包括里面的一些数据安全、伦理安全等等,需要快速甄别海量数据的安全挑战,这是第一块。


第二块是预训练结束之后需要进入到微调阶段。微调阶段其实核心是考验数据标注的准确性,数据标注的准确性可以帮助我们让大模型的价值往我们想要的那个方向往前发展。


但是这两块其实也只是基础,再往前走的话,其实是应用层面。应用层面我们蚂蚁团队现在在做一个产品,叫蚁天鉴。它分为两部分,一个叫蚁鉴,蚁鉴是给大模型做体检的,包括大模型本身的数据安全、内容安全以及科技伦理等等,就看整体大模型的一些风险程度,确保这块是没问题的;另外一部分叫天鉴,相当于我们在大模型的外部设置了一个围栏,确保整体大模型在应用层面有边界保障。


InfoQ:当前在数据安全领域,老师观察到有哪些让您觉得很兴奋的,或者说让您觉得非常有潜力的应用方向吗?


张凯:确实有几块,一块是数据层面,比方说像合成数据,合成数据大家可以关注一下做合成数据的一些,像美国的一些公司,估值都非常高,不亚于大模型厂商的一些估值。


然后我们看了一些研究报告的评估,有一份研究报告,比方说像 AI Epoch research,它预估在 2026 年之后,现有的能够提供给大模型训练的真实数据基本上已经被耗尽,这个大概率是一个趋势,那么在 2026 年之后合成数据的应用可能会成为一个必然。


第二块就是我刚才提到的 AI 标注,也就是大模型的数据标注。这块我们其实刚才提到 ScaleAI 这个公司,我们其实没有看到在国内有真正对标这家企业去为整个大模型产业链条提供服务的自动化的标注厂商,所以这块其实我们也是在积极地往前做探索。


最后就是我自己的本业,大模型安全这一块。


章文嵩:说到安全领域,我觉得有两个主要的方向,因为我曾经向安全领域的技术大佬请教过,安全主要做哪些事情,他给我三个关键词:可感、可控、业务优先。可感,你能感知到整体的安全形态怎么样,然后如果有危险、有风险的话要可控,安全响应系统是怎么样?当然业务优先,当安全跟业务发生冲突的时候,那个是一个价值的判断,一定要满足业务要求,然后我们最大的安全能做到怎么样。


所以在这里面我觉得可感、可控方面,这是安全里面的两个最大的领域。可感、可控,实际上 AI 技术怎么来应用到里面去,因为全局的安全事态感知系统,包括全局的安全响应系统,实际上这里面我觉得有很多值得去探讨的。


李飞飞(飞刀):如果把人当做一个智能的计算体的话,本质上有三个关键步骤,一个是感知,文嵩和张凯讲到的这个感知这部分,就是可感、感知。


第二就是计算,获取感知以后,把它转化成各种脑能够处理的信号做计算,那么在计算过程中,需要确保不出差池。整个最后的结果是有逻辑性的,有推导条理的,这就要有安全的保障。所以总结就三件事,就是感知、计算、安全,大模型能否够帮助我们把这三件事做得更好,是挺令人激动的一件事情。

总结:数据智能时代的未来趋势


蒋晓伟(量仔):过去的这么多年,业务发展非常快,数据量变得越来越大,大家都疲于奔命去解决系统的性能问题。这些性能问题有很多是由于场景变得越来越丰富,特别是 AI 所带来的。随着技术的发展,性能问题逐渐得到解决,在大部分场景已经不再是业务的主要阻碍,而当性能问题解决之后,我们就必然会看到更深层次的一些需求。比如说刚才我们提到的几个需求(性能、正确性和实时性)。除此之外更重要的是大家必然会对体验更加重视,接下来对体验的重视会使一些新的产品涌现,体验将会成为区分下一代新产品一个很重要的标准


此外,AI 时代会给整个数据系统带来一个新的使命,就是让数据涌现智能。 我希望和大家一起来探索下一代的数据系统。


张凯:昨天我们内部看马老师写了一封长信,鼓励大家继续上路,其中他也提到了 AI 这一块,跟大家共勉,大概意思是说 AI 时代已来,但是我们现在其实才刚刚上路。我自己其实也是这样一个心态,作为一个初学者在路上,但是仍然会觉得非常兴奋。 AI 相关的这些数据模型,包括安全等等,我自己还是蛮期待未来几年这个行业的一些变化的。


李飞飞(飞刀):其实挺难总结的,我觉得数据与 AI,两者缺一不可。未来如果大家从事相关工作、真想把 AI 做好,不是只做上面的应用,而是希望真正在这方面有一些贡献并真正产生影响力的话,底层数据系统的构建原理,是值得花时间去思考的。


章文嵩:我觉得智能化第四次的科技革命可以持续 100 年,所以在这 100 年里面,我们其实有很多工作值得去做,云原生的数据基础设施,云原生的 AI 基础设施,可以大幅降低 AI 应用的门槛,未来一定会有大量的 AI 应用涌现出来。


活动推荐:


InfoQ 将于 10 月 18—19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端/算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 8 折优惠,单张门票立省 960 元(原价 4800 元),详情可联系票务经理 17310043226 咨询。



2024-06-28 15:019580
用户头像
蔡芳芳 InfoQ主编

发布了 801 篇内容, 共 564.4 次阅读, 收获喜欢 2794 次。

关注

评论

发布
暂无评论
发现更多内容

普通工程师简史

郭华

DSN 主流项目调研 2——Sia和SAFE Network

AIbot

区块链 分布式存储 分布式文件存储 Sia SAFENetwork

易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

易观大数据

你看脸吗?

shengjk1

随笔杂谈

Django中的session的使用

BigYoung

django session Cookie

关于微服务架构的一些思考

俊俊哥

微服务

网站域名备案怎么做?有哪些快速备案的方法?

姜奋斗

网站 备案 网站搭建 域名解析 网站平台

熬得住,人生路

shengjk1

随笔杂谈

我国开启“逆袭战”,区块链的盛夏来了?

CECBC

云计算 区块链技术

Django查看操作数据库的执行命令

BigYoung

数据库 django 操作

低/零代码会让程序员失业吗?

代码制造者

程序员 低代码 零代码 信息化 编程开发

流媒体云时代的声与色,融云铺就的桥与路

脑极体

手抖了

shengjk1

随笔杂谈

每个大火的“线上狼人杀”平台,都离不开这个新功能

ZEGO即构

游戏 RTC 社交

《深度工作》学习笔记(6)

石云升

读书笔记 专注 深度工作

解析中美数字货币竞争战略 | 构建属于“人类命运共同体”的货币体系

CECBC

数字货币 人民币

Cobra 命令自动补全指北

郭旭东

cobra Go 语言

浅析Python中的列表和元组

wangkx

Python python升级

SpringBoot系列(二):如何灵活使用SpringBoot

xcbeyond

Java 微服务 springboot

LeetCode题解:88. 合并两个有序数组,for循环合并数组+sort排序,JavaScript,详细注释

Lee Chen

大前端 LeetCode

流量明星翻车的“直播卖房”,为什么众盟做成了?

脑极体

一文搞懂Flink rocksdb中的数据恢复

shengjk1

大数据 flink源码

别让非理性思维毁了你的人生

看山

随笔杂谈 非理性 认知偏差 自控术

数据平台、大数据平台、数据中台……你确定能分得清吗?

华为云开发者联盟

大数据 数据中台 开发者 数据湖 数据

害怕

shengjk1

随笔杂谈

SpringBoot系列(三):SpringBoot特性_SpringApplication类(自定义Banner)

xcbeyond

Java 微服务 springboot Banner

奋斗在一线大城市的年轻人的生活工作实录(工厂蓝领篇)

Learun

程序员 软件开发 故事 企业信息化 短片小说

DSN 主流项目调研 3——Orbit数据库的故事

AIbot

区块链 分布式存储 IPFS 分布式文件 Orbit

《深度工作》学习笔记(完)

石云升

读书笔记 时间管理 专注 深度工作

JAVA位运算

彭阿三

Java 位运算

美丑平等

shengjk1

随笔杂谈

章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势 | QCon_数据湖仓_蔡芳芳_InfoQ精选文章