2025技术预测|AI研究与应用|小红书、华为仓颉的AI实践 了解详情
写点什么

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

  • 2024-10-14
    北京
  • 本文字数:3575 字

    阅读完需:约 12 分钟

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

随着生成式 AI 和大模型技术的飞速发展,数据管理和基础设施领域迎来了前所未有的挑战与机遇。海量数据的处理需求、跨云环境的数据治理,以及 AI 平台的高效性和扩展性,已经成为企业在 AI 时代需要解决的核心问题。


为了应对这些技术趋势和挑战,10 月 18 日 -19 日即将 QCon 上海站,我们特别策划了《下一代 Data for AI 技术架构》专题,邀请来自 DatastratoFounder & CEO 堵俊平为专题进行内容把控,他在数据与 AI 赛道耕耘十数年,曾任 LF AI & DATA 基金会董事主席,500 强企业开源战略与生态负责人,前腾讯开源联盟主席及数据平台总监。


本专题论坛,我们邀请了来自字节跳动、Datastrato、Zilliz、JuiceFS、PayPal、OPPO 等顶尖技术专家的分享。他们将从大模型场景的数据湖优化、AGI 时代的数据目录设计、向量检索技术提升、AI 存储系统架构优化、企业级 AI 平台建设等角度,带来关于数据与 AI 深度融合的前沿探索与实战经验。以下为详细介绍~


精彩分享一:


随着大数据和 AI 技术的蓬勃发展,数据湖方案在应对海量数据分析场景上已相对成熟。然而,伴随大模型的崛起,云上数据湖面临了全新的挑战。


在本次 QCon 分享中,字节跳动技术专家李经纶将带来《云上数据湖在 LLM 场景的挑战与解决之道》的精彩分享。作为 Apache Hadoop Committer 和火山引擎 EMR 技术专家,李经纶在大规模 Hadoop 集群治理及存算架构优化方面有深厚积累。


李经纶将深入解析 LLM 场景对传统数据湖架构的颠覆性要求,如 Catalog 割裂、IO 带宽需求与延迟问题、对象存储的局限性等。他将分享火山引擎如何通过统一 Catalog、加速层优化以及 Iceberg 通用数据湖等实践,有效应对这些挑战,并推动大数据与 AI 生态的融合。


通过此次分享,您将深刻了解如何在大模型场景下构建高效、扩展性强的数据湖架构,助力企业数据基础设施的转型升级。


精彩分享二


在 AGI 时代,数据管理面临着前所未有的挑战。生成式 AI 对于数据的覆盖范围和准确性提出了更高要求,特别是在大规模语言模型(LLM)的训练与推理中,如何有效管理结构化与非结构化数据成为关键难题。


在此次 QCon 演讲中,我们将迎来两位重量级嘉宾的联合分享:Datastrato 联合创始人 & CTO 邵赛赛和小米数据开发平台负责人周康。他们将围绕 “AGI 时代统一数据目录的设计与实践” 这一主题,深入探讨数据管理的前沿挑战及解决方案。邵赛赛作为 Apache Gravitino 项目的创始人,将分享如何通过统一的数据模型来应对跨域、跨云的数据管理需求;周康则将结合小米的实际业务场景,展示如何通过 Gravitino 构建面向 GenAI 的统一数据平台,助力企业高效管理海量的结构化与非结构化数据。


此次分享将为听众带来 AGI 时代数据目录的创新实践,包括如何通过 Apache Gravitino 解决 LLM 应用中的“数据幻觉”问题,构建企业级 RAG 应用,以及统一权限治理模型如何简化数据管理的复杂性。通过他们的分享,您将了解如何在企业中落地下一代数据平台,提升 AI 应用的数据治理效率。


精彩分享三


向量检索作为 AI 时代的重要技术,在大规模应用场景中扮演了关键角色。Zilliz Senior Product Manager 张粲宇将为我们带来《提升 RAG 准确率至 90%,Milvus 向量检索实践之道》的深度分享。作为 Milvus 产品负责人,张粲宇在数据库内核与 AI 领域积累了丰富经验,曾参与 SAP HANA 和 TiDB 等核心产品的研发。


在本次分享中,张粲宇将重点探讨 RAG(检索增强生成)场景下向量检索的技术挑战,包括检索质量提升、成本优化以及数据安全的管理。他将介绍 Milvus 如何通过元数据过滤、混合检索和冷热分层存储等技术,成功将 RAG 检索准确率提升至 90% 以上。此外,他还将展示 Milvus Ask AI 的企业级 RAG 实践,为观众提供前沿的技术见解。


通过此次分享,您将掌握向量数据库的最新技术发展,深入了解如何通过混合检索优化多模态场景下的搜索效率,推动企业 AI 应用的创新发展。


精彩分享四


在 AI 和数据驱动的时代,存储系统是支撑 AI 模型训练与应用的关键基础设施。面对 AI 业务快速发展的需求,传统存储系统的选型和架构设计往往无法满足高效处理海量数据的挑战。为了解决这些问题,JuiceFS 合伙人苏锐将带来《拥抱 AI,我们需要什么样的存储系统?》的精彩演讲。


苏锐自 2017 年作为 1 号成员参与 JuiceFS 创立以来,一直负责产品的市场拓展与开源社区建设。在他的带领下,JuiceFS 已成为一款为大规模数据高性能负载设计的分布式文件系统,广泛应用于 AI 和机器学习领域,包括自动驾驶、量化金融以及热门的生成式 AI 和大语言模型等场景。


在本次分享中,苏锐将结合 JuiceFS 在为数十家 AI 企业提供服务的实践经验,深入探讨 AI 业务对存储系统的特殊要求,包括性能、弹性、扩展性等关键因素。他还将分析集中式架构与分布式架构的差异,如何在成本与性能之间取得平衡,并分享一个生成式 AI 领域的实际案例。


通过这场演讲,观众将收获关于 AI 业务中的存储系统选型策略,了解如何在海量数据场景下优化存储架构,提升业务效率与稳定性。


精彩分享五


随着生成式 AI 和大模型的快速崛起,企业对 AI 平台的需求也在不断升级。PayPal AI 平台资深研发工程师刘迟将带来《从 MLOps 到 LLMOps,支持数千模型与数百亿推理请求的 AI for Data 平台探索》的演讲,分享 PayPal 如何通过统一的 AI for Data 平台支持企业级 AI 需求。


作为 PayPal AI 平台的大模型方向负责人,刘迟长期专注于人工智能和大数据技术的研究与实践,拥有丰富的行业经验。在本次演讲中,他将深入讲解 PayPal 如何构建一个覆盖多个业务部门的企业级 AI 平台,通过高效协作和数据治理,实现对数千模型和数百亿推理请求的支持。


刘迟还将重点介绍 LLMOps 在生成式 AI 应用中的实际落地,如何构建支持 LLM 推理优化的基础架构,以及在多云和混合云环境中实现平台扩展的最佳实践。通过案例分享,观众将了解到 PayPal 在 GenAI 技术应用中的经验,如何快速扩展企业级 AI 平台,并应对复杂业务场景的挑战。


这场分享将为与会者提供关于企业级 AI 平台构建的宝贵经验,帮助他们了解如何将生成式 AI 技术应用于自己的业务中,提升 AI 平台的扩展性与性能。


精彩分享六


随着 AI 技术的快速发展,数据基础设施成为支撑大规模 AI 模型训练和应用的核心要素。特别是在分布式存储领域,如何应对数据量的爆炸式增长并提供高效的存储解决方案,是当前的技术挑战之一。


在本次 QCon 大会上,我们将迎来 OPPO 分布式存储专家常亮的分享。常亮目前是 OPPO 云计算部文件存储的负责人,拥有超过十年的存储研发经验,曾在华为、腾讯等顶尖科技公司担任要职。同时,他还是开源分布式文件系统 CubeFS 的 TSC 成员,主导了 CubeFS 成功进入 CNCF 的孵化项目,并负责其毕业的相关工作。


常亮的演讲主题是《为大规模 AI 构建高效数据基础设施的技术挑战与实践》。他将详细介绍 CubeFS 如何通过多协议接入、智能数据分层调度等技术,支持大规模 AI 训练的数据需求,提升数据管理的效率和成本效益。此外,他还将分享 CubeFS 如何通过分布式缓存和 RDMA 加速技术,解决云上访问私有云存储的延时问题,并构建全链路的 AI 加速解决方案。


通过这场分享,你将了解到 AI 数据存储的特点和面临的技术挑战,以及如何通过创新的分布式存储解决方案,支撑大规模 AI 应用的高效运行,推动 AI 数据基础设施的技术演进。


精彩分享七


随着生成式 AI 技术的快速发展,数据处理架构成为支撑大规模 AI 应用的关键环节。特别是在海量数据处理与实时性需求并存的场景中,如何构建高效、安全、实时的架构,已成为业界的重大挑战。


在本次 QCon 大会上,我们将迎来 Redis 高级架构师史磊的分享。史磊现担任 Redis 企业版高级解决方案架构师,拥有超过十年的软件架构设计、AI 技术研发及 Redis 使用经验,曾任职于多家知名科技公司并积累了丰富的行业实践经验。


史磊的演讲主题是《GenAI 时代如何构建高效、安全、实时的数据处理架构》。他将结合 Redis 全球客户的实际案例,详细介绍如何通过内存向量数据库、内存混合存储等技术,解决生成式 AI 在海量数据处理中的瓶颈问题,并探讨 Redis 在构建高性能 AI 应用中的优势。此外,他还将分享 Redis 8.0 的新功能及特性,展示其在优化 AI 实时系统方面的最新技术进展。


通过这场分享,你将深入了解生成式 AI 在数据处理层面面临的技术挑战,以及 Redis 如何通过创新的数据架构方案,帮助企业实现 AI 应用的高效、安全、实时化运行,推动 AI 技术在各行各业的落地与发展。


活动推荐


InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。



2024-10-14 15:574

评论

发布
暂无评论
发现更多内容

学习高并发的前置知识——Java中的线程基础,springcloud实战演练

Java 程序员 后端

完美!字节3-1级别大佬把《数据结构与算法(1),mybatisorm原理

Java 程序员 后端

实现一个简单的“个人博客”项目,java基础大纲思维导图

Java 程序员 后端

小白必看!结合实际实例,理解事务,多线程面试题java

Java 程序员 后端

字节跳动一年一更的400多页算法刷题宝典已更新,力扣官网沸腾

Java 程序员 后端

字节跳动Java开放岗面经:14天快速面试,已拿offer,Java全套百度云

Java 程序员 后端

字节首席架构师整合面试痛点,成就399页Java框架核心宝典

Java 程序员 后端

学会RabbitMQ代理的连接,是一种怎样的体验?,mongodb教程

Java 程序员 后端

完全没想到,他竟然靠这个拿到了40万年薪的大厂AI岗offer!

Java 程序员 后端

华为云专家向宇:工欲善其事必先利其器,才能做数据的“管家”

华为云数据库小助手

GaussDB GaussDB(for Influx) 华为云数据库 华为云数据库创新Lab

学弟学妹们请不要错过自己的“黄金奋斗三年”,java实战项目代码

Java 程序员 后端

安利一款非常NICE的-API-敏捷开发工具,java注释快捷键视频

Java 程序员 后端

小白都能看懂的简单爬虫入门案例剖析(爬虫入门看它就够了!

Java 程序员 后端

学IT的人太多了,现在入行还有出路吗?,linux环境高级编程

Java 程序员 后端

如果当时这15道题能答好,现在应该已经被录取了(记一次面试的亲身经历 2020-7-20

Java 程序员 后端

学生管理系统(SSM简易版)总结,斗鱼Java开发二面被刷

Java 程序员 后端

实习生想面阿里应该掌握掌握哪些知识点?给学弟学妹们支招

Java 程序员 后端

实现一个简单的HTTP,京东java面试问题大全及答案大全

Java 程序员 后端

完美!字节3-1级别大佬把《数据结构与算法,linux翻墙教程视频

Java 程序员 后端

Clickhouse技术分享

scalad

大数据 实时数仓 Clickhouse OLAP开源引擎

完美!白嫖4份满分级“并发编程,java架构师技术栈

Java 程序员 后端

就这一次!详解操作系统底层原理的IO原理,提供高性能开发的多种实战案例

Java 程序员 后端

层层递进!MySQL性能优化步骤演进,一顿饭的时间我就会了

Java 程序员 后端

工商银行分布式服务 C10K 场景解决方案,java基础实战项目飞机大战

Java 程序员 后端

如何阅读一本书-读书笔记,java二到三年经验面试题

Java 程序员 后端

如果当时这16道题能答好,现在应该已经被录取了(记一次面试的亲身经历 2020-9-9

Java 程序员 后端

字节跳动,三面我败了!但是我把经验记录了下来,java编程思想第六版百度云

Java 程序员 后端

学透这份java进阶笔记,才知道为什么能一起斩获几十家大厂offer一定是有原因的

Java 程序员 后端

对Stream-API的用法鼓吹够多了,但性能到底怎么样呢?,mybatis和spring集成原理

Java 程序员 后端

少写点if-else吧,它的效率有多低你知道吗?,渣本二面阿里受挫

Java 程序员 后端

就这?多线程高并发分布式性能优化技术都不懂,你拿什么跳槽

Java 程序员 后端

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon_大数据_李忠良_InfoQ精选文章