HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

  • 2024-10-14
    北京
  • 本文字数:3575 字

    阅读完需:约 12 分钟

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

随着生成式 AI 和大模型技术的飞速发展,数据管理和基础设施领域迎来了前所未有的挑战与机遇。海量数据的处理需求、跨云环境的数据治理,以及 AI 平台的高效性和扩展性,已经成为企业在 AI 时代需要解决的核心问题。


为了应对这些技术趋势和挑战,10 月 18 日 -19 日即将 QCon 上海站,我们特别策划了《下一代 Data for AI 技术架构》专题,邀请来自 DatastratoFounder & CEO 堵俊平为专题进行内容把控,他在数据与 AI 赛道耕耘十数年,曾任 LF AI & DATA 基金会董事主席,500 强企业开源战略与生态负责人,前腾讯开源联盟主席及数据平台总监。


本专题论坛,我们邀请了来自字节跳动、Datastrato、Zilliz、JuiceFS、PayPal、OPPO 等顶尖技术专家的分享。他们将从大模型场景的数据湖优化、AGI 时代的数据目录设计、向量检索技术提升、AI 存储系统架构优化、企业级 AI 平台建设等角度,带来关于数据与 AI 深度融合的前沿探索与实战经验。以下为详细介绍~


精彩分享一:


随着大数据和 AI 技术的蓬勃发展,数据湖方案在应对海量数据分析场景上已相对成熟。然而,伴随大模型的崛起,云上数据湖面临了全新的挑战。


在本次 QCon 分享中,字节跳动技术专家李经纶将带来《云上数据湖在 LLM 场景的挑战与解决之道》的精彩分享。作为 Apache Hadoop Committer 和火山引擎 EMR 技术专家,李经纶在大规模 Hadoop 集群治理及存算架构优化方面有深厚积累。


李经纶将深入解析 LLM 场景对传统数据湖架构的颠覆性要求,如 Catalog 割裂、IO 带宽需求与延迟问题、对象存储的局限性等。他将分享火山引擎如何通过统一 Catalog、加速层优化以及 Iceberg 通用数据湖等实践,有效应对这些挑战,并推动大数据与 AI 生态的融合。


通过此次分享,您将深刻了解如何在大模型场景下构建高效、扩展性强的数据湖架构,助力企业数据基础设施的转型升级。


精彩分享二


在 AGI 时代,数据管理面临着前所未有的挑战。生成式 AI 对于数据的覆盖范围和准确性提出了更高要求,特别是在大规模语言模型(LLM)的训练与推理中,如何有效管理结构化与非结构化数据成为关键难题。


在此次 QCon 演讲中,我们将迎来两位重量级嘉宾的联合分享:Datastrato 联合创始人 & CTO 邵赛赛和小米数据开发平台负责人周康。他们将围绕 “AGI 时代统一数据目录的设计与实践” 这一主题,深入探讨数据管理的前沿挑战及解决方案。邵赛赛作为 Apache Gravitino 项目的创始人,将分享如何通过统一的数据模型来应对跨域、跨云的数据管理需求;周康则将结合小米的实际业务场景,展示如何通过 Gravitino 构建面向 GenAI 的统一数据平台,助力企业高效管理海量的结构化与非结构化数据。


此次分享将为听众带来 AGI 时代数据目录的创新实践,包括如何通过 Apache Gravitino 解决 LLM 应用中的“数据幻觉”问题,构建企业级 RAG 应用,以及统一权限治理模型如何简化数据管理的复杂性。通过他们的分享,您将了解如何在企业中落地下一代数据平台,提升 AI 应用的数据治理效率。


精彩分享三


向量检索作为 AI 时代的重要技术,在大规模应用场景中扮演了关键角色。Zilliz Senior Product Manager 张粲宇将为我们带来《提升 RAG 准确率至 90%,Milvus 向量检索实践之道》的深度分享。作为 Milvus 产品负责人,张粲宇在数据库内核与 AI 领域积累了丰富经验,曾参与 SAP HANA 和 TiDB 等核心产品的研发。


在本次分享中,张粲宇将重点探讨 RAG(检索增强生成)场景下向量检索的技术挑战,包括检索质量提升、成本优化以及数据安全的管理。他将介绍 Milvus 如何通过元数据过滤、混合检索和冷热分层存储等技术,成功将 RAG 检索准确率提升至 90% 以上。此外,他还将展示 Milvus Ask AI 的企业级 RAG 实践,为观众提供前沿的技术见解。


通过此次分享,您将掌握向量数据库的最新技术发展,深入了解如何通过混合检索优化多模态场景下的搜索效率,推动企业 AI 应用的创新发展。


精彩分享四


在 AI 和数据驱动的时代,存储系统是支撑 AI 模型训练与应用的关键基础设施。面对 AI 业务快速发展的需求,传统存储系统的选型和架构设计往往无法满足高效处理海量数据的挑战。为了解决这些问题,JuiceFS 合伙人苏锐将带来《拥抱 AI,我们需要什么样的存储系统?》的精彩演讲。


苏锐自 2017 年作为 1 号成员参与 JuiceFS 创立以来,一直负责产品的市场拓展与开源社区建设。在他的带领下,JuiceFS 已成为一款为大规模数据高性能负载设计的分布式文件系统,广泛应用于 AI 和机器学习领域,包括自动驾驶、量化金融以及热门的生成式 AI 和大语言模型等场景。


在本次分享中,苏锐将结合 JuiceFS 在为数十家 AI 企业提供服务的实践经验,深入探讨 AI 业务对存储系统的特殊要求,包括性能、弹性、扩展性等关键因素。他还将分析集中式架构与分布式架构的差异,如何在成本与性能之间取得平衡,并分享一个生成式 AI 领域的实际案例。


通过这场演讲,观众将收获关于 AI 业务中的存储系统选型策略,了解如何在海量数据场景下优化存储架构,提升业务效率与稳定性。


精彩分享五


随着生成式 AI 和大模型的快速崛起,企业对 AI 平台的需求也在不断升级。PayPal AI 平台资深研发工程师刘迟将带来《从 MLOps 到 LLMOps,支持数千模型与数百亿推理请求的 AI for Data 平台探索》的演讲,分享 PayPal 如何通过统一的 AI for Data 平台支持企业级 AI 需求。


作为 PayPal AI 平台的大模型方向负责人,刘迟长期专注于人工智能和大数据技术的研究与实践,拥有丰富的行业经验。在本次演讲中,他将深入讲解 PayPal 如何构建一个覆盖多个业务部门的企业级 AI 平台,通过高效协作和数据治理,实现对数千模型和数百亿推理请求的支持。


刘迟还将重点介绍 LLMOps 在生成式 AI 应用中的实际落地,如何构建支持 LLM 推理优化的基础架构,以及在多云和混合云环境中实现平台扩展的最佳实践。通过案例分享,观众将了解到 PayPal 在 GenAI 技术应用中的经验,如何快速扩展企业级 AI 平台,并应对复杂业务场景的挑战。


这场分享将为与会者提供关于企业级 AI 平台构建的宝贵经验,帮助他们了解如何将生成式 AI 技术应用于自己的业务中,提升 AI 平台的扩展性与性能。


精彩分享六


随着 AI 技术的快速发展,数据基础设施成为支撑大规模 AI 模型训练和应用的核心要素。特别是在分布式存储领域,如何应对数据量的爆炸式增长并提供高效的存储解决方案,是当前的技术挑战之一。


在本次 QCon 大会上,我们将迎来 OPPO 分布式存储专家常亮的分享。常亮目前是 OPPO 云计算部文件存储的负责人,拥有超过十年的存储研发经验,曾在华为、腾讯等顶尖科技公司担任要职。同时,他还是开源分布式文件系统 CubeFS 的 TSC 成员,主导了 CubeFS 成功进入 CNCF 的孵化项目,并负责其毕业的相关工作。


常亮的演讲主题是《为大规模 AI 构建高效数据基础设施的技术挑战与实践》。他将详细介绍 CubeFS 如何通过多协议接入、智能数据分层调度等技术,支持大规模 AI 训练的数据需求,提升数据管理的效率和成本效益。此外,他还将分享 CubeFS 如何通过分布式缓存和 RDMA 加速技术,解决云上访问私有云存储的延时问题,并构建全链路的 AI 加速解决方案。


通过这场分享,你将了解到 AI 数据存储的特点和面临的技术挑战,以及如何通过创新的分布式存储解决方案,支撑大规模 AI 应用的高效运行,推动 AI 数据基础设施的技术演进。


精彩分享七


随着生成式 AI 技术的快速发展,数据处理架构成为支撑大规模 AI 应用的关键环节。特别是在海量数据处理与实时性需求并存的场景中,如何构建高效、安全、实时的架构,已成为业界的重大挑战。


在本次 QCon 大会上,我们将迎来 Redis 高级架构师史磊的分享。史磊现担任 Redis 企业版高级解决方案架构师,拥有超过十年的软件架构设计、AI 技术研发及 Redis 使用经验,曾任职于多家知名科技公司并积累了丰富的行业实践经验。


史磊的演讲主题是《GenAI 时代如何构建高效、安全、实时的数据处理架构》。他将结合 Redis 全球客户的实际案例,详细介绍如何通过内存向量数据库、内存混合存储等技术,解决生成式 AI 在海量数据处理中的瓶颈问题,并探讨 Redis 在构建高性能 AI 应用中的优势。此外,他还将分享 Redis 8.0 的新功能及特性,展示其在优化 AI 实时系统方面的最新技术进展。


通过这场分享,你将深入了解生成式 AI 在数据处理层面面临的技术挑战,以及 Redis 如何通过创新的数据架构方案,帮助企业实现 AI 应用的高效、安全、实时化运行,推动 AI 技术在各行各业的落地与发展。


活动推荐


InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。



2024-10-14 15:577401

评论

发布
暂无评论

✅到底有没有必要分库分表,如何考量的

派大星

MySQL 数据库 Java 面试

【教程】混淆代码保护与优化

雪奈椰子

【教程】oc代码混淆_OC代码混淆工具

雪奈椰子

Redis 又双叒叕改开源协议了,微软提前推出高性能替代方案 Garnet

小猿姐

redis microsoft 开源协议

软件测试学习笔记丨Allure2 添加用例分类

测试人

软件测试

AIGC:释放生成式AI的无限潜能,打造你的专属外脑

EquatorCoco

人工智能 AIGC

【教程】uni-app iOS打包解决profile文件与私钥证书不匹配问题

雪奈椰子

易快报与国贸SAP秒同步,数据同步不再是难题!

聚道云软件连接器

案例分享

基于火山引擎 VCI 实现资源装箱率提升,助力企业云成本优化

Geek_2d6073

【教程】APP加固的那些小事情

雪奈椰子

Git进阶命令-reset

不在线第一只蜗牛

智能商品计划系统:鞋服品牌的未来价值引擎

第七在线

GPU云服务器的优势和应用

Ogcloud

gpu 服务器 云服务器 GPU实例 GPU云服务器

自己动手做一个批量doc转换为docx文件的小工具

快乐非自愿限量之名

C# doc docx

【教程】为什么要为 App 应用加固 ?如何为 App 应用加固 ?

雪奈椰子

【教程】APP加固的那些小事情

雪奈椰子

easyExcel导出的字段命名问题,导致无法导出数据

光进

java‘

轻松实现UniApp Xcode上传IPA无需Mac,appuploder一键上传助你高效开发!

雪奈椰子

RocketMQ 流存储解析:面向流场景的关键特性与典型案例

阿里巴巴云原生

阿里云 RocketMQ 云原生

.NET Framework 服务实现监控可观测性最佳实践

观测云

.net

脑洞大开丨让 AI 写代码,能做出什么样的项目?

阿里巴巴云原生

阿里云 云原生

探讨Java代码混淆加固工具

雪奈椰子

云效 AppStack + 阿里云 MSE 实现应用服务全链路灰度

阿里巴巴云原生

阿里云 微服务 云原生 云效

程序员必须了解的 10个免费 Devops 工具

EquatorCoco

DevOps 运维 开发

提升Java编程安全性-代码加密混淆工具的重要性和应用

雪奈椰子

【教程】苹果iOS证书制作教程

雪奈椰子

【教程】 iOS混淆加固原理篇

雪奈椰子

终于有人讲清楚了!如何成为高价值的程序员

互联网工科生

云效 AppStack + 阿里云 MSE 实现应用服务全链路灰度

阿里云云效

阿里云 微服务 云原生 云效

悦数图数据库推出 AI 知识图谱构建器及图语言生成助手

悦数图数据库

图数据库

【教程】移动应用安全加固技术解析

雪奈椰子

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon_大数据_李忠良_InfoQ精选文章