写点什么

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

  • 2024-10-14
    北京
  • 本文字数:3575 字

    阅读完需:约 12 分钟

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

随着生成式 AI 和大模型技术的飞速发展,数据管理和基础设施领域迎来了前所未有的挑战与机遇。海量数据的处理需求、跨云环境的数据治理,以及 AI 平台的高效性和扩展性,已经成为企业在 AI 时代需要解决的核心问题。


为了应对这些技术趋势和挑战,10 月 18 日 -19 日即将 QCon 上海站,我们特别策划了《下一代 Data for AI 技术架构》专题,邀请来自 DatastratoFounder & CEO 堵俊平为专题进行内容把控,他在数据与 AI 赛道耕耘十数年,曾任 LF AI & DATA 基金会董事主席,500 强企业开源战略与生态负责人,前腾讯开源联盟主席及数据平台总监。


本专题论坛,我们邀请了来自字节跳动、Datastrato、Zilliz、JuiceFS、PayPal、OPPO 等顶尖技术专家的分享。他们将从大模型场景的数据湖优化、AGI 时代的数据目录设计、向量检索技术提升、AI 存储系统架构优化、企业级 AI 平台建设等角度,带来关于数据与 AI 深度融合的前沿探索与实战经验。以下为详细介绍~


精彩分享一:


随着大数据和 AI 技术的蓬勃发展,数据湖方案在应对海量数据分析场景上已相对成熟。然而,伴随大模型的崛起,云上数据湖面临了全新的挑战。


在本次 QCon 分享中,字节跳动技术专家李经纶将带来《云上数据湖在 LLM 场景的挑战与解决之道》的精彩分享。作为 Apache Hadoop Committer 和火山引擎 EMR 技术专家,李经纶在大规模 Hadoop 集群治理及存算架构优化方面有深厚积累。


李经纶将深入解析 LLM 场景对传统数据湖架构的颠覆性要求,如 Catalog 割裂、IO 带宽需求与延迟问题、对象存储的局限性等。他将分享火山引擎如何通过统一 Catalog、加速层优化以及 Iceberg 通用数据湖等实践,有效应对这些挑战,并推动大数据与 AI 生态的融合。


通过此次分享,您将深刻了解如何在大模型场景下构建高效、扩展性强的数据湖架构,助力企业数据基础设施的转型升级。


精彩分享二


在 AGI 时代,数据管理面临着前所未有的挑战。生成式 AI 对于数据的覆盖范围和准确性提出了更高要求,特别是在大规模语言模型(LLM)的训练与推理中,如何有效管理结构化与非结构化数据成为关键难题。


在此次 QCon 演讲中,我们将迎来两位重量级嘉宾的联合分享:Datastrato 联合创始人 & CTO 邵赛赛和小米数据开发平台负责人周康。他们将围绕 “AGI 时代统一数据目录的设计与实践” 这一主题,深入探讨数据管理的前沿挑战及解决方案。邵赛赛作为 Apache Gravitino 项目的创始人,将分享如何通过统一的数据模型来应对跨域、跨云的数据管理需求;周康则将结合小米的实际业务场景,展示如何通过 Gravitino 构建面向 GenAI 的统一数据平台,助力企业高效管理海量的结构化与非结构化数据。


此次分享将为听众带来 AGI 时代数据目录的创新实践,包括如何通过 Apache Gravitino 解决 LLM 应用中的“数据幻觉”问题,构建企业级 RAG 应用,以及统一权限治理模型如何简化数据管理的复杂性。通过他们的分享,您将了解如何在企业中落地下一代数据平台,提升 AI 应用的数据治理效率。


精彩分享三


向量检索作为 AI 时代的重要技术,在大规模应用场景中扮演了关键角色。Zilliz Senior Product Manager 张粲宇将为我们带来《提升 RAG 准确率至 90%,Milvus 向量检索实践之道》的深度分享。作为 Milvus 产品负责人,张粲宇在数据库内核与 AI 领域积累了丰富经验,曾参与 SAP HANA 和 TiDB 等核心产品的研发。


在本次分享中,张粲宇将重点探讨 RAG(检索增强生成)场景下向量检索的技术挑战,包括检索质量提升、成本优化以及数据安全的管理。他将介绍 Milvus 如何通过元数据过滤、混合检索和冷热分层存储等技术,成功将 RAG 检索准确率提升至 90% 以上。此外,他还将展示 Milvus Ask AI 的企业级 RAG 实践,为观众提供前沿的技术见解。


通过此次分享,您将掌握向量数据库的最新技术发展,深入了解如何通过混合检索优化多模态场景下的搜索效率,推动企业 AI 应用的创新发展。


精彩分享四


在 AI 和数据驱动的时代,存储系统是支撑 AI 模型训练与应用的关键基础设施。面对 AI 业务快速发展的需求,传统存储系统的选型和架构设计往往无法满足高效处理海量数据的挑战。为了解决这些问题,JuiceFS 合伙人苏锐将带来《拥抱 AI,我们需要什么样的存储系统?》的精彩演讲。


苏锐自 2017 年作为 1 号成员参与 JuiceFS 创立以来,一直负责产品的市场拓展与开源社区建设。在他的带领下,JuiceFS 已成为一款为大规模数据高性能负载设计的分布式文件系统,广泛应用于 AI 和机器学习领域,包括自动驾驶、量化金融以及热门的生成式 AI 和大语言模型等场景。


在本次分享中,苏锐将结合 JuiceFS 在为数十家 AI 企业提供服务的实践经验,深入探讨 AI 业务对存储系统的特殊要求,包括性能、弹性、扩展性等关键因素。他还将分析集中式架构与分布式架构的差异,如何在成本与性能之间取得平衡,并分享一个生成式 AI 领域的实际案例。


通过这场演讲,观众将收获关于 AI 业务中的存储系统选型策略,了解如何在海量数据场景下优化存储架构,提升业务效率与稳定性。


精彩分享五


随着生成式 AI 和大模型的快速崛起,企业对 AI 平台的需求也在不断升级。PayPal AI 平台资深研发工程师刘迟将带来《从 MLOps 到 LLMOps,支持数千模型与数百亿推理请求的 AI for Data 平台探索》的演讲,分享 PayPal 如何通过统一的 AI for Data 平台支持企业级 AI 需求。


作为 PayPal AI 平台的大模型方向负责人,刘迟长期专注于人工智能和大数据技术的研究与实践,拥有丰富的行业经验。在本次演讲中,他将深入讲解 PayPal 如何构建一个覆盖多个业务部门的企业级 AI 平台,通过高效协作和数据治理,实现对数千模型和数百亿推理请求的支持。


刘迟还将重点介绍 LLMOps 在生成式 AI 应用中的实际落地,如何构建支持 LLM 推理优化的基础架构,以及在多云和混合云环境中实现平台扩展的最佳实践。通过案例分享,观众将了解到 PayPal 在 GenAI 技术应用中的经验,如何快速扩展企业级 AI 平台,并应对复杂业务场景的挑战。


这场分享将为与会者提供关于企业级 AI 平台构建的宝贵经验,帮助他们了解如何将生成式 AI 技术应用于自己的业务中,提升 AI 平台的扩展性与性能。


精彩分享六


随着 AI 技术的快速发展,数据基础设施成为支撑大规模 AI 模型训练和应用的核心要素。特别是在分布式存储领域,如何应对数据量的爆炸式增长并提供高效的存储解决方案,是当前的技术挑战之一。


在本次 QCon 大会上,我们将迎来 OPPO 分布式存储专家常亮的分享。常亮目前是 OPPO 云计算部文件存储的负责人,拥有超过十年的存储研发经验,曾在华为、腾讯等顶尖科技公司担任要职。同时,他还是开源分布式文件系统 CubeFS 的 TSC 成员,主导了 CubeFS 成功进入 CNCF 的孵化项目,并负责其毕业的相关工作。


常亮的演讲主题是《为大规模 AI 构建高效数据基础设施的技术挑战与实践》。他将详细介绍 CubeFS 如何通过多协议接入、智能数据分层调度等技术,支持大规模 AI 训练的数据需求,提升数据管理的效率和成本效益。此外,他还将分享 CubeFS 如何通过分布式缓存和 RDMA 加速技术,解决云上访问私有云存储的延时问题,并构建全链路的 AI 加速解决方案。


通过这场分享,你将了解到 AI 数据存储的特点和面临的技术挑战,以及如何通过创新的分布式存储解决方案,支撑大规模 AI 应用的高效运行,推动 AI 数据基础设施的技术演进。


精彩分享七


随着生成式 AI 技术的快速发展,数据处理架构成为支撑大规模 AI 应用的关键环节。特别是在海量数据处理与实时性需求并存的场景中,如何构建高效、安全、实时的架构,已成为业界的重大挑战。


在本次 QCon 大会上,我们将迎来 Redis 高级架构师史磊的分享。史磊现担任 Redis 企业版高级解决方案架构师,拥有超过十年的软件架构设计、AI 技术研发及 Redis 使用经验,曾任职于多家知名科技公司并积累了丰富的行业实践经验。


史磊的演讲主题是《GenAI 时代如何构建高效、安全、实时的数据处理架构》。他将结合 Redis 全球客户的实际案例,详细介绍如何通过内存向量数据库、内存混合存储等技术,解决生成式 AI 在海量数据处理中的瓶颈问题,并探讨 Redis 在构建高性能 AI 应用中的优势。此外,他还将分享 Redis 8.0 的新功能及特性,展示其在优化 AI 实时系统方面的最新技术进展。


通过这场分享,你将深入了解生成式 AI 在数据处理层面面临的技术挑战,以及 Redis 如何通过创新的数据架构方案,帮助企业实现 AI 应用的高效、安全、实时化运行,推动 AI 技术在各行各业的落地与发展。


活动推荐


InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。



2024-10-14 15:576870

评论

发布
暂无评论
发现更多内容

云原生时代,不可不知的基础设施即代码(IaC)

极狐GitLab

DevOps 云原生 CI/CD gitops IaC

ITMS-90433: Invalid Swift Support

雪奈椰子

Selenium测试用例如何编写

测吧(北京)科技有限公司

测试

什么是全民开发?|概念、技能和优势

草料二维码

低代码 无代码

MobTech 秒验|守护账户安全

MobTech袤博科技

瓴羊quickbi工具免费体验30天,零基础上手企业数据更直观

对不起该用户已成仙‖

使用体验 I 早知道 TDesign 支持 AVIF 图片压缩,我就不用为流量和格式发愁啦!

TDesign

前端 图片压缩 图片格式

火山引擎云原生数据仓库ByteHouse技术白皮书V1.0 (Ⅳ)

字节跳动数据平台

数据导入 实时数据 实时导入 企业号 4 月 PK 榜

如何搭建自己的ChatGPT网站,它来了

派大星

ChatGPT

软件测试/测试开发丨Pytest 自动化测试框架(二)

测试人

软件测试 自动化测试 测试开发 pytest

连续3天3场分享,KubeVela@KubeCon EU 2023 抢鲜看!

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

C++实现消息队列

linux大本营

C++ 消息列队

阿里云张献涛:云原生计算基础设施助力汽车行业数字化升级

云布道师

云计算

Kubernetes网络策略之详解

乌龟哥哥

三周年连更

算法刷题-单词接龙、矩阵中的最长递增路径、Z 字形变换

共饮一杯无

数据结构 算法 三周年连更

数据中心厂商超云加入龙蜥社区,多款服务器完成与龙蜥操作系统适配

OpenAnolis小助手

开源 操作系统 龙蜥社区 CLA 长城超云

新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

袋鼠云数栈

开源

FastAPI 快速开发 Web API 项目: 通过 SQLAlchemy 进行数据操作

宇宙之一粟

Python sqlalchemy FastApi 三周年连更

轻松玩转小程序,这样做让你拥有2亿用户

加入高科技仿生人

小程序 低代码 小程序制作 小程序开发

华为阅读发布最新进展,月活用户超1亿,大力发展精品阅读

最新动态

性能报告 | YMatrix 5.0 对比 Greenplum 超 12 倍性能提升,TPC-H 基准测试报告发布

YMatrix 超融合数据库

时序数据库 测试工具 数据库、

网络工程师经常搞混的路由策略和策略路由,两者到底有啥区别?

wljslmz

三周年连更

分析nginx访问日志,统计前10的ip

linux大本营

nginx 日志

IPv6常见安全问题

穿过生命散发芬芳

ipv6 三周年连更

软件测试/测试开发丨Pytest 自动化测试框架(一)

测试人

软件测试 自动化测试 测试开发 pytest

OpenKruise V1.4 版本解读:新增 Job Sidecar Terminator 能力

阿里巴巴云原生

阿里云 开源 云原生 OpenKruise

从零学习SDK(8)SDK的集成和部署

MobTech袤博科技

舒明:稳定支撑日高峰亿级保单交易,国泰产险的运维创新实践

OceanBase 数据库

数据库 oceanbase

火山引擎 DataLeap 下 Notebook 系列文章二:技术路线解析

字节跳动数据平台

数据治理 数据研发 企业号 4 月 PK 榜

如何填写苹果应用上架过程中的隐私政策信息?

雪奈椰子

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon_大数据_李忠良_InfoQ精选文章