QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

  • 2024-10-14
    北京
  • 本文字数:3575 字

    阅读完需:约 12 分钟

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon

随着生成式 AI 和大模型技术的飞速发展,数据管理和基础设施领域迎来了前所未有的挑战与机遇。海量数据的处理需求、跨云环境的数据治理,以及 AI 平台的高效性和扩展性,已经成为企业在 AI 时代需要解决的核心问题。


为了应对这些技术趋势和挑战,10 月 18 日 -19 日即将 QCon 上海站,我们特别策划了《下一代 Data for AI 技术架构》专题,邀请来自 DatastratoFounder & CEO 堵俊平为专题进行内容把控,他在数据与 AI 赛道耕耘十数年,曾任 LF AI & DATA 基金会董事主席,500 强企业开源战略与生态负责人,前腾讯开源联盟主席及数据平台总监。


本专题论坛,我们邀请了来自字节跳动、Datastrato、Zilliz、JuiceFS、PayPal、OPPO 等顶尖技术专家的分享。他们将从大模型场景的数据湖优化、AGI 时代的数据目录设计、向量检索技术提升、AI 存储系统架构优化、企业级 AI 平台建设等角度,带来关于数据与 AI 深度融合的前沿探索与实战经验。以下为详细介绍~


精彩分享一:


随着大数据和 AI 技术的蓬勃发展,数据湖方案在应对海量数据分析场景上已相对成熟。然而,伴随大模型的崛起,云上数据湖面临了全新的挑战。


在本次 QCon 分享中,字节跳动技术专家李经纶将带来《云上数据湖在 LLM 场景的挑战与解决之道》的精彩分享。作为 Apache Hadoop Committer 和火山引擎 EMR 技术专家,李经纶在大规模 Hadoop 集群治理及存算架构优化方面有深厚积累。


李经纶将深入解析 LLM 场景对传统数据湖架构的颠覆性要求,如 Catalog 割裂、IO 带宽需求与延迟问题、对象存储的局限性等。他将分享火山引擎如何通过统一 Catalog、加速层优化以及 Iceberg 通用数据湖等实践,有效应对这些挑战,并推动大数据与 AI 生态的融合。


通过此次分享,您将深刻了解如何在大模型场景下构建高效、扩展性强的数据湖架构,助力企业数据基础设施的转型升级。


精彩分享二


在 AGI 时代,数据管理面临着前所未有的挑战。生成式 AI 对于数据的覆盖范围和准确性提出了更高要求,特别是在大规模语言模型(LLM)的训练与推理中,如何有效管理结构化与非结构化数据成为关键难题。


在此次 QCon 演讲中,我们将迎来两位重量级嘉宾的联合分享:Datastrato 联合创始人 & CTO 邵赛赛和小米数据开发平台负责人周康。他们将围绕 “AGI 时代统一数据目录的设计与实践” 这一主题,深入探讨数据管理的前沿挑战及解决方案。邵赛赛作为 Apache Gravitino 项目的创始人,将分享如何通过统一的数据模型来应对跨域、跨云的数据管理需求;周康则将结合小米的实际业务场景,展示如何通过 Gravitino 构建面向 GenAI 的统一数据平台,助力企业高效管理海量的结构化与非结构化数据。


此次分享将为听众带来 AGI 时代数据目录的创新实践,包括如何通过 Apache Gravitino 解决 LLM 应用中的“数据幻觉”问题,构建企业级 RAG 应用,以及统一权限治理模型如何简化数据管理的复杂性。通过他们的分享,您将了解如何在企业中落地下一代数据平台,提升 AI 应用的数据治理效率。


精彩分享三


向量检索作为 AI 时代的重要技术,在大规模应用场景中扮演了关键角色。Zilliz Senior Product Manager 张粲宇将为我们带来《提升 RAG 准确率至 90%,Milvus 向量检索实践之道》的深度分享。作为 Milvus 产品负责人,张粲宇在数据库内核与 AI 领域积累了丰富经验,曾参与 SAP HANA 和 TiDB 等核心产品的研发。


在本次分享中,张粲宇将重点探讨 RAG(检索增强生成)场景下向量检索的技术挑战,包括检索质量提升、成本优化以及数据安全的管理。他将介绍 Milvus 如何通过元数据过滤、混合检索和冷热分层存储等技术,成功将 RAG 检索准确率提升至 90% 以上。此外,他还将展示 Milvus Ask AI 的企业级 RAG 实践,为观众提供前沿的技术见解。


通过此次分享,您将掌握向量数据库的最新技术发展,深入了解如何通过混合检索优化多模态场景下的搜索效率,推动企业 AI 应用的创新发展。


精彩分享四


在 AI 和数据驱动的时代,存储系统是支撑 AI 模型训练与应用的关键基础设施。面对 AI 业务快速发展的需求,传统存储系统的选型和架构设计往往无法满足高效处理海量数据的挑战。为了解决这些问题,JuiceFS 合伙人苏锐将带来《拥抱 AI,我们需要什么样的存储系统?》的精彩演讲。


苏锐自 2017 年作为 1 号成员参与 JuiceFS 创立以来,一直负责产品的市场拓展与开源社区建设。在他的带领下,JuiceFS 已成为一款为大规模数据高性能负载设计的分布式文件系统,广泛应用于 AI 和机器学习领域,包括自动驾驶、量化金融以及热门的生成式 AI 和大语言模型等场景。


在本次分享中,苏锐将结合 JuiceFS 在为数十家 AI 企业提供服务的实践经验,深入探讨 AI 业务对存储系统的特殊要求,包括性能、弹性、扩展性等关键因素。他还将分析集中式架构与分布式架构的差异,如何在成本与性能之间取得平衡,并分享一个生成式 AI 领域的实际案例。


通过这场演讲,观众将收获关于 AI 业务中的存储系统选型策略,了解如何在海量数据场景下优化存储架构,提升业务效率与稳定性。


精彩分享五


随着生成式 AI 和大模型的快速崛起,企业对 AI 平台的需求也在不断升级。PayPal AI 平台资深研发工程师刘迟将带来《从 MLOps 到 LLMOps,支持数千模型与数百亿推理请求的 AI for Data 平台探索》的演讲,分享 PayPal 如何通过统一的 AI for Data 平台支持企业级 AI 需求。


作为 PayPal AI 平台的大模型方向负责人,刘迟长期专注于人工智能和大数据技术的研究与实践,拥有丰富的行业经验。在本次演讲中,他将深入讲解 PayPal 如何构建一个覆盖多个业务部门的企业级 AI 平台,通过高效协作和数据治理,实现对数千模型和数百亿推理请求的支持。


刘迟还将重点介绍 LLMOps 在生成式 AI 应用中的实际落地,如何构建支持 LLM 推理优化的基础架构,以及在多云和混合云环境中实现平台扩展的最佳实践。通过案例分享,观众将了解到 PayPal 在 GenAI 技术应用中的经验,如何快速扩展企业级 AI 平台,并应对复杂业务场景的挑战。


这场分享将为与会者提供关于企业级 AI 平台构建的宝贵经验,帮助他们了解如何将生成式 AI 技术应用于自己的业务中,提升 AI 平台的扩展性与性能。


精彩分享六


随着 AI 技术的快速发展,数据基础设施成为支撑大规模 AI 模型训练和应用的核心要素。特别是在分布式存储领域,如何应对数据量的爆炸式增长并提供高效的存储解决方案,是当前的技术挑战之一。


在本次 QCon 大会上,我们将迎来 OPPO 分布式存储专家常亮的分享。常亮目前是 OPPO 云计算部文件存储的负责人,拥有超过十年的存储研发经验,曾在华为、腾讯等顶尖科技公司担任要职。同时,他还是开源分布式文件系统 CubeFS 的 TSC 成员,主导了 CubeFS 成功进入 CNCF 的孵化项目,并负责其毕业的相关工作。


常亮的演讲主题是《为大规模 AI 构建高效数据基础设施的技术挑战与实践》。他将详细介绍 CubeFS 如何通过多协议接入、智能数据分层调度等技术,支持大规模 AI 训练的数据需求,提升数据管理的效率和成本效益。此外,他还将分享 CubeFS 如何通过分布式缓存和 RDMA 加速技术,解决云上访问私有云存储的延时问题,并构建全链路的 AI 加速解决方案。


通过这场分享,你将了解到 AI 数据存储的特点和面临的技术挑战,以及如何通过创新的分布式存储解决方案,支撑大规模 AI 应用的高效运行,推动 AI 数据基础设施的技术演进。


精彩分享七


随着生成式 AI 技术的快速发展,数据处理架构成为支撑大规模 AI 应用的关键环节。特别是在海量数据处理与实时性需求并存的场景中,如何构建高效、安全、实时的架构,已成为业界的重大挑战。


在本次 QCon 大会上,我们将迎来 Redis 高级架构师史磊的分享。史磊现担任 Redis 企业版高级解决方案架构师,拥有超过十年的软件架构设计、AI 技术研发及 Redis 使用经验,曾任职于多家知名科技公司并积累了丰富的行业实践经验。


史磊的演讲主题是《GenAI 时代如何构建高效、安全、实时的数据处理架构》。他将结合 Redis 全球客户的实际案例,详细介绍如何通过内存向量数据库、内存混合存储等技术,解决生成式 AI 在海量数据处理中的瓶颈问题,并探讨 Redis 在构建高性能 AI 应用中的优势。此外,他还将分享 Redis 8.0 的新功能及特性,展示其在优化 AI 实时系统方面的最新技术进展。


通过这场分享,你将深入了解生成式 AI 在数据处理层面面临的技术挑战,以及 Redis 如何通过创新的数据架构方案,帮助企业实现 AI 应用的高效、安全、实时化运行,推动 AI 技术在各行各业的落地与发展。


活动推荐


InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。



2024-10-14 15:5710347

评论

发布
暂无评论
发现更多内容

Rainbond结合NeuVector实践容器安全管理

北京好雨科技有限公司

Wally-DR6000/IPQ6000/802.11ax/ 2x2 2.4GHz&5GHz /1.7Gbps

wallys-wifi6

Linux wifi6 openwrt

TDC 3.0 从数据分析到数据流通,数据云拓展新场景

星环科技

CRM系统可以拯救您的初创企业

低代码小观

初创公司 CRM 中小企业 CRM系统 初创型企业

将项目自动化发布到多台windows服务器上的工具有吗?哪个好?

行云管家

IT运维 自动化运维 服务器运维

netty系列之:给ThreadLocal插上梦想的翅膀,详解FastThreadLocal

程序那些事

Java Netty 程序那些事 5月月更

郑州商品交易所:数智一体化助力交易所数字化转型

星环科技

【LeetCode】移除指定数字得到的最大结果Java题解

Albert

算法 LeetCode 5月月更

体验有礼 | 1 分钟 Serverless 极速部署个人网盘,真网盘真好用!

Serverless Devs

阿里云 互联网

Zadig v1.11.0 发布:不止于环境,与开发者一起交付全球业务

Zadig

DevOps 云原生 CI/CD 软件交付

星环科技多模型大数据基础平台TDH9.0:十种数据模型组合拳 打通大数据业务全场景

星环科技

京东优惠价格策略助手

江苏京酷电子商务有限公司

查询优化 京东 优惠券 转链

【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码

ELT.ZIP

3D OpenHarmony ELT.ZIP 图像视觉

公有云厂商有哪些?排名是怎样?

行云管家

云计算 公有云 企业上云 云厂商

【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用

ELT.ZIP

计算机视觉 OpenHarmony 数据压缩 ELT.ZIP

星环科技StellarDB4.0正式发布:性能数倍提升,万亿级图数据库挖掘海量数据互联价值

星环科技

web前端培训vue3响应式reactive源码分析

@零度

前端开发 Vue 3

Apache IoTDB 在智慧养老家庭设备上的落地应用,节约99%存储成本

Apache IoTDB

如何将你的 WordPress 网站置于维护模式

海拥(haiyong.site)

WordPress 5月月更

使用开源软件的优点和缺点是什么

爱吃小舅的鱼

星环科技数据安全与流通新产品+原创合规体系方法论,加速数据安全落地!

星环科技

在Rainbond中一键部署高可用 EMQX 集群

北京好雨科技有限公司

iview 如何实现文件上传并限制上传格式和大小

CRMEB

“祖师级”技术人的哲理:认知、热爱、恒心

非凸科技

c++ C# MySQL 程序员 编程语言

太极限了,JDK的这个BUG都能被我踩到

捉虫大师

jdk bug 5月月更

深入探索云原生流水线的架构设计

尔达Erda

DevOps 运维 云原生 架构设计 pipeline

星环科技TDH社区版:让大数据分析触手可及

星环科技

数据增强(二)-SamplePairing

AIWeker

人工智能 深度学习 数据增强 5月月更

TDS:标签平台+API平台+数据共享平台,助力数据运营平台建设

星环科技

星环科技Sophon 3.1发布,模型运管、隐私计算、边缘计算、知识全流程实现从数据到智能的全链路构建

星环科技

星环科技打造自主可控的高性能数据库,开启国产化升级新篇章

星环科技

揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon_大数据_李忠良_InfoQ精选文章