QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

LLM 引领数据分析进化在字节数据平台的实践|QCon 北京

  • 2025-03-28
    北京
  • 本文字数:1272 字

    阅读完需:约 4 分钟

LLM 引领数据分析进化在字节数据平台的实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


字节跳动数据平台资深大模型技术专家赵晓明已确认出席并发表题为《LLM 引领数据分析进化在字节数据平台的实践》的主题分享。2021 年 LLM 大语言模型爆发,字节跳动利用 LLM 技术构建垂直化数据智能引擎,实现从规则到意图、单一到全链路、“工具”到“智能助手”的跃迁。本次演讲主要分享其数据智能发展历史、LLM 技术突破带来业务演进、大数据领域模型建设以及对未来数据分析域产品形态的演进思考。


赵晓明曾服务过华为、阿里等公司,目前负责字节跳动-Data-数据平台 领域大模型相关技术工作。从早期基于 Bert NLP 技术孵化 Databot 机器人,到近 2 年结合 LLM 能力构建大数据领域模型,经历了近些年数据智能技术的演进,在数据智能领域有丰富的落地经验。他在本次会议的详细演讲内容如下:


演讲大纲

1. 背景:数据智能发展史

  • 大模型数据分析产品形态,从「传统 BI」到「DI = AI+BI」

2. 数据智能相关技术发展史

  • 早期:搜索式 BI

  • 中期:基于 Bert NLP 交互式 Databot

  • 近期:LLM 技术升级下的 DataAgent 机遇 &挑战

3. LLM 技术引领数据分析领域业务演进

  • 端到端的数据分析全域升级

  • 代码补全: 临时查询取数、数据加工任务

  • SQL 工具:日常 SQL 任务开发维护(联动修改、批量更新、Bugfixed )

  • Schema 建模:智能建模(字段增强、 表达式生成、数据集摘要)

  • DataAgent 智能体 :NL2SQL 分析取数、ADA 高级分析

4. 领域模型建设 & 落地效果

  • 领域知识中心 : 资产沉淀、知识挖掘

  • 知识嵌入: 数据资产召回(表、字段、 数据口径、白皮书等)

  • LLM 领域模型精调 : CT、SFT、RL

5. 总结与展望

  • 技术侧:LLM 模型能力提升、多模态技术结合

  • 产品侧:新交互孵化、产品能力持续迭代升级


您认为,这样的技术在实践过程中有哪些痛点?

  • 在实践中,如何构建领域模型相对通用模型的优势,且需要衡量 ROI 投入产出比


演讲亮点

从 0 到 1 构建大数据领域模型,支持端到端的数据分析全域升级。不局限于智能分析取数场景,同时利用知识挖掘、生产的方式沉淀领域知识中心


听众收益

  • 从传统 BI 到 DI(AI + BI) 的转变,掌握数据分析产品的未来趋势

  • 了解 LLM 在引领数据分析进化的演进现状

  • 掌握 LLM 在数据分析全域升级的技术架构

  • 了解大数据领域模型的搭建过程


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-28 14:402

评论

发布
暂无评论

Spring Boot+Redis+拦截器+自定义Annotation实现接口自动幂等

我是苞谷

编程日课•理解学院

顿晓

学习 编程日课 理解学院

架构师训练营第九周

Melo

策略模式解析

南方有乔木兮

LeetCode题解:189. 旋转数组,pop+unshift一行,JavaScript,详细注释

Lee Chen

大前端 LeetCode

JVM系列之:通过一个例子分析JIT的汇编代码

程序那些事

Java JVM JIT 汇编

骚操作!用 CPU 烤肉,这位程序员做到了!

程序员生活志

程序员 gpu 程序人生

架构师技术领导力成长之路

IT民工大叔

领导力 架构师

给技术同学的建议:人人都该懂的埋点知识

易观大数据

埋点 智能运营

【华为云技术分享】DLI跨源|当DLI遇见MongoDB

华为云开发者联盟

数据库 mongodb dlib 数据集 华为云

新技术(区块链)--让游戏行业走的更远

CECBC

区块链技术 防篡改不可逆

LeetCode002-两数相加-medium

书旅

算法 数据结构与算法

海华大赛第一名团队聊比赛经验和心得:AI在垃圾分类中的应用

华为云开发者联盟

AI 算法 数据分析 垃圾回收机制 华为云

区块链+国防安全,科技是核心战斗力

CECBC

新技术 国防安全 科技信息

刚坐下,一个面试官居然问了我 30个Spring Boot问题!

只喝纯牛奶

一条更新sql在mysql中是怎么执行的

简爱W

功能扎实的ERP模版已上架应用库(支持免费安装使用)

明道云

秒懂云通信:如何用阿里云语音通知服务(小白指南)

阿里云Edge Plus

语音

六字说出微服务的本质

看山

架构 微服务 签约计划第二季

我天!xx.equals(null) 是什么骚操作??

导导

新三板专家-程晓明:四板将是推动区块链技术与资本市场结合试验田

CECBC

区块链技术 推进落地应用

week8--课后作业

Geek_165f3d

智能的财务管理系统,来自某科技公司CEO亲手搭建

明道云

Twitter高性能分布式日志系统架构解析

俊俊哥

pulsar bookKeeper 分布式文件存储

求组队,PK华为HMS全球应用创新大赛!

InfoQ_e92167c73263

android

面经手册 · 第1篇《认知自己的技术栈盲区》

小傅哥

Java 面试 小傅哥 技术栈

实践录丨如何在鲲鹏服务器OpenEuler操作系统中快速部署OpenGauss数据库

华为云开发者联盟

数据库 鲲鹏920 操作系统 服务器 opengauss

实现扫码登陆的最简单方案与原理

Java小咖秀

Java 解决方案 经验总结

创业公司技术体系建设-CI/CD

星际行者

CI/CD

Spring系列第2篇:控制反转(IoC)与依赖注入(DI),晦涩难懂么?

老大哥

java高并发系列 - 第11天:线程中断的几种方式

简爱W

LLM 引领数据分析进化在字节数据平台的实践|QCon北京_字节跳动_QCon全球软件开发大会_InfoQ精选文章