写点什么

微博深度学习平台基于 Kubernetes 的分布式解决方案

  • 2019-09-10
  • 本文字数:548 字

    阅读完需:约 2 分钟

微博深度学习平台基于Kubernetes的分布式解决方案

ArchSummit北京2018大会上,于翔讲师做了《微博深度学习平台基于 Kubernetes 的分布式解决方案》主题演讲,主要内容如下。


演讲简介


随着深度学习在微博业务场景中的广泛使用,深度学习平台遇到一些挑战:离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。


本次分享从以上两个维度切入,基于 K8s 构建分布式离线与在线方案,解决上述遇到的挑战。


演讲提纲


  1. 介绍背景,微博业务与深度学习平台;

  2. 介绍离线训练遇到的挑战,方案选型(Yarn & K8s),方案介绍(基于 tfjob)以及相关效果;

  3. 介绍在线推理遇到的挑战,方案选型(自定义服务发现)解决方案(K8s deployment 等基础资源对象)。


听众受益点


  • 对深度学习感兴趣的听众,可以了解到深度学习算法在业务应用的基本流程;

  • 深度学习平台的基础架构;

  • 大规模深度学习会遇到的瓶颈与 K8s 解决方案;

  • 在线模型服务的服务特性与一些优化点。


讲师介绍


于翔


新浪微博 机器学习研发架构师


现就职于新浪微博,在机器学习平台中曾负责特征工程项目,目前主要负责算法服务平台与深度学习平台的搭建与开发。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/beijing/schedule


2019-09-10 14:022477

评论

发布
暂无评论
发现更多内容

走进AI图像生成核心技术 - Diffusion

Baihai IDP

人工智能 AI AIGC Diffusion 扩散模型

阿里P9耗时28天,总结历年亿级活动高并发系统设计手册

架构师之道

Java 高并发 架构师

PHP 中命令行调用 escapeshellarg 函数中文问题

ModStart

Flink 批作业的运行时自适应执行管控

Apache Flink

大数据 flink 实时计算

神经网络基础部件-损失函数详解

嵌入式视觉

激活函数 Relu sigmoid tanh swish激活函数

LogicFlow自定义业务节点

小鑫同学

前端 vite Vue 3

H5直播技术起航

京东科技开发者

音视频 编码 H5 flv 企业号 1 月 PK 榜

MASA Stack 1.0发布会正式官宣

MASA技术团队

MASA MASA Stack

安信证券资管清算重要业务在原生分布式数据库的创新实践

OceanBase 数据库

数据库 oceanbase

ClassIn:如何打造更稳定的Zabbix监控系统

OceanBase 数据库

oceanbase 数据库·

阿里云计算巢 x GBase GCDW:自动化部署云原生数据仓库

云布道师

阿里云

KaiwuDB 1.0 - 时序数据库系列产品正式发布

KaiwuDB

数据库

JDK结构介绍

Steven

SeekBar(拖动条)

芯动大师

android SeekBar 拖动条

NFTScan:优质 NFT 应具备什么?

NFT Research

区块链 NFT

架构实战营4.1 数据库存储架构随堂练习

西山薄凉

「架构实战营」

2023-01-10:智能机器人要坐专用电梯把货物送到指定地点, 整栋楼只有一部电梯,并且由于容量限制智能机器人只能放下一件货物, 给定K个货物,每个货物都有所在楼层(from)和目的楼层(to),

福大大架构师每日一题

算法 rust Solidity 福大大

《PyTorch 深度学习实战》学习笔记 --NumPy(上)

IT蜗壳-Tango

APISIX+Dubbo+Nacos 最佳实践

阿里巴巴中间件

阿里云 云原生 dubbo nacos APISIX

钉钉 IM 基于 RocketMQ 5.0 的云原生应用实践

阿里巴巴中间件

阿里云 RocketMQ 云原生

DevSecOps 与软件开发安全

SoFlu软件机器人

先行试点,创新改造:中信期货关键业务系统自主可控的实践之路

OceanBase 数据库

DiT:Transformers 与扩散模型强强联手

Zilliz

AI 算法模型

马斯克收购推特后,亲自与员工探讨了……

博文视点Broadview

mouseover 和 mouseenter 的区别

ModStart

高并发中的atomic

Steven

如何用「标准差」度量研发波动

feijieppm

项目管理 研发效能 技术管理 文化 & 方法 效能度量

Dubbo-kubernetes 基于 Informer 服务发现优化之路

阿里巴巴中间件

阿里云 Kubernetes 云原生 dubbo

龙湖千丁基于 ACK@Edge 的云原生智慧停车系统架构实践

阿里巴巴中间件

阿里云 云原生

Java高手速成 | 新增类Record的工作实例

TiAmo

新特性 Java’

为什么开发者这么看重SQL?看完这些应用场景你就明白了

雨果

sql 数据库管理工具 SQL开发工具

微博深度学习平台基于Kubernetes的分布式解决方案_ArchSummit_于翔_InfoQ精选文章