你在使用哪种编程语言?快来投票,亲手选出你心目中的编程语言之王 了解详情
写点什么

大数据在趣头条的演进:Kafka 读写分离、Hadoop 治理、机器学习平台

2019 年 8 月 30 日

大数据在趣头条的演进:Kafka 读写分离、Hadoop 治理、机器学习平台

趣头条在 2018-2019 年经历了业务的高速发展,主 App 和其他创新 App 的日活增加了 10 倍以上。相应的,大数据系统和平台也从最初的 100 台机器,增加到 2000 台以上,技术栈从单一的离线数据报表,发展到离线 + 实时 + 机器学习的完整系统。这个分享将从 3 个主要方面,阐述大数据系统的演进路线,和经验分享。趣头条大数据部技术总监虞沐即将在 QCon 全球软件开发大会(上海站)2019分享《大数据在趣头条的演进:Kafka 读写分离、Hadoop 治理、机器学习平台


Kafka 读写分离背景:各业务部门数据消费方式的差异,经常导致 Kafka 集群节点的不稳定。 解决方案:读写分离,第一层集群只负责接收数据,第二层集群按部门隔离,用 Flink 把数据从第一层集群同步到第二层。第一层集群前面还有个 Proxy 负责统一接收数据。这个方案参考了 Netflix 的设计。


Hadoop 治理背景:集群从 100 台增加到 1500 台,很多历史遗留问题,例如用户和权限管理的缺失,缺少 Federation 对于各部门的隔离,小文件,低价值数据的归档和删除,计算队列的利用率,阿里云 EMR 无法完全满足定制化的需求,客户机的管理混乱,等等。 解决方案:自研 Hadoop 集群管理平台,基于 CDH 的源码二次开发,多 Federation + HA,按部门的存储和小文件上限管理,数据生命周期管理,元数据与数据全链路监控,用户权限管理。


机器学习平台背景:公司算法部门有多套训练平台,缺乏统一的资源管理,调度平台,特征仓库,等等。 解决方案:所有训练集群统一到 K8S 管理(包括 CPU 和 GPU 资源),用 KubeFlow 管理任务调度,自研 K8S 任务调度模块提高集群资源利用率,开发特征管理仓库,开发模型管理仓库,用 K8S 管理线上预测服务,等等。


听众受益

  1. 熟悉阿里云大数据平台,和其他公有云方案的差异,和应用场景;

  2. 大数据系统快速增长过程中,如何保障稳定性,如何做技术选型;

  3. 如何从 0 到 1,构建大规模数据系统平台;

  4. 机器学习平台的构建,发挥 K8S 的作用,如何跟数据系统集成。


嘉宾介绍


虞沐,James。2001 年安徽大学本科毕业后,先后在上海 HP 和 SAP 工作。2007 年赴美国硅谷工作,先后在 eBay,赛门铁克,三星从事分布式系统开发。2013 年开始从事大数据和公有云相关开发,先后在百度美国,xAd,和 Facebook,从事技术管理和架构师工作。2018 年底回到上海工作,在趣头条担任大数据技术总监,经历公司快速发展,带领团队自研开发多个大数据和机器学习平台。


更多大数据分析的支撑技术的相关分享请访问 QCon 上海 2019 官网。


2019 年 8 月 30 日 00:003958

评论

发布
暂无评论
发现更多内容

网络攻防学习笔记 Day30

穿过生命散发芬芳

5月日更 网络攻防

JWT(auth0):RS256非对称加密算法实现Token的签发、验证

西门阿浪

Java Token RS256

java.net.BindException: Address already in use: JVM_Bind解决方案

anuyyy

IDEA javaWeb

Dubbo Admin 部署

青年IT男

dubbo

工作流部署详细解析!Spring中部署Activiti流程定义的三种姿势

攻城狮Chova

部署图 工作流引擎 5月日更

Activiti框架中工作流的生命周期详解!一个BPMN流程示例带你走完项目中流程的生命周期

攻城狮Chova

流程管理 BPMN

带你看懂MySQL执行计划

Simon

MySQL 执行计划

架构实战-模块5作业

大师兄

【Flutter 专题】117 图解 Dismissible 滑动清除 Widget

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

从一个HTTP请求来看网络分层原理

IT视界

计算机网络 网络协议 HTTP 网络层

react源码解析1.开篇介绍和面试题

全栈潇晨

React React Hooks react源码

鸿蒙操作系统发布在即 万物互联时代将给开发者带来更多机遇

科技汇

如何成为一名拖垮整个团队的产品经理?

冰河

深度思考 产品经理 自我思考 产品经历 技能提升

业务架构训练营,模块5作业,微博评论高性能架构

好吃不贵

业务架构

Java 面试基础:Java 语言的特点

三掌柜

5月日更

设计微博系统中”微博评论“的高性能高可用计算架构

9527

六一特辑丨8岁小程序员献礼儿童节:我DIY了聊天机器人,做3D printer,还想和外星人对话!

华为云开发者社区

编程 开发者 代码 机器人 小程序员

架构师实战营 模块五作业(设计微博评论的高性能高可用计算架构)

代廉洁

架构实战营

架构师实战营 模块五总结

代廉洁

架构实战营

When others give us advice

escray

极客时间 学习笔记 5月日更

重庆区块链公共服务平台—“渝快链”2.0正式发布

浪潮云

大型系统中的证书管理

张俭

微服务 TLS PaaS

初探可编程网关 Pipy

张晓辉

代理 网关 服务网格

「Adobe国际认证」关于 Adobe Photoshop启动“选择并遮住”工作区

Adobe国际认证

别把单测玩出“坏味道”

九叔

单元测试 测试 单元测试 单元测试必要性

一文带你搞懂RPC到底是个啥

万俊峰Kevin

c++ 微服务 RPC RPC 协议实现原理 srp

走近设计模式:写代码一定要用设计模式吗?

华为云开发者社区

设计模式 代码 软件设计 面向对象软件 GoF设计模式

软件研发中的错误假设

赫杰辉

设计 低代码 研发工具 x-series

带你读论文丨异常检测算法及发展趋势分析

华为云开发者社区

深度学习 异常检测算法 深度异常检测算法 深度半监督 群体异常检测

开发人员应该害怕低代码吗?

禅道项目管理

程序员 低代码 开发 低代码平台

6月日更,优质更文,“定制”来袭~

InfoQ写作平台官方

活动专区 6月日更

围绕“三个问题”开展的网易云音乐数据基础建设

围绕“三个问题”开展的网易云音乐数据基础建设

大数据在趣头条的演进:Kafka 读写分离、Hadoop 治理、机器学习平台-InfoQ