写点什么

GitHub 大规模采用机器学习的痛点和破解之道

  • 2020-02-08
  • 本文字数:993 字

    阅读完需:约 3 分钟

GitHub 大规模采用机器学习的痛点和破解之道

ArchSummit 北京 2019 大会上,Jose David Baena 讲师做了《GitHub 大规模采用机器学习的痛点和破解之道》主题演讲,主要内容如下。


演讲简介


Title: Adopting Machine Learning at Scale


Scaling up machine-learning (ML), data retrieval and reasoning algorithms from Artificial Intelligence (AI) for massive datasets is a major technical challenge in our time. The scaling process can also have different dimensions: performance, development productivity, number of employees…


In this talk I will showcase how we used to develop Machine learning features at GitHub, the pain points we had and how we changed our infrastructure and way of development in order to productionize multiple ML features in terms of hours/days.


In addition, I will explore with the audience the main factors I consider when scaling ML at medium to big companies.


By the end of the talk you should have an overview and applicable framework on how to help scaling ML processes in your company.


Talk outline


Potential outline for the talk:


  • Introduction to ML at GitHub.

  • Challenges of running ML at scale. Different dimensions:

  • Performance: number of requests

  • Development: growing infrastructure, number of ML features

  • Organizational: number of employees

  • ML ecosystem architecture.

  • Improving agility and development on ML features.

  • Adopting ML at scale in your company.


讲师介绍


Jose David Baena,GitHub Senior Software Engineer。


Jose David Baena is a Senior Software Engineer at GitHub. He has more than 10 years experience in backend development, from startups to big companies, from Europe to the United States.


His experience ranges from building distributed low latency systems for financial companies to high performant crawlers for social media.


At the moment, he designs architectures that are used by the Machine Learning and Data Science teams at GitHub. He is passionate about distributed systems, machine learning scalability and developer productivity.












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-08 18:35541

评论

发布
暂无评论
发现更多内容

netty系列之:好马配好鞍,为channel选择配套的selector

程序那些事

Java Netty 程序那些事 12月日更

行业分析| 实时音视频的未来

anyRTC开发者

音视频 WebRTC 实时通信 语音通话 视频通话

计划被打乱怎么办?

Tiger

28天写作

科技令生活“焕然一新”|年末清洁黑科技:美菱洗地机!

联营汇聚

美菱洗地机

资料分享|kafka学习推荐书籍

Kafka中文社区

seata入门介绍与seata-service部署与验证(一)

恒生LIGHT云社区

架构 分布式 seata

智汇华云 | ArSDN给VMware带来了什么

华云数据

如何使用Kubernetes里的NetworkPolicy

汪子熙

Kubernetes k8s 28天写作 docker build 12月日更

大型软件交付项目注意事项53条

IT民工大叔

项目管理 SaaS

我的2021之感谢有你们(上篇)

坚果

年终总结 28天写作 12月日更 盘点2021

Java序列化与反序列化

编程江湖

用户文章转载:P4 Rmdir 会自动删除空目录?不,没那么简单

龙智—DevSecOps解决方案

perforce P4 P4 Rmdir

直播预告|智能运维管理平台OMP核心特性及落地场景介绍

云智慧AIOps社区

DevOps 运维 AIOPS 智能运维 运维管理

AI实战分享 | 基于CANN的辅助驾驶应用案例

华为云开发者联盟

目标检测算法 CANN 昇腾 辅助驾驶 AscendCL

探索 Design Token

凹凸实验室

前端 设计

【转】前端开发之React Native SDK 升级问题

@零度

前端 React Native

Linux之find常用命令汇总

入门小站

28《重学JAVA》--注解

杨鹏Geek

Java25周年 28天写作 12月日更

低代码行业浅析

凹凸实验室

前端 低代码

智汇华云 | 桌面云卓越体验下的协议技术解析

华云数据

观点 | NoSQL 产品的 SaaS 化之路

RadonDB

数据库 nosql NoSQL 数据库

从翻硬币游戏看敏捷开发

华为云开发者联盟

敏捷 敏捷开发 软件开发 团队 开发

给弟弟的信第27封|学会说不,别让面子害了你

大菠萝

28天写作

带你详细了解 Node.js 中的事件循环

编程江湖

前端开发 node,js

【转】java开发之批处理框架 Spring Batch

@零度

JAVA开发 spring batch

拍乐云解析融合语音通话技术实践

拍乐云Pano

音视频 RTC 拍乐云 技术干货 融合语音通话

Flink 实践教程-进阶(5):排序(乱序调整)

腾讯云大数据

流计算 Oceanus

走访数年,编撰3年:你能看到的互联网企业案例最多的一本书

博文视点Broadview

参加过 4 届 TiDB Hackathon 是一种什么体验? | TiDB Hackathon 选手访谈

PingCAP

智汇华云 | 使用Kubeadm进行Kubernetes集群版本升级

华云数据

实战大数据,HBase 性能调优指南

编程江湖

HBase

GitHub 大规模采用机器学习的痛点和破解之道_ArchSummit_Jose David Baena_InfoQ精选文章