写点什么

GitHub 大规模采用机器学习的痛点和破解之道

  • 2020-02-08
  • 本文字数:993 字

    阅读完需:约 3 分钟

GitHub 大规模采用机器学习的痛点和破解之道

ArchSummit 北京 2019 大会上,Jose David Baena 讲师做了《GitHub 大规模采用机器学习的痛点和破解之道》主题演讲,主要内容如下。


演讲简介


Title: Adopting Machine Learning at Scale


Scaling up machine-learning (ML), data retrieval and reasoning algorithms from Artificial Intelligence (AI) for massive datasets is a major technical challenge in our time. The scaling process can also have different dimensions: performance, development productivity, number of employees…


In this talk I will showcase how we used to develop Machine learning features at GitHub, the pain points we had and how we changed our infrastructure and way of development in order to productionize multiple ML features in terms of hours/days.


In addition, I will explore with the audience the main factors I consider when scaling ML at medium to big companies.


By the end of the talk you should have an overview and applicable framework on how to help scaling ML processes in your company.


Talk outline


Potential outline for the talk:


  • Introduction to ML at GitHub.

  • Challenges of running ML at scale. Different dimensions:

  • Performance: number of requests

  • Development: growing infrastructure, number of ML features

  • Organizational: number of employees

  • ML ecosystem architecture.

  • Improving agility and development on ML features.

  • Adopting ML at scale in your company.


讲师介绍


Jose David Baena,GitHub Senior Software Engineer。


Jose David Baena is a Senior Software Engineer at GitHub. He has more than 10 years experience in backend development, from startups to big companies, from Europe to the United States.


His experience ranges from building distributed low latency systems for financial companies to high performant crawlers for social media.


At the moment, he designs architectures that are used by the Machine Learning and Data Science teams at GitHub. He is passionate about distributed systems, machine learning scalability and developer productivity.












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-08 18:35562

评论

发布
暂无评论
发现更多内容

开源等于免费吗?

源字节1号

开源

PingCAP 与阿里云达成合作 云数据库 TiDB 上线阿里云心选商城

PingCAP

分布式数据库 TiDB

十分钟带汝入门大数据开发语言Scala

百思不得小赵

scala 大数据 6月月更

开发者能力大赏,谁是技术知识达人?

华为云开发者联盟

华为云

盲盒APP开发新玩法,盲盒APP需具备的模块

WDL22119

盲盒商城 盲盒开发 盲盒APP开发 盲盒源码 盲盒H5开发

通过DAO的现状,看Web3最具影响力的基础设施M-DAO

鳄鱼视界

华为云发布新伙伴体系,携手伙伴及开发者共建新生态,共创新价值

郝俸🦁好棒

华为云 生态

基于宽表的数据建模应用

百度Geek说

大数据 数据建模

2022年中国露营市场专题洞察

易观分析

露营

NLP论文领读|合成数据的妙用:低成本构建高质量的大规模平行语料

澜舟孟子开源社区

人工智能 自然语言处理 数据挖掘 深度学习 nlp

自主研发不断突破!索信达AI技术再获国家发明专利授权

索信达控股

使用 eBPF 增强监控和可观测性

观测云

OpenHarmony 官网文档有哪些上新?下篇:设备开发文档上新

OpenHarmony开发者

Open Harmony

得物质量度量之“三级指标体系”及其应用实践

得物技术

质量保障 指标监控 工程效能 质量指标 效能平台

墨天轮访谈 | 叶金荣:GreatSQL开源社区——做中国广受欢迎的开源数据库

墨天轮

数据库 开源数据库 国产数据库

盲盒APP开发:如何抓住消费者的心?

WDL22119

盲盒商城 盲盒APP开发 盲盒源码 盲盒H5开发 盲盒小程序

InfoQ 极客传媒 15 周年庆征文|【Docker最佳实践】Windows上安装Docker及常见问题解决

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

ABAP BDC常见问题-FICO

桥下本有油菜花

abap

java开发技术培训MyBatis的缓存

@零度

mybatis JAVA开发

React Suspense 尝鲜,处理前后端IO异步操作

葡萄城技术团队

大前端 SpreadJS 表格控件 纯前端表格组件

【Spring 学习笔记(十一)】基于注解的Spring AOP

倔强的牛角

Java spring spring aop Java EE 6月月更

ABAP BDC的执行模式和更新模式

桥下本有油菜花

abap

不会乘法表怎么做乘法?这个远古的算法竟然可以!

博文视点Broadview

PingCAP 与阿里云达成合作 云数据库 TiDB 上线阿里云心选商城

Geek_2d6073

office 2016连接mysql并执行复杂查询

阿呆

MySQL Office

有了钉钉和企业微信,企业还需要专属IM吗?

WorkPlus

支持 M3U8 格式播放的方法

CRMEB

java培训MyBatis动态SQL

@零度

mybatis JAVA开发

Windows/Linux系统下python的安装与环境配置

左手の明天

Python Python库安装 python安装

解决方案| 快对讲综合调度系统

anyRTC开发者

音视频 快对讲 语音对讲 调度系统 视频对讲

Windows域提权漏洞分析与复现

网络安全学海

网络安全 安全 渗透测试 WEB安全 漏洞挖掘

GitHub 大规模采用机器学习的痛点和破解之道_ArchSummit_Jose David Baena_InfoQ精选文章