写点什么

Uber 开源 Manifold:机器学习可视化调试工具

  • 2020-01-11
  • 本文字数:1503 字

    阅读完需:约 5 分钟

Uber 开源 Manifold:机器学习可视化调试工具

Uber 是一家交通网络公司,总部位于美国加利福尼亚州旧金山,以开发移动应用程序连结乘客和司机,提供载客车辆租赁及实时共乘的分享型经济服务。Uber 与同是交通网络公司 Lyft 一样,在人工智能和机器学习的领域也有所建树。今天,Uber 带来了 Uber 机器学习平台软件工程师 Lezhi Li 分享的 Manifold 文章,这是 Uber 开源的机器学习可视化调试工具。



在 2019 年 1 月,Uber 推出了 Manifold,这是一种与模型无关的机器学习可视化调试工具,Uber 用来识别机器学习模型中的问题。为了让其他机器学习从业者能够享受到这个工具带来的好处,日前,Uber 宣布,他们将 Manifold 作为开源项目发布。


Manifold 帮助工程师和科学家识别机器学习数据切片和模型的性能问题,并通过显示数据子集之间的特征分布差异来诊断问题的根本原因。在 Uber,Manifold 已经成为 Uber 的机器学习平台 Michelangelo 的一部分,并帮助 Uber 的各个产品团队分析和调试机器学习模型的性能。


自从去年早些时候在 Uber Eng Blog 上重点介绍这个项目以来,Uber 已经收到了很多来自社区的反馈,这些反馈都是关于这个项目在通用机器学习模型调试场景中的潜力。在开源 Manifold 的独立版本中,Uber 认为,这个工具通过为机器学习工作流提供可解释性和可调试性,同样也会使机器学习社区受益。

版本 1 中的新特性

在 Manifold 的第一个开源版本中,Uber 添加了各种特性,使模型调试比内部迭代更容易。


版本 1 的特性包括:


  • 通用二进制分类和回归模型调试的模型无关性支持。用户将能够分析并比较各种算法类型的模型,使他们能够辨别不同数据切片的性能差异。

  • 对表格特征输入的可视化支持,包括数字、类别和地理空间特征类型。 利用每个数据切片的特征值分布信息,用户可以更好地了解某些性能问题的潜在原因,例如,模型的预测损失与其数据点的地理位置和分布之间是否存在相关性。



图 1. Manifold 新的升级包括对地理空间特征的可视化支持


  • 与 Jupyter Notebook 集成。Manifold 接受作为 Pandas DataFrame 对象的数据输入,并在 Jupyter 中呈现该数据的可视化效果。由于 Jupyter Notebook 是数据科学家和机器学习工程师使用最广泛的数据科学平台之一,因此这种集成让用户得以能够在不中断正常工作流的情况下分析他们的模型。



图 2. Manifold 的 Jupyter Notebook 集成接受作为 Pandas DataFrame 对象的数据输入,并在 Jupyter Notebook UI 中呈现可视化效果


  • 基于每个实例预测损失和其他特征值的交互式数据切片和性能比较。 用户将能够根据预测损失、基准真相(Ground Truth)或其他感兴趣的特征对数据进行切片和查询。这个特性将使用户能够通过通用的数据切片逻辑快速验证或拒绝其假设。


译注:基准真相(Ground Truth,又称:地面实况、上帝真相)是一个相对概念;它是指相对于新的测量方式得到的测量值,作为基准的,由已有的、可靠的测量方式得到的测量值(即经验证据)。人们往往会利用基准真相,对新的测量方式进行校准,以降低新测量方式的误差和提高新测量方式的准确性。机器学习领域借用了这一概念。使用训练所得模型对样本进行推理的过程,可以当做是一种广义上的测量行为。因此,在有监督学习中,Ground Truth 通常指代样本集中的标签。



图 3. 基于每个实例预测损失和特征值的交互式数据切片允许 Manifold 用户更好地理解机器学习模型的性能问题

下一步

Manifold 的开源版本提供了 npm 软件包版本,而对于 Jupyter Notebook 的绑定,则提供了一个 Python 包版本。要开始使用 Manifold,请按照 GitHub Repo 中的文档进行操作并在本地安装,或者查看 Uber 的演示网站


作者简介:


Lezhi Li,Uber 机器学习平台团队的软件工程师。


原文链接:


https://eng.uber.com/manifold-open-source/


2020-01-11 09:001975

评论

发布
暂无评论
发现更多内容

OIDC & OAuth2.0 认证协议最佳实践系列 02 - 授权码模式(Authorization Code)接入 Authing

Authing

低代码 OAuth 2.0 OIDC Authing

极氪汽车 APP 系统云原生架构转型实践

阿里巴巴云原生

阿里云 云原生 合作

全面预算管理可以从科技发展中得到什么?

智达方通

全面预算管理 信息孤岛

人脸识别图像技术的原理及其应用

来自四九城儿

靠AI自动生成视频撸自媒体收益,月入5000+

派大星

ChatGPT4

生态共建丨YashanDB与金蝶软件完成兼容互认证

YashanDB

数据库

伊利与腾讯云 CODING 的「水乳交融」启示录

CODING DevOps

DevOps 最佳实践 数字化转型 CODING

2023上海国际嵌入式展 | 如何通过生命周期管理工具创建完整、可追溯的嵌入式开发

龙智—DevSecOps解决方案

嵌入式系统 嵌入式开发 上海国际嵌入式展

企业号 6 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 6 月 PK 榜

公用事业财务共享如何建,看南京水务立标杆

用友BIP

财务共享

MaxCompute 物化视图智能推荐最佳实践

阿里云大数据AI技术

大数据 算力加速 智能推荐 企业号 5 月 PK 榜

是 CI 也是阿拉伯飞毯——腾讯云 CODING CI 3.0 云原生构建

CODING DevOps

云原生 持续集成 CODING DevOps

探索 Web 管理之路,OpenYurt 社区 UI/CLI SIG 正式启动

阿里巴巴云原生

阿里云 开源 云原生 openyurt

财务共享经验分享!权威教授解读企业走向财务数智化的关键路径

用友BIP

财务共享

数据可视化:地图类可视化图表大全

2D3D前端可视化开发

大数据 数据分析 数字化转型 数据可视化 数据可视化工具

业务高速增长,如祺出行如何用腾讯云消息队列 RocketMQ 应对挑战

科技热闻

Server版支持即将到期,Jira和Confluence如何迁移?(2)

龙智—DevSecOps解决方案

云原生 迁移 云 原生云 CTO 迁移上云 迁移计划

财务共享案例分享!大型企业财务先锋交流财务数智化转型的关键举措

用友BIP

财务共享

为什么数字化转型就应该选择低代码?一文详解

加入高科技仿生人

低代码 数字化转型

对线面试官-线程池(一)

派大星

面试

独立游戏开发:掌握成功的五大关键技巧

龙智—DevSecOps解决方案

游戏开发 独立游戏 独立游戏开发

国内一流地方金融控股集团-长投控股怎样建设财务共享平台?

用友BIP

财务共享

欧伟杰:乘“20+8”政策之东风,促进深圳空间数据向好发展

YashanDB

数据库

合合信息商业大数据技术为农商行打造数字化转型专项方案

合合技术团队

数据挖掘 大数据 金融

玩转服务器之网站篇:新手使用WordPress搭建博客和静态网站部署

京东科技开发者

Wordpress 部署 服务器 WordPress 企业号 5 月 PK 榜 静态网站部署

理论+实操|一文掌握 RFM 模型在客户数据洞察平台内的落地实战

袋鼠云数栈

大数据 RFM模型 标签体系 RFM

全球化财务如何通过全球核算助力跨国业务的稳定增长和持续发展?

用友BIP

中企出海 全球化财务

自动驾驶研发解决方案,百度智能云市场份额第一!

Baidu AICLOUD

自动驾驶 AI 大底座

软件测试/测试开发丨学习笔记之App自动化用例录制、结构分析

测试人

程序员 软件测试 自动化测试 测试开发 appium

神笔马良看了都鼓掌

百度Geek说

人工智能 AIGC 企业号 5 月 PK 榜

低代码+MOM:释放制造业数字化魅力

力软低代码开发平台

Uber 开源 Manifold:机器学习可视化调试工具_文化 & 方法_Lezhi Li_InfoQ精选文章