开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

Dataiku 在最新版本的 Data Science Studio 中把深度学习集成进计算机视觉

  • 2018-04-17
  • 本文字数:1638 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日, Dataiku 发布了 Data Science Studio (DSS)的 4.2 版本。这是一个协作式数据分析和预测分析平台,提供了预训练深度学习模型用于图像处理。通过迁移学习,该模型可以进一步应用到专用数据集上。

该平台涵盖了数据科学端到端项目的所有步骤,从连接、数据整理和可视化到机器学习和生产部署。其机器学习模型支持 Scikit-learn XGBoost MLLIb H20 等标准库。开发人员也可以连接到 Hadoop 集群,并集成多种 Spark 引擎。

这个平台适用于常见的预测分析场景,如需求预测、生命周期价值优化、客户流失分析或欺诈检测。Dataiku 的客户包括像通用电气欧莱雅联合利华这样的公司。在 Gartner 2018 数据科学平台魔力象限中,该公司已经连续第二年被称为“远见者(visionary)”。

InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau ,以了解更多有关这家公司及其旗舰产品的信息。

InfoQ:您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗?其后台技术是什么?

Florian Douetteau:Dataiku 是一个软件,用户可以下载并安装在自己的基础设施上。因此,对于许多客户而言,那是在云上,但对其他人来说,那仍然是他们自己的数据中心(大约对半)。

我们通常要考虑客户的部署约束和挑战,因此,我们必须让我们的产品尽可能地简单。我们的架构是多进程的,但它是自包含的,在这个意义上来说,也可以视为单体的。从根本上说,该解决方案内置了它需要的一切,包括 SQLite H2 数据库。我们的代码主要是使用 Java 编写的,这是大数据的主要语言之一,被视为性能和生产力取得很好平衡的一门语言。

在后台有一个 Web 服务器,负责任务调度、存储和元数据管理、搜索索引。我们还有一些 Python 和 R 进程,显然还有 Spark 进程。在前端,我们使用一个 AngularJS 编写的单页应用程序( SPA )。

InfoQ:平台的典型用户是谁?市场或销售部门可以用吗?或者,它需要使用者具有一定水平的数据科学知识吗?

Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互。当然,有许多特性是专门为编码人员和数据科学专家提供的——他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作。但是,我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起,因为有时候,那会更高效。

Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源,整理数据,运用机器学习模型,实现可视化等等,而不需要编写一行代码。对于有许多分析师的大型团队而言,这太棒了,因为这带来了很大的可扩展性。对于可能没有数据科学家的小型团队而言,这也可以为他们带来很大的灵活性。

InfoQ:DSS 4.2 中包含了基于深度学习的图像识别。你们的深度学习产品策略是什么?

Douetteau: 整个 2018 年到 2019 年,我们将集中精力帮助企业消除数据项目产品化之路上的障碍,并提供长期成功所需的结构和稳定性。这意味着,我们将按照产品开发路线图加速深度学习、AI 向生产环境的部署。

InfoQ:在计算能力和存储方面,你们如何应对利用大数据、深度学习的大规模机器学习?

Douetteau:在性能方面,由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件,所以,要确保良好的性能,就需要客户端部署多个实例。

这恰恰是我们所支持的——横向扩展和新增节点。说服客户,让他们信任我们,把数据交给我们托管,这是个复杂的事情,尤其是,我们面向的是大型的国际化企业。但除此之外,还有底层的技术问题;例如,处理数据时要离数据尽可能地近,此时,SaaS 就不是一个好的解决方案。另一方面,这非常适合云——我们通过托管的 Hadoop 解决方案集成了 AWS、Microsoft Azure 和 GCP。

在接下来的几个月里,Dataiku 将会出席在美国举办的多个大数据和AI 活动,包括将于六月份在旧金山举行的 Spark 峰会。Dataiku 官网提供了该软件的免费版本

查看英文原文 Dataiku’s Latest Release Integrates Deep-Learning for Computer Vision

2018-04-17 19:002268
用户头像

发布了 1008 篇内容, 共 400.8 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

ApacheCon 首次亚洲大会火热来袭,SphereEx 邀您共赴年度盛会

SphereEx

架构训练营模块二作业

BlingBling

架构实战营

多维数据分析(OLAP)技术选型(2):数据分析与OLAP差异

水滴

数据分析 OLAP 技术选型

架构实战营作业 M02

Shawn Liu

架构实战营

Spark SQL和DataSet(六)

Databri_AI

sql spark RDD

网络攻防学习笔记 Day78

穿过生命散发芬芳

网络攻防 7月日更

架构模块2

慕溶枫

#架构实战营

架构实战营 - 模块二(作业)

Cingk

架构训练营第 1 期 模块二作业

高远

Python OpenCV 图像的膨胀与腐蚀,图像处理取经之旅第 38 篇

梦想橡皮擦

7月日更

架构实战营模块二作业

Morphling

#架构实战营

区块链的宿命,数字经济的局

CECBC

架构实战营 - 模块 2 - 微信朋友圈高性能复杂度分析

雪中亮

架构实战营 #架构实战营

模块二作业

俊杰

一篇并不起眼的数据仓库面试题

王知无

架构实战营模块二作业

子豪sirius

架构实战营

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

王知无

到底什么时候要分库分表?

卢卡多多

分库分表 7月日更

架构实战营 - 模块二

Testcase

架构实战营

设计消息队列存储消息数据的MySQL表格

俞嘉彬

架构实战营

微信朋友圈高性能复杂度分析

gawaine

架构实战营

架构训练营模块 2 作业 - 听闻

听闻

MapReduce案例(一)-- 流量统计

钱江兵

模块二-微信朋友圈高性能复杂度分析

kk

架构实战营

标签体系下的用户画像建设小指南

王知无

架构实战营作业七——王者荣耀商城异地多活架构设计

开拓纪

架构实战营 模块七

架构训练营-模块二

小卷儿

架构实战营第二课作业——微信朋友圈的高性能复杂度分析

tt

架构实战营

实时数据湖:Flink CDC流式写入Hudi

王知无

模块二作业

seawolflin

架构实战营

争议不断的动力电池暗战,究竟改变了什么?

脑极体

Dataiku在最新版本的Data Science Studio中把深度学习集成进计算机视觉_AI&大模型_Alexis Perrier_InfoQ精选文章