写点什么

Dataiku 在最新版本的 Data Science Studio 中把深度学习集成进计算机视觉

  • 2018-04-17
  • 本文字数:1638 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日, Dataiku 发布了 Data Science Studio (DSS)的 4.2 版本。这是一个协作式数据分析和预测分析平台,提供了预训练深度学习模型用于图像处理。通过迁移学习,该模型可以进一步应用到专用数据集上。

该平台涵盖了数据科学端到端项目的所有步骤,从连接、数据整理和可视化到机器学习和生产部署。其机器学习模型支持 Scikit-learn XGBoost MLLIb H20 等标准库。开发人员也可以连接到 Hadoop 集群,并集成多种 Spark 引擎。

这个平台适用于常见的预测分析场景,如需求预测、生命周期价值优化、客户流失分析或欺诈检测。Dataiku 的客户包括像通用电气欧莱雅联合利华这样的公司。在 Gartner 2018 数据科学平台魔力象限中,该公司已经连续第二年被称为“远见者(visionary)”。

InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau ,以了解更多有关这家公司及其旗舰产品的信息。

InfoQ:您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗?其后台技术是什么?

Florian Douetteau:Dataiku 是一个软件,用户可以下载并安装在自己的基础设施上。因此,对于许多客户而言,那是在云上,但对其他人来说,那仍然是他们自己的数据中心(大约对半)。

我们通常要考虑客户的部署约束和挑战,因此,我们必须让我们的产品尽可能地简单。我们的架构是多进程的,但它是自包含的,在这个意义上来说,也可以视为单体的。从根本上说,该解决方案内置了它需要的一切,包括 SQLite H2 数据库。我们的代码主要是使用 Java 编写的,这是大数据的主要语言之一,被视为性能和生产力取得很好平衡的一门语言。

在后台有一个 Web 服务器,负责任务调度、存储和元数据管理、搜索索引。我们还有一些 Python 和 R 进程,显然还有 Spark 进程。在前端,我们使用一个 AngularJS 编写的单页应用程序( SPA )。

InfoQ:平台的典型用户是谁?市场或销售部门可以用吗?或者,它需要使用者具有一定水平的数据科学知识吗?

Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互。当然,有许多特性是专门为编码人员和数据科学专家提供的——他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作。但是,我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起,因为有时候,那会更高效。

Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源,整理数据,运用机器学习模型,实现可视化等等,而不需要编写一行代码。对于有许多分析师的大型团队而言,这太棒了,因为这带来了很大的可扩展性。对于可能没有数据科学家的小型团队而言,这也可以为他们带来很大的灵活性。

InfoQ:DSS 4.2 中包含了基于深度学习的图像识别。你们的深度学习产品策略是什么?

Douetteau: 整个 2018 年到 2019 年,我们将集中精力帮助企业消除数据项目产品化之路上的障碍,并提供长期成功所需的结构和稳定性。这意味着,我们将按照产品开发路线图加速深度学习、AI 向生产环境的部署。

InfoQ:在计算能力和存储方面,你们如何应对利用大数据、深度学习的大规模机器学习?

Douetteau:在性能方面,由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件,所以,要确保良好的性能,就需要客户端部署多个实例。

这恰恰是我们所支持的——横向扩展和新增节点。说服客户,让他们信任我们,把数据交给我们托管,这是个复杂的事情,尤其是,我们面向的是大型的国际化企业。但除此之外,还有底层的技术问题;例如,处理数据时要离数据尽可能地近,此时,SaaS 就不是一个好的解决方案。另一方面,这非常适合云——我们通过托管的 Hadoop 解决方案集成了 AWS、Microsoft Azure 和 GCP。

在接下来的几个月里,Dataiku 将会出席在美国举办的多个大数据和AI 活动,包括将于六月份在旧金山举行的 Spark 峰会。Dataiku 官网提供了该软件的免费版本

查看英文原文 Dataiku’s Latest Release Integrates Deep-Learning for Computer Vision

2018-04-17 19:002218
用户头像

发布了 1008 篇内容, 共 396.9 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

TiDB Vector抢先体验之用TiDB实现以图搜图

TiDB 社区干货传送门

数据库架构选型 新版本/特性解读 数据库前沿趋势

对话阿里云佘俊泉:边缘云的持续突破和创新

MasterInTech

阿里云 边缘云

旅游电商的智能化升级:携程景点详情API引领新潮流

技术冰糖葫芦

API 接口 API 测试 pinduoduo API

BizDevOps全局建设思路:横向串联,纵向深化

嘉为蓝鲸

DevOps Dev Ops BizDevOps

TiDB学习认证之路:数据库界的“快乐大本营”

TiDB 社区干货传送门

社区活动 学习&认证&课程

展出规模超50万平米“2024第26届深圳高交会”招商工作全面启动

AIOTE智博会

高交会 高新技术展 深圳高交会

NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道

汀丶人工智能

自然语言处理 text2sql NL2SQL

HAS2024:华为云以系统性创新加速千行万业智能化升级

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号2024年4月PK榜 HAS2024

腾讯的面试,强度拉满!

王中阳Go

Java Go 后端 面试题 面经

WorkPlus企业即时通讯国密加固-为企业信息安全保障

BeeWorks

Serial for Mac :全能串口调试工具

iMac小白

Serial下载 Serial破解版 Serial mac

Create 2024 分论坛:百度大模型安全解决方案护航开发者一起创造未来

百度安全

我们开源啦!一键部署免费使用!Kubernetes上直接运行大数据平台!

智领云科技

开源 大数据平台 K8s 多集群管理

企业im即时通讯工具推荐,企业内部即时通讯软件工具怎么选?

BeeWorks

TiDB 新特性解读 (6.0~6.6)

TiDB 社区干货传送门

管理与运维 版本测评 新版本/特性解读 6.x 实践 7.x 实践

碳实践|手把手教你开展组织碳核算

AMT企源

数字化转型 双碳 碳核算

全球AI音乐会,第一次听见中国声音

脑极体

AI

Ghost Buster Pro for Mac:轻松优化与维护系统新选择

iMac小白

Ghost Buster Pro下载 Ghost Buster Pro mac Ghost Buster Pro破解

Python与数据库交互的最佳实践

技术冰糖葫芦

api 货币化 API 接口 pinduoduo API

JetBrains WebStorm 2024:卓越的前端开发工具mac/win

iMac小白

WebStorm 2024下载 WebStorm 2024 mac WebStorm 2024破解版

NL2SQL实践系列(2):2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学

汀丶人工智能

text2sql NL2SQL

一个游戏服务器多少钱?价格与配置的完美指南

一只扑棱蛾子

服务器

调试 WebSocket API 教程实践

Apifox

程序员 前端 后端 websocket WebSocket API

PTCP认真学习始(不是错别字,啊喂

TiDB 社区干货传送门

社区活动 学习&认证&课程

IM即时通讯软件,WorkPlus私有化部署全面支持信创环境

BeeWorks

好用的即时通讯系统,如何选择适合政企即时沟通软件?

BeeWorks

一个埋藏9年的底层bug发现历程

阿里技术

故障 bug 故障排查 故障排查/诊断

TiDB 版本升级常见问题处理(v6.0 及以上版本)

TiDB 社区干货传送门

版本升级 故障排查/诊断

如何基于香橙派AIpro对视频/图像数据进行预处理

华为云开发者联盟

华为云 数据预处理 昇腾CANN 华为云开发者联盟 企业号2024年4月PK榜

TiDB与MySQL在备份容灾体系的衡量对比

TiDB 社区干货传送门

管理与运维

Dataiku在最新版本的Data Science Studio中把深度学习集成进计算机视觉_AI&大模型_Alexis Perrier_InfoQ精选文章