HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Martin Van Ryswyk 谈 DataStax Enterprise Graph 数据库

  • 2016-09-29
  • 本文字数:3414 字

    阅读完需:约 11 分钟

DataStax 是一家为 NoSQL 数据库 Cassandra 提供商用支持的公司,也提供图数据库产品。它最近发布了一款名为 DataStax Graph 的新产品,包含适应性查询优化器、自动图数据分区、分布式查询执行引擎及专用于索引图的数据结构等重要功能。

DataStax Graph 数据库基于开源图数据库 Titan 研发,并使用了开源 Apache Tinkerpop 框架的 Gremlin 查询语言。DataStax 向 Apache 基金会对 Tinkerpop 进行了捐赠,现在已经成为社区中使用 Apache Tinkerpop 并对它做出贡献的供应商之一。

开源图数据库 Titan 的初创团队 Aurelius 在去年被 DataStax收购,现在他们已经构建出了新的图数据库功能。

Datastax Enterprise (DSE) Graph 是多模型平台的一部分,除了图之外还支持键值模型、表格模型和文档模型等。用户可以只使用一个供应商的产品就得到多种不同的数据模型,而不必在处理复合模型实现时为了使用多种不同数据模型而不得不求助于多个供应商。

DSE Graph 还包括许多附加功能,包括安全功能、内置分析功能、企业搜索功能、可视化管理监控和开发工具箱等。另外,DataStax Studio 还为图的可视化编辑及图查询等带来了全新的基于网页的解决方案。

InfoQ 就 Datastax 中的图数据模型支持等功能采访了 DataStax 技术部 EVP: Martin Van Ryswyk 先生。

Martin 谈到了这款新图数据库产品的功能,并与定制化的 NoSQL 图数据库进行了对比。DSE Graph 是一个分布式的图数据库平台,专为 Cassandra 设计,来为 DataStax 平台提供大规模图计算功能。

DSE Graph 原生与 DSE 检索 DSE 分析功能结合在一起,这样终端用户就可以在他们的应用程序中直接使用这些技术了。

他也谈到了一些图数据库的使用场景,以及在企业的数据管理中采用多模型数据库的好处。

InfoQ:能请您举些例子说明在数据管理的场景下 DataStax Enterprise Graph 数据库可以为大家提供哪些帮助吗?

Martin:

  • 360°管理用户数据:有个医疗机构构建了一套系统,用于存储病人数据及诊断记录、医护人员数据等。所有医院都可以访问这套病人的 360°数据系统。这些使用不同类型的数据汇总起来,最终会产生一个在病人、门诊、医院和医生之间的复杂图模型。
  • 库存管理:一家在线音乐与视频公司希望能基于现有的供应商信息来实现产品目录管理,并把这些信息与作者、乐队、演员、类型等结合起来,最终生成一张网格型的、复杂的、结构化的图。顾客可以实时检索这些图信息,并可以按照他们的查询需求即时返回结果。
  • IT 网络与设备管理:一家大型银行希望能监管它的计算机与服务器网络,以及各种配置。为了更好地理解这些机器之间是如何互联的,他们构建了一张图来优化部署、跟踪网络状态、发现安全与兼容性风险等。为了检测网络系统的健康状态,他们也从每一台机器上搜集了健康状态信息。
  • 安全与欺诈检测:一家金融机构打造了一张图,标记用户、机构、账户、信用卡和金融交易之间的关系,通过分析钱流经的路线、当地金融交易中的个人情况等,来检测一笔交易是否存在洗钱等犯罪活动的可能。
  • 推荐引擎:一家电子商务网站基于顾客信息以及过去的检索记录和购买行为等向顾客进行商品推荐。最重要的是,它基于用户当前浏览连接的最近检索行为来做出推荐,这些信息全都是存储在图中的。图分析技术被用于根据刚刚发生的交互行为来检索符合条件的其它商品。

InfoQ:您能举个例子,是把各种不同的,比如键值型、表格型、文档型、图型等所有数据都保存在一个数据库中的例子吗?

Martin:比如一个各种数据都从传感器上采集而来的物联网的例子。数据都存储在表格型时间序列模型中(在 DSE 的场景中很常见)。每条记录中都包含了传感器的 ID,以及在不同时刻采集上来的数据。同时 DSE Graph 也用来表现传感器、设备、工厂、业务线、产品、位置、供应商等组成的大型复杂层次架构。

传感器的 ID 可以从时间序列数据中得到,用于在图中的点表示这个传感器,可以用于检索,这样上下文就被确定下来了。如果某个传感器的读数异常,会有哪些具体影响?比如这是一架飞机上的 500 个传感器之一,这张图就可以用于表示出是三号引擎的燃油泵模块发生了故障,进而提示需要紧急降落。从图中可以知道这个发生故障的引擎是在哪一架飞机中,现在是在飞哪一次航班,由此我们可以找出按计划这架飞机接下来的飞行班次,从而预测哪些航班将被延迟。我们也可以知道有哪些机场会受到影响。装上飞机的每一件行李也都被扫描过并被加入图中,这样就可以知道哪些货物哪些行李也会被延迟。这是与客户有关的一个例子。事实上他们也会存储和食品服务、机组调度、行李处理、地勤设备等相关的信息,全都保存在同一个 DSE Graph 数据库中。各种不同的行业应用都会有它自己的时间序列数据、文档以及存储在图之外的其它数据。你会发现如果把所有这些数据全都保存在一个系统里,对于开发者和管理者来说是多么的简单。

InfoQ:对于要管理各种不同类型的非结构型数据(KV、表格、文档和图)的场景来说,使用多模型数据库是不是要比对每种数据都使用各自的专用 NoSQL 数据库更好?

Martin:这个问题我的用户最清楚答案了。几年前他们在每个方面都使用定制化的解决方案,因为他们的旧系统无法提供他们想要的扩展性和可用性。可现在他们关注的焦点转向了操作简单,因为他们更倾向于使用一个多模型系统来在一个系统中提供各方面的解决方案。在一个领域中运营和寻找有经验的人,要比同时涉及五个领域会容易得多。

InfoQ:对于开发者来说,该怎么判断什么时候使用一个多模型数据库,什么时候该使用 Spring Data 之类的抽象了多种数据存储访问逻辑的数据访问框架?

Martin:抽象数据访问逻辑意味着你对底层系统的工作一无所知。要利用好云应用的可扩展性和可用性,开发者不该放弃对 Spring 之类的抽象层的了解。通常这些抽象层只能对它们要抽象的各种系统的共性做一个简单抽象。事实上不同的模型大相径庭,很难把各种重要功能抽象出来。所以必须对要优化的模型有所了解才能实现好自己的系统。

InfoQ:在存储大型图数据集时,DataStax Enterprise Graph 是如何做在集群中多节点之间的分区数据复制的?

Martin:在 DataStax Enterprise 的内部 DSE Graph 是与 Cassandra 数据库紧密结合在一起的,所以可以充分利用 Cassandra 自身的分区和复制技术。另外,我们团队也开发了非常有效的查询路由、查询优化算法等,来在集群中快速高效地找到数据。

InfoQ:在 Cassandra 与 Spark 结合做数据分析的场景,新的图数据模型支持得怎么样?

Martin:我们针对图的 DSE 分析功能是基于 Spark 实现的。当用户执行的查询会检索图的一大部分(而不是简单地在某个节点就可以完成)时,我们会用底层的 Spark 来协助优化这样的查询。

InfoQ:DataStax Enterprise Graph 产品提供了哪些图数据可视化工具?

Martin:DataStax Studio 就是一个这样的开发工具,可以帮助用户执行 Gremlin 查询和将结果可视化。这个工具可用于帮助新开发者学习查询语言,也可以帮助有经验的开发者来测试程序的查询语句。另外我们也和许多家图数据可视化公司建立了合作伙伴关系,比如 Cambridge Intelligence Linkurious 等,他们的产品中已经加入了对 DSE Graph 的支持。

他也提到图的实现包含了服务器、可视化管理、用 DataStax OpsCenter 监控图数据库实现、用 DataStax Studio 进行可视化图开发、以及许多驱动来借助其他 DataStax Enterprise 模块(即 SparkSQL、Enterprise Search 等)处理图数据等。

读者可以自行查阅有关多模型数据库的DataStax 白皮书,了解云应用可以从多模型方法上获得怎样的帮助。

有一篇相关的新闻提到,一个不久前由TinkerPop 社区和DataStax 共同创建的名为 PlanetTinkerPop.org 的新网站已经为有兴趣的开发者提供了讨论和分享有关 TinkerPop Gremlin 信息的去处,这正是图数据库的查询语言。

关于受访者

Martin Van Ryswyk, 技术部执行副总裁,负责全世界范围内的软件工程、产品开发和对企业集成大数据平台的持续改进。他在小型初创公司和巨型企业中有超过 22 年的软件团队管理经验。期间,他在各种不同领域完成了产品的研发上线全流程,包括云计算、应用程序生命周期管理、数据库性能分析、存储管理和系统管理等。加入 DataStax 之前,他也曾在多种不同的高级技术岗位上任职,在 Tidal Software、Luminate、EMC 及上一家 Electric Cloud 等公司带领开发和为企业级技术产品制订市场推广策略。Martin 在加利福尼亚大学戴维斯分校获得了计算机专业学士学位。

阅读英文原文 Martin Van Ryswyk on DataStax Enterprise Graph Database

2016-09-29 18:277131
用户头像

发布了 152 篇内容, 共 70.7 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

基础设施设施即代码(IaC)平台 Pulumi | 混合云管理利器

郭旭东

基础设施即代码 IaC

让人工智能成为保险行业科技基因的一部分!

百度大脑

人工智能 保险

java性能分析与问题定位 实战

try catch

Java 性能分析

普通代码块 静态代码块 构造代码块......傻傻分不清

麦洛

Java

阿里分布式大神亲码“redis核心技术笔记”,没有废话,全是干货!

Java架构追梦

Java redis 阿里巴巴 架构 架构分布式

测试开发网络篇-网络协议简介

禅道项目管理

软件测试 自动化测试 测试开发

从酷睿双核到Tiger Lake-H,英特尔如何帮游戏笔记本完成蜕变

E科讯

看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?

华为云开发者联盟

框架 mindspore 盘古 NLP 大模型 中文预训练模型

千万级学生管理系统考试试卷存储方案设计

Hesher

架构 Architecture 架构实战营 存储系统

JavaScript+TensorFlow.js让你在视频中瞬间消失

不脱发的程序猿

JavaScript 人工智能 开源 TensorFlow.js

飞桨前沿升级、顶级开源项目、产教融合育人,WAVE SUMMIT论坛内容先睹为快!

百度大脑

深度学习 飞桨

SparkStreaming知识点总结

五分钟学大数据

大数据 5月日更

520 单身福利|获奖名单公布~

InfoQ写作社区官方

520单身福利 热门活动

看完了京东年薪150万的大佬扔给我的“阿里内部Java 成长笔记”,差距不止一点点

Java 程序员 架构 面试 计算机

基于 Qt Quick Plugin 快速构建桌面端跨平台组件

网易云信

音视频 qt

详解JQuery框架的五大选择器

华为云开发者联盟

jquery 选择器 层级选择器 属性选择器 过滤选择器

支付中心设计

try catch

支付 支付中心

测试开发专题-开篇

禅道项目管理

软件测试 自动化测试 测试开发

膜拜!Github访问量破百万,阿里内部首次公布的Java10W字面经有多强?

Java 程序员 架构 面试

HIVE跑个insert into select xxx 为什么CPU飙高

InfoQ_Springup

hadoop

DEMO WORLD分论坛聊些啥?高端制造、未来出行、皮肤科技、未来产业……

创业邦

创新

2、kafka 2.8.0 源码环境搭建

杨四正

大数据 kafka 消息队列 kafka2.8

架构实战营模块3课后作业-基于“自研集群+MySQL存储”的消息队列架构设计方案

吴建中

架构实战营

Serverless:这真的是未来吗?(二)

Serverless Devs

Serverless 运维 云原生 后端 无服务器

前端实操案例丨如何实现JS向Vue传值

华为云开发者联盟

Vue 大前端 js Promise Vuex state

深入浅出分布式存储性能优化方案

焱融科技

云计算 分布式 高性能 云存储 超融合

iOS开发底层原理技术~RAC深度解析

ios cocoa 程序员 移动开发

聊聊那些小而美的开源搜索引擎

代码先生

搜索引擎 elasticsearch meilisearch

BitMap 转置算法:不一样的 Count 求解方式

GrowingIO技术专栏

BitMap

多线程 VS 多进程(一)

若尘

多线程 多进程 Python编程 5月日更

Flume的负载均衡load balancer

大数据技术指南

flume 5月日更

Martin Van Ryswyk谈DataStax Enterprise Graph数据库_语言 & 开发_Srini Penchikala_InfoQ精选文章