写点什么

明略数据 CTO:打造最易用的跨平台数据整合系统

  • 2015-03-10
  • 本文字数:3050 字

    阅读完需:约 10 分钟

明略数据是一家聚集了国内顶尖大数据人才的技术型大数据整体解决方案供应商,其从创立之初就秉承着将技术研究落地转化为科技生产力的基本理念,至今已经为银联、中央电视台、中国联通、国美在线、苏宁云商等公司部署了大数据处理平台,并带来了大量的业务创新机会。那么,明略数据是怎样做到这些的?明略数据在技术层面上又具有怎样的过人之处呢?为此,我们请到了明略数据CTO 冯是聪博士进行了采访,以便更加深入的了解明略数据的技术特点。

InfoQ:明略推出的大数据平台 BDP,对于这个平台我理解的就是很多传统企业比如说银行、政府,这种大型的机构当中,会有很多的分支部门,而部门之间的数据可能会由于种种的历史原因无法进行打通。这些数据,可能它的字段跟描述方式以及存储的格式也是不一样的。那么该如何把这些不同格式、不同表达方式的数据进行打通?是不是 BDP 这个产品可以实现这样的功能呢?

冯是聪:从技术上讲,对于一些企业、政府机构来说,一定会存在这样的情况,它有不同的数据来源的,不同的数据格式。那么这些数据必然面临着一个问题,就是如何把它们融合在一起,怎么实现数据之间的交互。

这一问题从技术的角度上来看确实具有一定挑战,但明略恰恰就善于解决这种问题。明略 BDP 中有两个核心模块——Data ONE 与 SQL ONE。Data ONE 采用的是 All-In-One 模式,无论数据来源是什么,无论是来源于关系型数据,还是来源于非关系型数据库,是 NoSQL,还是来源于 NewSQL,或是文件系统,这都没有关系。明略会以统一的方式将这些数据放到 BDP 平台内,通过 Data ONE 把所有数据统一管理起来。

那么接下来怎么实现数据之间的交互呢?这就需要用到另一个核心模块 SQL ONE 了。SQL ONE 是一个标准的 SQL 查询引擎。传统的新客户一般对于关系型数据库都非常熟悉,对 SQL 语句也会非常熟悉。那么当我们提供了 SQL ONE 这种语言之后,如果客户会操作传统的关系型数据库的话,就可以操作我们所有的文件系统、NoSQL, 甚至是 NewSQL。SQL ONE 可以智能地识别这些数据被物理地存放在 Data ONE 的哪个子系统中,确定数据是放在关系型数据库,还是放在非关系型数据库,或是放在文件系统中。客户只需要输入一个 SQL 语句,系统就能自动完成所有的事情,这也是 BDP 的一个特点之一。

InfoQ:从数据安全问题上来说,不同的行业,不同的企业,对数据安全的审计、审核的标准也不一样,尤其像一些涉及到国计民生的政府机构,他们的数据对安全的要求是非常高的。明略的产品是部署在客户的数据中心当中的,这样从物理上就可以规避一部分安全隐患。那么除此之外,明略还有在安全方面还有哪些不一样的地方?

冯是聪:从目前来讲,在大数据安全这一领域中很多技术都是不太成熟的。从大数据的特点来看,首先数据规模比较庞大,数据内容也比较复杂,再加上各种数据来源,各种数据格式,还要要求统一在大数据平台上进行管理,这些因素导致其对安全技术的要求变得非常高。

明略针对这些问题开发了自己的核心安全组件 Acre,在 Hadoop 平台上首次实现了行列级别的数据安全访问管理。它的核心思想是,可以把任何人操作该数据的历史、权限,包括他的授权认证,全部统一管理起来。

另外在隐私保护方面,明略实现了多种数据脱敏与加密算法,智能地实现了敏感数据的自动脱敏和保护。

InfoQ:您刚才也提到,明略还会在数据价值挖掘上有一些自己的动作,这就可能涉及到机器学习、深度学习,这些现在比较流行的新技术。那么,能否介绍一下明略在这方面的一些研究实践?

冯是聪:机器学习还有数据挖掘是大数据最核心的技术之一。明略的 3 大核心产品之一的 DataInsight 就是数据挖掘和机器学习的一个典型的平台。数据挖掘和机器学习在明略实施的几乎每一个项目中都得到了充分地应用,基本上每个项目都会进行一些预测、分类,这些都会用到机器学习里面去,另外像以前机器学习有进度学习、无进度学习、深度学习,这些也都会用到明略的项目里面去。

InfoQ:展望 2015 年,您认为哪些类型的企业会成为大数据领域的明星企业,或者说哪些企业会有高速的增长空间?能根据您的研究,分享一下您的观点吗?

冯是聪:因为大数据现在已经慢慢被大部分企业或者是政府接受了,它会在很多的领域都得到广泛的应用。从我个人看来,我觉得有两个领域是值得关注的,第一个是金融领域。现在的个人贷、余额宝等金融产品越来越多,因此为了更有效的进行反欺诈,征信系统将会利用更加密切的、彻底的应用大数据技术。

第二个领域是安全领域。安全永远都是一个话题,几乎每一家企业、每一个政府机构都会关心安全问题。数据安全技术没有得到突破的情况下,很多企业和政府是不会轻易的把自己的数据放在云端的。另外现在有的公安机关,甚至军方机构,都开始将大数据安全技术用于追捕或是反恐,这都说明了安全领域将更多的应用大数据技术。

InfoQ:明略的商业模式是很清晰。那么在未来,您更看好是像明略这样的面向企业的 On-Premise 的商业模式,还是同时还看好别的一些大数据创业公司的商业模式?

冯是聪:对于我自己来讲,我肯定是看好明略的商业模式的。一方面这种模式能够更好的基于客户的不同需求进行定制化开发,另一方面在安全上也更有保障。那些能够跟客户共同成长,能把客户当成伙伴,能够把客户的问题当成自己的问题的那种公司,才能够得到比较迅猛的发展。

大数据的核心在于从数据中挖掘价值。2015 年是大数据应用元年,企业将更加关注大数据技术的落地和应用。因此我比较看好那些能够根植于客户业务,能够帮助客户解决业务痛点,真正能够给客户带来价值的大数据公司。那些在不同细分领域,能够提供整体解决方案的大数据公司的前景将更好。

InfoQ:也就是不仅仅要做技术,而且还要熟悉、了解客户的业务模式,从而能更好提供有针对性的大数据服务。

冯是聪:明略始终认为大数据仅仅靠技术是不行的,它必须要能解决业务问题。厂商的数据科学家通常需要三方面的知识,一方面是需要懂得计算机知识,第二方面他要懂得数据挖掘知识,第三方面他要懂得数学,这是综合能力的体现。而只有当把客户的业务本质了解比较透彻,才能给客户带来实际的价值。

InfoQ:您能否谈谈有哪些技术会对大数据行业的未来产生巨大影响或者说带来巨大推动力?

冯是聪:我认为有四类技术比较重要。第一类技术是大数据安全技术,无论是金融业的反欺诈,还是警方的反恐与安保,都需要有大数据安全技术的帮助。

第二类技术是机器学习领域,从各种报道来看,无论是在云识别,还是图像识别,甚至视频的处理,已经基于机器学习以及深度学习而得到广泛的应用,我相信随着深度学习的发展,将会带来巨大的变革。

第三类技术是量子通讯,据我了解中国量子通讯的研究还是非常的具前沿的,基本上处于国际领先地位。像中国科大,他们现在在量子通讯上,能够在超过一百公里上午距离上进行传输。所以我相信随着量子通讯技术和量子计算机的发展,最后我们的通讯技术,还有计算机技术、语言都会发生翻天覆地的变化。

第四类是智能设备。我们身边生活中的几乎每一样设备,每一样东西实际上都可能会智能化。而一旦设备智能化了,这就需要想办法将数据收回来,当这些数据达到一定规模的时候,就一定会需要大数据技术来进行处理这些数据。我相信随着智能设备的发展,无论是中国还是外国,人们的生活方式以及工作方式都将得到改革。


感谢包研对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。欲了解更多明略资讯,欢迎访问大数据专区

2015-03-10 09:458819

评论

发布
暂无评论
发现更多内容

收到7个offer,用同一个技术套路了多位面试官

钟奕礼

Java java程序员 java面试 java编程

SAP MM 采购订单的Document Flow

SAP虾客

react源码分析:组件的创建和更新

flyzz177

React

react源码分析:深度理解React.Context

flyzz177

React

借助云的力量,重塑企业的现在和未来|re:Invent 2022 Adam Selipsky 主题演讲精华全收录

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

SAP IDoc状态70 - This IDoc is saved as the original of an edited document.

SAP虾客

乐观锁思想在JAVA中的实现——CAS

JAVA旭阳

Java Java并发

如何使用 vue + intro 实现后台管理系统的引导

千锋IT教育

Industrial wifi6 Wireless AP/DR AP6018 S AIPQ6010 2T2R 2.4G&5G high power Radio AP

Cindy-wallys

IPQ6010 high power 2.4G&5G

面试官:两个JVM的面试题就能证明,你连拿15K都不配

钟奕礼

Java 程序员 java面试 java编程

【iOS逆向与安全】iOS插件开发光速入门

小陈

含泪复盘!项目踩坑回炉改造血泪史(附芯片PCB/原理图)

华秋PCB

PCB PCB设计

一步登顶还是步步维艰?Java资深架构师撰下的“阿里P7成神之路”

钟奕礼

Java 程序员 java面试 java编程

SAP MM 使用两个STO实现免关税跨国公司间转储(III)

SAP虾客

网易互娱数据成本优化治理实践

网易数帆

数据中台 数据仓库 数据治理 12 月 PK 榜

MegPeak——让你更懂你的处理器

MegEngineBot

深度学习 开源 处理器 MegEngine MegPeak

java程序员培训零基础怎么学

小谷哥

域内用户Hash获取方式总结

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

Java 编程入门第一课:HelloWorld

千锋IT教育

从零开始学习Java系列教程之Windos下dos命令行使用详解前言

千锋IT教育

如何通过Java将Word转换为PDF

Geek_249eec

Java PDF word

cookie sessionStorage localStorage区别(详解)

达摩

缓存 Web Cookie LocalStorage sessionStorage

NineData,领先的多云数据管理平台

NineData

数据库 数据复制 数据备份 多云管理 SQL开发

在不确定性的2022年寻找确定性|这些ToB赛道值得关注

ToB行业头条

用低代码赋能数字化 快速打造项目管理系统

力软低代码开发平台

react源码分析:实现react时间分片

flyzz177

React

挤破脑袋要进阿里、腾讯的java程序员,去B站不香吗?

钟奕礼

Java 程序员 java面试 java编程

模块一作业

程序员小张

「架构实战营」

世界杯“无障碍字幕直播间”火了,背后有啥火山语音的黑科技?

科技热闻

26个月89场Java岗面试,0至3年程序员的入职门槛到底是什么?

钟奕礼

Java 程序员 java面试 java编程

Wallys/DR9074E-Qualcomm Atheros QCN9074(QCN9024)/ 4x4 MU-MIMO Dual Band Wireless Module

Cindy-wallys

QCN9074 QCN9024

明略数据CTO:打造最易用的跨平台数据整合系统_安全_刘羽飞_InfoQ精选文章