Spark 是目前相当火热的开源计算框架,相对于 Hadoop ,Spark 优势是高性能和易用性。Spark 的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark 的易用性在于通用的 API,用户可以编写复杂的并行计算程序,使之看上去就像串行程序。这也使得 Spark 程序更容易开发和读懂。由于其高性能,Spark 已成为机器学习的重要工具。日前, IBM 宣布加入 Spark 社区,并与 Spark 的核心贡献公司 Databricks 合作。那么 IBM 将如何与社区进行合作,其自身又在 Spark、大数据及机器学习领域有哪些计划?InfoQ 受邀与 IBM 进行交流,并对以上问题进行了解读。
IBM 对社区的贡献和对未来的规划
IBM 大中华区大数据与分析事业部总经理钟泽敏表示,在美国的旧金山研究室有一个 Spark 的技术中心,有超过 200 位的技术人员在 Spark 技术中心里工作。技术中心主要的功能是把 Spark 的技术应用在一些企业级应用场景中,这解决了开源的另一个问题。Databricks CEO Ion Stoica 表示,考虑到 IBM 在 Spark 研发方面的投入,非常期待 IBM 成为 Spark 的核心贡献者。
IBM 大中华区大数据与分析事业部数据平台方案总经理刘胜利认为,IBM 在全球的研发分为两大类,第一类叫 Reserch,第二类是 Develop,这两类的工作性质还是非常不同的。Reserch 就是研究,他们专注研究先进的、超前的技术的前期的研发。而 SystemML 是 IBM 研发了超过十年的机器学习技术。沃森( Watson )在几年前的大型活动里,整合了很多 SystemML 机器学习的功能。
他表示,IBM 与 Databricks 合作,是希望把 SystemML 的功能输送给 Spark,让 Spark 具有更强大的机器学习能力,让数据科学家专注于算法,而不是一些简单的、细节的技术本身。
Databricks 计划开发一个机器学习框架 MLbase ,这与 IBM 的 SystemML 是什么关系,双方的合作如何互补呢?IBM 大中华区软件架构师总监、IBM 技术科学院委员林旭光认为,SystemML 其实并不是提供算法,它其实是提供一个定义的机制,可以让 Data Center 定义自己的算法。刘胜利表示, SPSS 提供了很多和 ML Lab 相似的算法,并且比后者算法更多。“我们看到 ML Lab 的算法有局限性。”举个例子,一个专卖店会收集一些他的客户办的卡,这个卡会记录客户到他那买过什么样的东西。那么下一步专卖店对客户进行促销,首先要对客户进行分群,但是算法本身并不能解决分群的问题。还有很多行业的知识,比如对用户画像和智能推荐等。IBM 可能在这方面有更强的东西,算法本身是标准化的。比如说你要分群客户是用二叉树算法、神经元网络算法还是哪个算法,这在实际操作中是有一些经验可循的。
那么 IBM 会以什么样的方式与节奏节奏,拿出多少”干货”与社区共享自己在机器学习等方面的技术呢?IBM 大中华区大数据分析平台销售总监洪建勋表示,“我们做了一件很关键的事情,如何把从企业级市场得到的客户需求跟最新的技术有效的衔接起来?这点是 IBM 一直致力于在做的很重要的事情。同时,新技术很多,可能出现孤岛,我们能够让新的技术为企业真正融合,把这些所谓的单点和孤岛全部连接起来打通,把原来可能存在的问题尽可能地减少。”
毫无疑问,IBM 对企业应用的理解是众多互联网公司无法比拟的,这种经验和理解是否能成为指导社区发展的力量呢?洪建勋认为,以 Hadoop 发展那么多年的经验看,Hadoop 社区尽管规模很大,但是新的组件一直在涌现。重点技术一直有变化,而 IBM 这种企业级 IT 厂商有很多新的经验。“这也是成立 ODP 的价值,你可以在 ODP 中看到很多老的 IT 公司,为开放平台贡献自己的思想,为企业级客户服务。”
IBM 培养 Spark 技术人才
钟泽敏透露,IBM 已经开办免费的课程,预计在第三季度就会更新第二批免费的课程。与 Databricks、 AMPlab 合作培养数据科学家。
此外,IBM 去年宣布投资 1 亿美金,在中国推动”U100”计划,后来又推出了” A100 “(百企大数据)计划,跟国内商学院一起培养学生。该项目由香港中文大学、对外经贸大学、西南交大联合发起,集合约 50 所商学院,IBM 到学校里实地去帮老师和学生做数据挖掘、数据清洗。其中用到的工具、解决方案都由 IBM 提供。这个价值对于商学院,从老师到教育体系的改革,再到人才培养,都非常重要。事实上已有很多项目已经出了成果,这些研究项目都是非常有实际意义的。目前,IBM 在大数据的投入已经超过 250 亿美元。
为什么是 Open Data Platform?
Open Data Platform 是众多 IT 巨头企业联合成立的开放数据平台。刘胜利表示,对于大部分企业用户,开源了并不是意味着大家可以直接用。“我们希望大家在使用 Hadoop 的时候不再局限于有限的厂商”,所以在开源之上又推出了开放数据平台。希望在选择开放数据平台里这些核心部件的时候,大家选用公共的、统一的这些代码。那么,使用这样一个开放的数据平台,就不再受限于某一家的开源代码,既利用了开源的好处,同时又让企业用户不再被厂家束缚。
钟泽敏表示,IBM 还是注重在企业级应用。包括 SQL、R 语言以及数据分析都是 IBM 的优势。刘胜利认为,IBM 做分析挖掘的语言以及 SQL 关系型数据库已有 30 多年的历史,有大量的优化技术。另外,SPSS 的许多预测分析产品的算法也可以和 Spark 结合,因为 SPSS 使 Spark 上可以处理的数据量、处理的速度、处理的能力都得到了极大的提升。特别是 SPSS 最大的研发实验室在中国,有一大堆数学科学家在研究算法。
林旭光补充道,有些客户反馈说,用了一些厂家的开源组件之后,没办法迁移到别的平台上去,虽然产品也是开源的。这是因为这些开源产品只有几家公司或很小的群体在支持。基于此,做 Open Data Platform 一个很重要的目标就是,IBM 用的只是开源的组件,并且都是可迁移的。
未来 IBM 会陆续推出 Spark 系列产品,包括 Watson Analytics、DataWorks、PuerData 一体机,以及一些方案和正在孵化的项目。
感谢魏星对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。
评论