Cloudant 是一款分布式数据库服务,其创始人 Adam Kocoloski 最近就大数据相关话题接受了媒体采访,他认为“我们生产大数据的能力将超越存储大数据的能力。我预言在不久的将来,你将看到大数据科学家更强调判断大数据是否值得存储的分析能力。”
就“当我们管理和分析企业的大数据时,能得到什么”这个问题,Adam 表示,当今网络应用程序和传感器网络收集着越来越多的数据,这些数据是一个潜在的商业金矿。但对大规模的人与人之间事务、事件与事件之间因果关系进行建模是非常困难的,而且诸如数据仓库、商业智能类的传统企业系统十分笨重,不能快速地提取有价值的信息。
科学家是天生的问题终结者, 他们常常思考什么工具能解决特定的数据工作挑战。对大数据领域,特别是对于企业而言,能够应对这些挑战变得越来越重要。
总而言之,科学家让这一切变得容易。他们的分析方法将孤立的颗粒间的碰撞转化为分布式大学研究系统和并行计算的模型。换句话说,我们可以共同应对过滤大数据这一挑战并获得有效信息。在我的工作中,我们通过盲分析和机器学习来解决这个问题。我想你很快将看到这些方法在企业数据分析领域广泛应用。
对于近期的数据科学的发展,Adam 认为,我们生成数据的能力将超越储存数据的能力。
我认为你很快将看到数据科学家将判断数据是否进行存储作为研究的重点。诚然,大量的数据是导致这一现象的原因,但更重要的原因是我们向分布式数据生成阶段的跃变——来自移动设备、传感网络,以及即将到来的物联网将产生各种数据。现在,一个企业可以很方便地在自己的数据中心建立 Hadoop,然后向其中“倾倒”数据,尤其是在这个企业有后期提炼有效数据的计划时。但当大量的数据来自分布式系统时,这个过程就没那么容易了。机器学习算法可以辨别有价值的数据,这将帮助我们有效地应对“数据洪流”。作为科学家,我们认识到大数据引领的方式:我们不可能把所有数据写下来。这是数据科学家必须要学会权衡的一件事情:当你在收集数据的时候,你就需要决定把哪些数据扔掉。
考虑到当今大数据的相关技术,在 Adam 看来,过滤大数据、获取有效信息过程面临的最大挑战是机器学习过程中缺乏精确的仿真。
Cloudant 是一个操作性数据存储工具,而不是大数据也不是像 Hadoop 一样的离线分析平台。这说明我们必须应对应用程序获取的、并且在它们运行过程会改变的可变数据。
根据我的经验,大数据面临的最大挑战是机器学习过程中缺乏精确的仿真。我所说的精确的仿真是如同布鲁克海文国家实验室使用相对论重离子对撞机进行的恒星粒子探测实验仿真。人们将机器学习应用到很多领域,但他们经常没有认识到在合适的训练数据上进行建模的重要性。不充分理解整个工作流程就进行训练集训练当然是一件轻松的事情。当他们这么做时,他们没有认识到自己没有合理的应用机器学习算法。
Adam 认为,对大数据集进行数据分割是一个伟大的工程,但在某种意义上这个工程也是一个黑盒子,你很难去了解你的分析方法中的哪些部分是工作的,哪些部分又是不工作的。数据集越大,一个变量就越有可能和其它变量产生非线性关系。这个现象让人们很难去推论数据,也更要求数据科学家在建立训练集时注意线性技术和非线性技术的平衡与结合。
为什么盲分析方法对大数据十分重要?Adam 表示,人总是天然倾向于寻找信号。这是我们进化的一个特征。例如我们可能认为丛林里有只老虎,误判断有老虎总好过没有意识到有老虎。如果我们看到分布的数据里有一个“肿块”,我们将尽我们所能对其进行梳理。于是我们就带来了偏差。
而当你进行盲检测时,你很有可能避免这种偏差。大数据科学家也是人,而且当他们处理大数据时,他们无法依赖于数据可视化。我们不大容易看到不能可视化的东西。相较于寻找数据中的信号,我们更需要识别噪声——那些我们不需要的数据——然后反向选择那些我们想保留的数据。
对于机器学习是不是分析大数据的正确方法这个问题,Adam 认为,机器学习提高信噪比的潜力是任何手动构造的分析方法都无法比拟的。机器学习有这个潜力,要很好的使用它,你需要正确理解训练数据集。机器学习不是灵丹妙药。算法有薄弱的地方,在有些地方它们效果会很差。当你使用各种各样的机器学习方法时,你需要牢记这些方法的薄弱点都在哪里。
对于 NewSQL 和 NoSQL 的发展,Adam 认为事务(transaction)最终不会终结 NoSQL。主要原因有二:
- 现在有很多并且不断在增多的问题不需要事务性语义。
- 移动计算导致大规模处理事务在技术层面是不可行的。
诸如通讯录、博客、内容管理系统类的应用程序可以存储大量的数据,并且它们不需要高度的事务完整性。使用内在的执行模式和行级锁的系统——例如一个关系型数据库管理系统(RDBMS)——不需要将这些应用程序变得过度复杂化。
人们普遍认为 NoSQL 数据库的流行源自关系数据库不能进行水平规模扩展。如果 NewSQL 能够为大分布式数据库和云服务提供支持事务(transactional integrity),这会削弱 NoSQL 流行的趋势么?我认为不会,因为移动计算机处理技术带来了新的挑战(例如离线应用程序数据和数据库同步),而且这些挑战不能用事务系统解决。
一个偶尔与云连接的移动设备在网络不好的情况下会带来痛苦的延迟,这时封锁关系数据库管理系统(RDBMS)的一行是不实际的。此外,许多 NoSQL 系统带来了新的特性(高度一致性,多文件事务)和逼近 ACID 事务的新策略(事件溯源)——移动设备告诉我们,我们需要重新审视移动背后的信息理论。
评论