写点什么

Cloudant 创始人谈大数据的发展

  • 2013-12-02
  • 本文字数:2184 字

    阅读完需:约 7 分钟

Cloudant 是一款分布式数据库服务,其创始人 Adam Kocoloski 最近就大数据相关话题接受了媒体采访,他认为“我们生产大数据的能力将超越存储大数据的能力。我预言在不久的将来,你将看到大数据科学家更强调判断大数据是否值得存储的分析能力。”

就“当我们管理和分析企业的大数据时,能得到什么”这个问题,Adam 表示,当今网络应用程序和传感器网络收集着越来越多的数据,这些数据是一个潜在的商业金矿。但对大规模的人与人之间事务、事件与事件之间因果关系进行建模是非常困难的,而且诸如数据仓库、商业智能类的传统企业系统十分笨重,不能快速地提取有价值的信息。

科学家是天生的问题终结者, 他们常常思考什么工具能解决特定的数据工作挑战。对大数据领域,特别是对于企业而言,能够应对这些挑战变得越来越重要。

总而言之,科学家让这一切变得容易。他们的分析方法将孤立的颗粒间的碰撞转化为分布式大学研究系统和并行计算的模型。换句话说,我们可以共同应对过滤大数据这一挑战并获得有效信息。在我的工作中,我们通过盲分析和机器学习来解决这个问题。我想你很快将看到这些方法在企业数据分析领域广泛应用。

对于近期的数据科学的发展,Adam 认为,我们生成数据的能力将超越储存数据的能力。

我认为你很快将看到数据科学家将判断数据是否进行存储作为研究的重点。诚然,大量的数据是导致这一现象的原因,但更重要的原因是我们向分布式数据生成阶段的跃变——来自移动设备、传感网络,以及即将到来的物联网将产生各种数据。现在,一个企业可以很方便地在自己的数据中心建立 Hadoop,然后向其中“倾倒”数据,尤其是在这个企业有后期提炼有效数据的计划时。但当大量的数据来自分布式系统时,这个过程就没那么容易了。机器学习算法可以辨别有价值的数据,这将帮助我们有效地应对“数据洪流”。作为科学家,我们认识到大数据引领的方式:我们不可能把所有数据写下来。这是数据科学家必须要学会权衡的一件事情:当你在收集数据的时候,你就需要决定把哪些数据扔掉。

考虑到当今大数据的相关技术,在 Adam 看来,过滤大数据、获取有效信息过程面临的最大挑战是机器学习过程中缺乏精确的仿真。

Cloudant 是一个操作性数据存储工具,而不是大数据也不是像 Hadoop 一样的离线分析平台。这说明我们必须应对应用程序获取的、并且在它们运行过程会改变的可变数据。

根据我的经验,大数据面临的最大挑战是机器学习过程中缺乏精确的仿真。我所说的精确的仿真是如同布鲁克海文国家实验室使用相对论重离子对撞机进行的恒星粒子探测实验仿真。人们将机器学习应用到很多领域,但他们经常没有认识到在合适的训练数据上进行建模的重要性。不充分理解整个工作流程就进行训练集训练当然是一件轻松的事情。当他们这么做时,他们没有认识到自己没有合理的应用机器学习算法。

Adam 认为,对大数据集进行数据分割是一个伟大的工程,但在某种意义上这个工程也是一个黑盒子,你很难去了解你的分析方法中的哪些部分是工作的,哪些部分又是不工作的。数据集越大,一个变量就越有可能和其它变量产生非线性关系。这个现象让人们很难去推论数据,也更要求数据科学家在建立训练集时注意线性技术和非线性技术的平衡与结合。

为什么盲分析方法对大数据十分重要?Adam 表示,人总是天然倾向于寻找信号。这是我们进化的一个特征。例如我们可能认为丛林里有只老虎,误判断有老虎总好过没有意识到有老虎。如果我们看到分布的数据里有一个“肿块”,我们将尽我们所能对其进行梳理。于是我们就带来了偏差。

而当你进行盲检测时,你很有可能避免这种偏差。大数据科学家也是人,而且当他们处理大数据时,他们无法依赖于数据可视化。我们不大容易看到不能可视化的东西。相较于寻找数据中的信号,我们更需要识别噪声——那些我们不需要的数据——然后反向选择那些我们想保留的数据。

对于机器学习是不是分析大数据的正确方法这个问题,Adam 认为,机器学习提高信噪比的潜力是任何手动构造的分析方法都无法比拟的。机器学习有这个潜力,要很好的使用它,你需要正确理解训练数据集。机器学习不是灵丹妙药。算法有薄弱的地方,在有些地方它们效果会很差。当你使用各种各样的机器学习方法时,你需要牢记这些方法的薄弱点都在哪里。

对于 NewSQL NoSQL 的发展,Adam 认为事务(transaction)最终不会终结 NoSQL。主要原因有二:

  • 现在有很多并且不断在增多的问题不需要事务性语义。
  • 移动计算导致大规模处理事务在技术层面是不可行的。

诸如通讯录、博客、内容管理系统类的应用程序可以存储大量的数据,并且它们不需要高度的事务完整性。使用内在的执行模式和行级锁的系统——例如一个关系型数据库管理系统(RDBMS)——不需要将这些应用程序变得过度复杂化。

人们普遍认为 NoSQL 数据库的流行源自关系数据库不能进行水平规模扩展。如果 NewSQL 能够为大分布式数据库和云服务提供支持事务(transactional integrity),这会削弱 NoSQL 流行的趋势么?我认为不会,因为移动计算机处理技术带来了新的挑战(例如离线应用程序数据和数据库同步),而且这些挑战不能用事务系统解决。

一个偶尔与云连接的移动设备在网络不好的情况下会带来痛苦的延迟,这时封锁关系数据库管理系统(RDBMS)的一行是不实际的。此外,许多 NoSQL 系统带来了新的特性(高度一致性,多文件事务)和逼近 ACID 事务的新策略(事件溯源)——移动设备告诉我们,我们需要重新审视移动背后的信息理论。

2013-12-02 06:061746
用户头像

发布了 501 篇内容, 共 259.5 次阅读, 收获喜欢 61 次。

关注

评论

发布
暂无评论
发现更多内容

入职3年-我如何做一名AI产品经理

京东科技开发者

利用飞桨与文心大模型重塑大宗商品数字供应链

百度开发者中心

深度学习 大模型

探索人工智能在测试领域的新纪元:AI编写测试用例的前景

霍格沃兹测试开发学社

如何基于Django中的WebSockets和异步视图来实现实时通信功能

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

DBAIOps生态概述

DBAIops社区

数据库 运维

实践展示openEuler部署Kubernetes 1.29.4版本集群

华为云开发者联盟

Kubernetes 华为云 集群 华为云开发者联盟 企业号2024年4月PK榜

SketchUp Pro草图大师2023中文直装版下载 mac/win

Rose

草图大师2023下载 SketchUp Pro 2023下载 SketchUp Pro 2023破解

库洛游戏宣布《战双帕弥什》将启动鸿蒙原生应用开发

最新动态

Datax助力轻松迁移SQLServer数据至GreatSQL

GreatSQL

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测试人

软件测试

Final Cut Pro中文版 导出视频的教程(含fcpx安装包)

Rose

Final Cut Pro中文版 FCPX下载 fcpx Final Cut Pro教程 Mac软件视频编辑

mac电脑如何使用Linux系统?PD虚拟机安装Linux系统详细教程

Rose

Linux系统 mac电脑 pd虚拟机 19

macos big sur 软件icons图标大全(新增至2719枚大苏尔风格图标)

Rose

icons图标大全 macos big sur 软件

体验稳定强大的数据处理神器——Microsoft Excel LTSC 2021

Rose

Excel 数据分析 Excel 2021破解版 Excel 2021永久版 Excel 许可证

实战剖析-vue项目首屏加载时长优化

京东科技开发者

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测吧(北京)科技有限公司

测试

最新版Spring Security 中的路径匹配方案!

江南一点雨

Java spring security

OpenHarmony napi开发-公开课

Laval小助手

低代码技术与仓储管理的新纪元:革命性的供应链变革

天津汇柏科技有限公司

低代码 仓储系统

文心大模型“你说我画”:PaddleHub与PaddleSpeech的协同实践

百度开发者中心

人工智能 NLP 大模型 大模型

DBAIOps关键SQL监控功能

DBAIops社区

数据库 运维 监控

ownips数据获取工具全面测评

Yan-英杰

TCP

探索Photoshop 2024新功能,让设计更出彩!

Rose

Photoshop 2024破解版 Photoshop 2024直装版 ps2024新功能 ps2024中文版

✅真实对账系统是如何设计并优化的

派大星

互联网大厂面试 java 架构

软件开发流变史:从瀑布开发到敏捷开发再到DevOps

敏捷开发

DevOps 敏捷 敏捷转型 瀑布模型 IT 运维

掌控基础设施,加速 DevOps 之旅:IaC 深度解析

SEAL安全

DevOps 运维 IaC

CorelDRAW 2024(cdr2024注册机)最新图文安装教程

Rose

CorelDRAW2024下载 CorelDRAW破解补丁 CorelDRAW中文版安装 cdr2024安装教程

京东广告研发——AIGC在京东广告创意的技术应用

京东科技开发者

Cloudant创始人谈大数据的发展_DevOps & 平台工程_崔康_InfoQ精选文章