大数据的时代已然来临。IDC 数据显示,在 2006 年全世界的电子数据存储量为 18 万 PB,而如今这个数字已经达到 180 万 PB,短短 5 年间就已经增长了一个数量级。而根据预测,2015 年这个数字则会达到如同天文数字般的 800 万 PB。就在此时此刻,海量数据依然源源不断地产生,从不停息。面对这些“大数据”,有些人叹息抱怨,害怕数据量的剧增对于现有 IT 架构的冲击;有些人积极主动,探寻应对海量数据的应对与解决之道;还有一些人,则是顺势而为,抓住时代发展的商业机会,成为富有活力的创新者。本文就将聊聊这第三种人。
大数据的发展催生了诸多商业机会和商业模式。而这些公司所面对的独特的时代背景,就注定了它们必会受到市场和资本的追捧。它们中的一些或是已经融资成功,进入高速发展期;或是被成功收购,帮助投资人和创始人成功从项目中退出。而很多上市公司,也开始在这一领域动作频繁,积极布局,这也从侧面反应了这一领域的广阔前景和巨大的利润空间。
大数据的生态系统
IBM 的架构师 Stephen Watt 曾在《Deriving new business insights with Big Data》一文中简单讲解过大数据的生态系统。简而言之,大数据的生态系统,就是数据的生存周期。数据从产生,到处理,再到价值提取,最后被消费掉,这整个过程就构成了大数据的生态系统。如下图所示。
在这个生态系统中,无论是数据的存储、数据的处理、数据的分享、数据的检索、数据的分析,还是数据的可视化,都存在着不同的商业需求。需求的出现必然会导致创新的产生。所以,在每个步骤都有不少初创公司在深耕自己所在的领域,试图通过新技术和新方法来实现新的商业模式。
数据的存储
Amazon 是大数据和云计算的先行者,它推出的 S3 云服务也早已成为云端存储的业界标准。通过易于使用的 API,用户可以很方便地将各种数据对象放在云端,然后再像使用水电一般按用量收费。S3 根据用户所占用的存储空间、请求数和数据流量进行阶梯定价收费。同时,S3 还为对数据可靠性的要求并不高的用户提供了更为便宜的去冗余存储模式。Amazon S3 服务是典型的付费服务商业模式,增长十分迅速。去年 Q4 共有 2620 亿个对象储存在 S3 上,而今年 Q3 这个数字已经翻了一倍,达到 5660 亿。更难得的是,Amazon S3 的云服务真正让许多创业公司享受到了云计算带来的便捷。使用 S3 作为存储支持的文件分享服务 Dropbox 进行的最近一轮的融资,估值高达 80 亿美元,每天上传的文件多达 2 亿个。
大数据时代另一个热点便是 NoSQL,不但诞生了很多 NoSQL 的数据库产品,还围绕着 NoSQL 产生了不少新技术新模式。也许提起 10gen 这家公司,读者们会觉得陌生,但是说起他们的产品 MongoDB ,则是鼎鼎大名。由于其易用性和高性能,MongoDB 在很多开发者眼中已然成为 NoSQL 的首选。10gen 公司提供基于 MongoDB 的服务,包括商业支持、培训和技术咨询等等,像 Foursquare、Craigslist 这样知名的公司,都是 10gen 的客户。10gen 于今年 9 月完成 D 轮 2000 万美元的融资。
其他的 NoSQL 产品在大数据时代也广受注目。为企业提供基于 Cassandra 的 Hadoop 构建方案的创业公司 DataStax 近日宣布完成 1100 万美元的 B 轮融资;NoSQL 数据库技术提供商 Couchbase ,则集合了 CouchDB 和 memcached 的设计者和开发人员,今日完成了一笔 1400 万美元的 C 轮融资;图形数据库厂商 Neo Technology 也凭借其开源项目 Neo4j 获得 1060 万美元的融资。这些公司主要将融资用于 NoSQL 旗舰产品的研发,并努力提升和拓展市场份额,然后基于它们的产品开展业务,它们在盈利的同时,也为社区提供了高质量的 NoSQL 数据库产品,从而实现共赢。
分布式文件系统也是大数据存储的方式之一。最早由 Powerset 开发的 HBase 就是基于 HDFS(Hadoop Distributed Filesystem)的分布式数据库。虽然目前还没有专门的商业公司来做针对 HBase 的业务,但 HBase 在业界已经有众多使用者,许多知名公司比如 Facebook、Twitter、淘宝等都是 HBase 的用户。
数据的处理
Hadoop 是大数据时代数据处理的首选。脱胎于 Google MapReduce 的 Hadoop 凭借其开源和易用的特性,很快成为了大数据时代的最耀眼的主角。目前,Hadoop 已经成为大数据生态环境中不可或缺的一环,是拥有海量数据处理需求的公司的标准配置,许多商业创新和产品创新也都是围绕着 Hadoop 展开的。Yahoo 也已经认识到了 Hadoop 的价值,将 Hadoop 拆分成一个独立的商业公司 HortonWorks 进行运营。
虽然 Yahoo 是 Hadoop 最大的贡献者,也进行了 Hadoop 的商业化,但却没法阻止其他的颇具实力的竞争者进入这个前途无限的领域。 Cloudera 便是其中最耀眼的一个。且不说联合创始人中有 Facebook 和 Google 的精英们,就连 Hadoop 的创始人 Doug Cutting 也从 Yahoo 离职加入了 Cloudera,这一举动当时在业界还引起了不小的震动。Cloudera 最开始的模式是帮助企业管理数据,后来则转型为软件厂商。他们推出的软件发布包可以帮助企业更方便地搭建以 Hadoop 为中心的数据管理平台。Cloudera 也是通过技术支持、培训和咨询等付费服务来盈利的,目前融资已达 3600 万美元。
如果说 Cloudera 是依靠其华丽的精英团队来吸引客户的话,那么 MapR 则是通过过硬的产品来让业界认识到他们的价值。据称,经过 MapR 改造的 Hadoop 的速度可达原来的 3 倍。对于 Hadoop 的 MapReduce 模式,相信现在基本上已经没人提出质疑了,然而大家更关心的是,这玩意还能不能更快,MapR 则很完美地回答了这个问题。EMC 也宣布在一些产品使用 MapR 版本的 Hadoop,而 MapR 也刚刚完成了 2000 万美元的融资。
除了速度以外,Hadoop 的易用性也是一个用户所关心的问题。虽然相比较其他的框架而言,Hadoop 已经简化了许多使用 MapReduce 技术时所需要做的工作,但是对于终端用户而言可能还算不得十分友好。近日宣布完成 570 万美元 A 轮融资的海量数据管理软件商 Platfora ,就在试图解决这个问题。Platfora 旨在提供一个更为友好且更具操作性的用户界面,而且这个产品可以兼容包括 Cloudera 和 MapR 在内的各个 Hadoop 版本,能够大大降低使用 Hadoop 的门槛,让更多的公司体验到 Hadoop 的技术优势。
不仅仅是 Hadoop 本身,就连 Hadoop 的周边也不乏成功的创新者。 AsterData 已经成功地被老牌数据仓库厂商 TeraData 以 2.63 亿美元收购,他们的核心技术叫做 SQL-to-MapReduce,可以将海量非结构化数据的处理技术和结构化数据的数据仓库技术结合在一起。而这种高速处理海量非结构化数据的能力,恰恰是传统数据仓库的公司所欠缺的,这也是为什么 TeraData 肯花如此大的价钱买下 AsterData 的原因。
数据的分享
数据本身也非常有价值。虽然,大部分的公司所面对的数据都是由内部系统或者交易记录日志之类的东西所产生的,但是这并不意味着他们不需要一些自己无法获得,或者已经被处理过的外部数据。因此,能够下载或者访问数据集,自然而然也就成为了商业需求,甚至美国政府都推出了官方的数据集网站可供下载。
InfoChimps 正是一家在线的数据集市,吸引了不少才华横溢的数据开发者。数据提供者可以将数据集上传至 InfoChimps,可以供人免费下载,或者以一定的价格销售。另外,InfoChimps 还提供很多 API 可供用户调用,在超过一定数量的免费 API 调用限额后,InfoChimps 会向用户收取一定的费用。InfoChimps 的目标就是让每个人都能找到自己需要的数据集,目前这家公司已经完成了 A 轮 120 万美元的融资。
提供 API 服务的数据集分享公司并不止于此, Factual 就是一家开放数据平台的公司。它所提供的多种数据集汉涵盖了本地服务、娱乐、教育和医疗等多个方面,不但可以通过 API 访问,还可以很方便地通过 SDK 集成到移动应用当中,为依赖数据的移动创新带来了很大的便利。Factual 也是通过收费 API 调用的方式来盈利的,目前已经募集资金达 2700 万美元。
数据的检索
数据检索在搜索引擎时代已经不是什么新鲜事了,然而随着社交网络的盛行和大数据时代的到来,实时性检索的需求也就变得越来越强烈。事实上,实时性的需求一直以来都是存在的,只是受囿于技术和成本的原因而没有什么实质性的突破。如今,随着实时数据处理技术的不断成熟,实现实时性数据检索也已经成为可能。
实时搜索引擎 TopSy 是目前少有的独立运营的实时搜索引擎,他们号称可以每秒钟索引 100 万份文档,这个速度基本上能够满足实时性的需求。目前 TopSy 主要索引的是 Twitter 的数据,它提供了 API 可供用户访问。在 2011 年 1 月间,TopSy 共收到 5 亿次请求,绝大多数是来自于 API 的调用。因此,公司也在考虑推出收费的 API 服务,以解决目前公司盈利模式不明朗的问题。TopSy 已经完成了 C 轮融资,融资总额度高达 3000 万美元。
说到实时数据检索的问题,就不能不谈到 Twitter 刚刚推出的开源产品 Storm 。这个产品一经推出就立刻吸引了大家的目光。然而却少有人知道,Storm 其实来源于 Twitter 刚刚收购的一家名为 BackType 的公司。这家公司由大名鼎鼎的 YC 进行孵化,在被收购以前就计划推出 Storm,然而期间却经历了 Twitter 的收购,因此收购以后由 Twitter 发布 Storm 也是顺理成章的事。Storm 每秒钟可以处理数百万的消息,非常适合实时消息处理,而这也许是最为吸引 Twitter 的地方。
最近还有一件与实时数据检索相关的收购案颇为引人关注,全球最大的连锁零售商日前宣布收购了移动和社交广告公司OneRiot ,然而这次收购的交易金额并未对外透漏,OneRiot 也被并入了沃尔玛实验室。OneRiot 最早是一家实时搜索公司,后来借此涉足广告领域,并关停了实时搜索,专注于实时广告业务,并开始提供应用内移动广告的社交服务。OneRiot 最吸引沃尔玛的地方,应该就是所谓的Big Data + Fast Data,将实时的数据处理与分析和广告联系起来,这也将是广告业未来发展的一个必然趋势。
数据的分析
在线数据分析服务平台是数据分析的趋势。 Quantivo 的口号是“Big Data Analytics for Everyone”,该平台可以从多种来源组合业务数据,对其进行整理和合并,然后让客户通过专有接口来访问甚至提问,平台会帮你找到最好的答案。另外一家提供在线分析平台的公司是最近刚刚完成 8400 万美元融资的 Opera Solutions ,这次融资也使该公司的估值达到 5 亿美元。用户将数据上传到 Opera Solutions 的平台上,然后 Opera Solutions 会针对用户的不同需求,结合行业专家的建议来为用户提供服务。该公司虽颇为低调,但年营收早已突破 1 亿美元。
然而并不是每个公司都是服务导向性的公司, Palantir 就是一家产品导向性的公司。这家由前 PayPal 员工和 Stanford 的一群科学家们所创建的公司,融资总额已接近 2 亿美元,估值高达 25 亿美元。Palantir 主要是为政府和金融机构提供高级数据分析平台,该平台源自 PayPal 的反欺诈分析平台,将人工算法和强大的数据库扫描引擎整合在一起,帮助用户通过多种方式快速浏览相关的信息。更有趣的是,这家公司号称永远都不会有销售、营销和公关人员,坚持追究极致产品的乌托邦式工程师文化,完全通过口碑来推动公司的业务发展。
随着社交网络的兴起,社交数据的分析也成为了热点。今年 Saleforce 就宣布以 3.26 亿美元的价格收购社交数据分析公司 Radian6 。Radian6 的业务主要是围绕着各个社交网站所开展。通过对各个网站的监测和分析,Radian6 能够将客户关心的数据尽早呈现,从而使这些客户能够更为主动地制定市场营销的战略。对于 Saleforce 而言,Radian6 最吸引它的地方,便是可以将现有的 CRM 与社交分析整合在一起,从而更好地满足客户的需求。
数据分析的服务并不只是空中楼阁或是大佬们的玩物,也许它就在你我的身边,被 Next Jump 收购的公司 FlightCaster 就是这样一家公司。它根据过去 10 年里的各种数据和当前实时的状况,通过专利算法来预测国内航班可能会延迟的概率,并能够早于航空公司 6 个小时通知你。这对于经常坐飞机而又饱受飞机延误之苦的人们来说,这个预告还真是有其现实意义的。
数据的可视化
数据可视化可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图形的方式表达出来。俗话说:一图胜千言,这句话用来形容数据可视化真是再贴切不过了。从某种意义上说,数据可视化更像是一种艺术,它所传达的美感总是让人印象深刻。
MeLLmo 公司就是先行者之一,主要关注于企业移动应用领域的数据可视化技术。MeLLmo 推出的数据可视化平台Roambi 可以通过网站和移动设备导入各种类型的数据,并将其图形化处理。关于Roambi 的盈利模式,主要是为企业用户提供Pro 的付费服务。MeLLmo 近期刚刚完成A 轮融资,总融资额为5000 万美元。
InfoGraphics 也是广义数据可视化的一种表现形式,通常用于信息的可视化,许多知名公司都为其拥有的信息制作过极富美学特质的 InfoGraphics。 Visual.ly 号称是目前互联网上最大的 InfoGraphics 收集平台,并且在研发在线的 InfoGraphics 制作工具。Visual.ly 希望可以建立起一个设计师社区,让 InfoGraphics 的制作者从中收益,比如参与到付费的广告制作中,并借此来使 Visual.ly 获利。目前 Visual.ly 已经收到了 50 万美元的种子投资。
总结
围绕着大数据的生态圈,我们参观了各个环节上杰出的创新者们。这些创新者顺应大数据时代的浪潮,敏锐地抓住了数据爆炸时代所产生的商业机会,他们或者已经成功,或者依旧在追求成功的路上。
诚然,受限于篇幅的原因,我们不可能将整个大数据生态环境中所有的创新者纳入其中,仅能选取一两个有代表性的公司,而且也没法进行更为深入的介绍。但是,希望本文可以帮助读者了解整个大数据时代的商业全景,以及基于大数据的各种商业创新和技术创新,借此能够激发出更多的创新,并向这些先行者们致敬。
给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。
评论