近观Strata2014大会

Strata 大会是 O’Reilly 出品的大数据为主题的会议，其口号是聚集领先的大数据思想，让数据工作（making data work）。目前国内大数据行业关注更多在基础架构方面，而国外已经将焦点转移到数据展示和数据挖掘。2014 Strata 大会在美国加州圣克拉拉市举行，不仅有深度的技术实践（演讲PPT 与视频），还能看到众多大数据巨头和创业公司很好的展示。

InfoQ 采访了 Intel 大数据平台团队的开发工程师钟翔，他以一名工程师的角度亲临了 2014 Strata 大会。以下为采访内容：

InfoQ：钟翔你好，向 InfoQ 的读者介绍下自己吧。

钟翔：我在 Intel 上海做英特尔大数据分发版，研发工程师，现在近三年了。

InfoQ：说说参加 Strata2014 大会的整体感受吧。

钟翔：会议规模非常大，参展商特别多，有 100 多家，代表性特别广，从这些参展商基本可以看出美国大数据的行业脉络和兴趣热点。

InfoQ：印象最深刻的是什么？

钟翔：印象最深的是参展商非常活跃。Strata 是行业大会，参会者彼此之间有点像是宣传与被宣传的关系。演讲中的技术干货有，但不是特别多，很多大小公司还是在宣传自己的产品，深度不够。

反观展台的参展商非常活跃，并且因为有 Demo 和一对一的介绍，可以问得比较深。总体感觉，国内大数据的兴趣主要还在基础架构平台这一层，数据保存、数据查询和数据处理等，普遍做的事情比较偏下层，而像相对上层的机器学习等只有少量的公司在做。美国很不一样，他们主要关心数据衍生的价值，很多大数据企业都在做两件事情：数据可视化和数据分析。这次参展商里估计有 60% - 70% 都是这类企业。数据可视化是指能够交互式的、探索性的展示数据，比如航班信息延时分析，会通过非常漂亮的交互式的图像展示。美国的公司非常在意数据可视化和数据分析，现在看起来已经成为一种风气。

比如上市公司 Datameer 善于做数据分析，和他们沟通中得知，他们有很多五百强客户。

一家有医疗服务业务的公司叫 YarcData，辅助医生做出诊断。医生只要输入病人的症状的描述，有 a 症状，有 b 症状，没有 c 症状，系统就会自动分析给出相应诊断。

还有一家做可视化的公司 Splunk，也是上市公司，他们的产品可以做日志数据的实时抓取和可视化展现，有了它，集群运维团队可以简单点几下鼠标就可以看到整个集群的状态。而且这个可视化是动态、实时、交互式的。

InfoQ：美国的这些大数据创业公司在哪些细分技术或领域做的更多？

钟翔：整体的分布刚才提到了，更关注数据分析和可视化。而在具体的技术点或细分领域，美国的创业公司并不像国内扎堆追某几个热点，它们涉猎更广，做的东西都比较独特。比如 Skytree 专注于提供优化的机器学习算法库，他们展示用这一算法库探测异常的天体。做基础架构平台的公司也有很多独特的地方，比如有的分布式数据库公司在数据节点层做热备份，从而实现高可用性。还有的公司在类 HBase 系统上建一层 cache，大幅提升读写性能。还有的公司把大数据集群，数据分析和可视化通通搬到公有云上，在云上做 BigData as a Service。所有这些公司的产品，可能技术不是太难，有些只需要对开源产品做少量改动，但他们确实解决了特定用户的特定需求。

InfoQ：的确，全方位的创新非常多。

钟翔：而且美国的公司非常强调用户体验，哪怕是几个人规模的创业公司，产品的用户体验都非常棒。还有一点很有意思，这些公司里面，很多都是学校的教授创办的，美国的学界和产业联系非常紧密，这点和国内不太一样。

InfoQ：哪些技术格外受关注？

钟翔：时间有限，只能参加一小部分。我比较感兴趣的首先是 Spark，会议第一天有半天时间关于 Spark 的培训，还有很多比较有趣的演讲。然后需要提下第一天的“Hardcore Data Science”全天的 Session，有很多实打实的技术和干货。比如 Google 分享了 Deep Learning，信息量很大，有一些实际的例子，解决的都是实际的问题，演讲和问答环节都非常务实，这一天还有 GraphLab 的 Alice 分享了她理解的机器学习的挑战，懂机器学习的人往往不懂数据结构，而懂数据结构的又不懂机器学习，她抽象出了 Flat Table 和 Graph 两类基础数据结构，对 Tool 开发者有很大启发意义。还有一个 Ben Hamner 分享的“Machine Learning Gremlins”总结了机器学习的雷区，非常有趣。

KeyNotes 里面引人注目的是 Intel 副总裁 Boyd Davis 宣布了新的产品 Intel Data Platform，将在 Hadoop 之外引入更多的 Apache 项目如 Spark、Shark、Kafka、Storm 等，以及高级的分析工具包。

创作场景

近观 Strata2014 大会