QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

大数据基础框架设计——实时分析技术平台洞察与实践

  • 2016-11-04
  • 本文字数:2041 字

    阅读完需:约 7 分钟

今年是 IoT 物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

很久以前大数据有三个概念——“三个 V”:第一个 V 是非常大的,海量;第二个 V 是速度,很快;第三个 V 是多样化,很难。之前我们一直在强调数据要“大”,提到大数据的时候人们一般会说“一个企业有多少数据量,每天要加载多少数据,多少万个用户,每天月活是多少……”,但其实到现在为止,每一个企业 真的都有了很多的数据,接下来面临的问题是如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。那么,企业如何对这些数据进行相关的分析和处理呢?

易观技术负责人郭炜提出一个概念,数据永远是临时的,分析永远是有时效性的。例如,你某电商平台购买了一部手机,平台就会不断向你推荐手机而不是手机配件。为什么呢?其实是因为实时分析和实时计算没做好,怎么办呢?

  • 定方向:实时分析不难但投入大,企业首先要评估自己的 ROI,选择一个适合的场景。
  • 夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。
  • 打造能力:实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。
  • 实现:突破,找到产品出口,找最合适的一到两个点,让企业自己的实时分析流畅地流转起来。

提到 Hadoop 大家必然会想到 Cloudera 公司,它在 Hadoop 生态系统中拥有极高知名度。会上 Cloudera 大中华区总经理凌琦指出大数据时代想让计算成本变得更经济可以从两方面考虑。

  • 一方面是硬件,用 X86 服务器,单台机器不考虑冗余的情况下存储可以有 12 × 6 T。
  • 另外一方面是把一部分应用放到云上面,使计算成本变得更低。

会上 Alluxio 创始人兼 CEO 李浩源分享了如何让不同的计算框架以及不同的应用在不修改自身代码的前提下,高效且高速地访问不同数据源中的数据。

  • 智能化地移动数据,保证最高效的访问
  • 把不同存储数据虚拟化
  • 采用 scale-out 架构,实现高效的线性性能提升

关于 Apache Kylin 很多人应该已经知道了,这是完全由中国工程师贡献到 Apache 软件基金会的一个项目,今年该项目拿到了“开源贡献奖”,和 Google TensorFlow 一起获得该奖。Kyligence 联合创始人兼 CEO 韩卿出席了大会并分享了《基于 Apache Kylin 的实时 OLAP 实现》,对数据查询低延迟先有处理方案表示了肯定,也提出了解决数据可达低延时的重要性。现有 Cube 构建于批处理,T+1 模式可以满足绝大部分需求。但还是有不少问题值得深思。

  • 几千条到几亿条数据如何实现一次性轻松构建?
  • 如何随意暂停或更改构建频率?
  • 如何实现自动管理集群、弹性计算资源等?

对于做数据工作的 IT 人来说 Greenplum 应该并不陌生。简单的说,它就是一个与 Oracle、 DB2 一样面向对象的关系型数据库。通过标准的 SQL 可以对 GP 中的数据进行访问存取。本质上讲 Greenplum 是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与 RAC 不同,这种数据库集群采取的是 MPP 架构。

现在全球有 34 个国家有 Greenplum 团队,包含研发团队、销售团队、支持团队,就在客户不断增长的时候项目选择了开源。Pivotal Greenplum 中国研发总经理姚延栋分享了 Greenplum 5.0 作为做得还不错的企业级产品要选择开源的原因,开源前和开源后的变化,以及从现有平台迁移到分布式的数据架构上的方法

最后,大会以圆桌会议为彩蛋结束了整场论坛。圆桌会议由主持人是清华海峡研究院大数据中心主任王熙主持,易观技术负责人郭炜、Kyligence 联合创始人兼 CEO 韩卿、Admaster 技术副总裁卢亿雷、Anchora 董事长兼 CEO 鲁为民和云杉网络联合创始人兼 COO 来源参与,讨论了大数据实时计算应用与分析及对大数据未来发展方向的预测

  • 在新的技术发展阶段,特别是现在云计算、大数据,开源是一个趋势。而且开源是企业创新生命力的一个重要保证。
  • 开源系统是比较复杂的,应用的时候还需要专业能力和整合能力。开源软件很多,不要迷信某一种,要根据不同的阶段,不同的业务场景做选择。比如,初创阶段数据量比较小的时候可以选择比较粗的方案,但是如果想要性能更高一些,就需要选择更细的方案了。
  • 大多开源软件原始团队都在海外,如 Hadoop,但随着中国大数据的崛起,在世界范围内有影响力的开源项目越来越多。
  • 在大数据浪潮里面,中国很多地方不仅仅是赶上国外,甚至某些领域超越了。大数据让我们能够有机会超越国外的战略技术,因为我们今天能创造的数据量是其他任何一个国家无法得到的。
  • 现在数据已经深入到了每一个行业的每一个环节里,一开始是大数据的广告推介,现在变成了场景引擎,将来变成 AI 的人工智能。
  • 现在数据来源越来越复杂,预测三到五年大数据会变得非常敏捷,这是一个大趋势。在实时挖掘和细分算法方向会有很多创业公司出现解决业务触达问题,会出现更智能的工具。
2016-11-04 07:012639

评论

发布
暂无评论
发现更多内容

SRv6网络的安全解决方案

穿过生命散发芬芳

8月月更 SRv6

git操作

Jason199

git 8月月更

【数据挖掘概论】数据挖掘的简单描述

晴天

8月月更

《MySQL入门很轻松》第2章:MySQL管理工具介绍

乌龟哥哥

8月月更

长达四年的减肥记录

Amazing_eve

#开源

【爬虫+可视化】Python爬取疫情并可视化处理数据(爬虫入门案例)

BROKEN

Python 8月月更

Nacos配置中心之客户端长轮询

急需上岸的小谢

8月月更

开源一夏 | 基于若依springboot架构实现数据多维统计

六月的雨在InfoQ

开源 8月月更

那些年,在Linux指令上踩过的坑~

芒果酱

Linux 签约计划第三季

开源一夏 | 云服务器ECS安装Mysql、JDK、RocketMQ

六月的雨在InfoQ

开源 8月月更

手写柯里化 - toString 理解

掘金安东尼

JavaScript 前端 函数式 8月月更

python绘制一个时间的七段数码管实例基本的七段数码管绘制

BROKEN

8月日更 8月月更

工业物联网 —— 新型数据库的召唤

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

Discourse 清理存储空间的方法

HoneyMoose

多个平台显示IP属地,必须大力推行互联网实名制

石头IT视角

七日算法先导(三)—— 快速排序,插入排序

工程师日月

8月月更

学生管理系统架构设计

张立奎

2022前端秋招vue面试题

helloworld1024fd

Vue

开源一夏|OpenHarmony如何查询设备类型(eTS)

坚果

开源 HarmonyOS OpenHarmony 8月月更

【python小游戏】用python写一款小游戏--贪吃蛇

BROKEN

8月日更 8月月更

Service Mesh落地路径

阿泽🧸

Service Mesh 8月月更

Android条件控制宏编译

桑榆

8月月更

头脑风暴:完全背包

HelloWorld杰少

8月月更

区块链或者智能合约开发的 5 种最佳编程语言

devpoint

区块链 以太坊 8月月更

前端常考react相关面试题(一)

helloworld1024fd

React

Axure9基本交互操作(一)

乔乔

8月月更

C++对象的初始化和清理之构造函数和析构函数分析与实例(一)

CtrlX

c++ 面向对象 后端 代码 8月月更

Go 语言快速入门指南:什么是 TLS 安全传输层协议

宇宙之一粟

安全 Go 语言 8月月更

手写分布式配置中心(1)

分享干货的你

java; spring-boot SpringCould 签约计划第三季

克服项目管理中恐惧心理

踏雪痕

项目管理 8月月更

动态内存开辟(C语言)

孤衫

编程语言 C语言 动态内存 8月月更

大数据基础框架设计——实时分析技术平台洞察与实践_大数据_刘芸_InfoQ精选文章