写点什么

大数据基础框架设计——实时分析技术平台洞察与实践

  • 2016-11-04
  • 本文字数:2041 字

    阅读完需:约 7 分钟

今年是 IoT 物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

很久以前大数据有三个概念——“三个 V”:第一个 V 是非常大的,海量;第二个 V 是速度,很快;第三个 V 是多样化,很难。之前我们一直在强调数据要“大”,提到大数据的时候人们一般会说“一个企业有多少数据量,每天要加载多少数据,多少万个用户,每天月活是多少……”,但其实到现在为止,每一个企业 真的都有了很多的数据,接下来面临的问题是如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。那么,企业如何对这些数据进行相关的分析和处理呢?

易观技术负责人郭炜提出一个概念,数据永远是临时的,分析永远是有时效性的。例如,你某电商平台购买了一部手机,平台就会不断向你推荐手机而不是手机配件。为什么呢?其实是因为实时分析和实时计算没做好,怎么办呢?

  • 定方向:实时分析不难但投入大,企业首先要评估自己的 ROI,选择一个适合的场景。
  • 夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。
  • 打造能力:实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。
  • 实现:突破,找到产品出口,找最合适的一到两个点,让企业自己的实时分析流畅地流转起来。

提到 Hadoop 大家必然会想到 Cloudera 公司,它在 Hadoop 生态系统中拥有极高知名度。会上 Cloudera 大中华区总经理凌琦指出大数据时代想让计算成本变得更经济可以从两方面考虑。

  • 一方面是硬件,用 X86 服务器,单台机器不考虑冗余的情况下存储可以有 12 × 6 T。
  • 另外一方面是把一部分应用放到云上面,使计算成本变得更低。

会上 Alluxio 创始人兼 CEO 李浩源分享了如何让不同的计算框架以及不同的应用在不修改自身代码的前提下,高效且高速地访问不同数据源中的数据。

  • 智能化地移动数据,保证最高效的访问
  • 把不同存储数据虚拟化
  • 采用 scale-out 架构,实现高效的线性性能提升

关于 Apache Kylin 很多人应该已经知道了,这是完全由中国工程师贡献到 Apache 软件基金会的一个项目,今年该项目拿到了“开源贡献奖”,和 Google TensorFlow 一起获得该奖。Kyligence 联合创始人兼 CEO 韩卿出席了大会并分享了《基于 Apache Kylin 的实时 OLAP 实现》,对数据查询低延迟先有处理方案表示了肯定,也提出了解决数据可达低延时的重要性。现有 Cube 构建于批处理,T+1 模式可以满足绝大部分需求。但还是有不少问题值得深思。

  • 几千条到几亿条数据如何实现一次性轻松构建?
  • 如何随意暂停或更改构建频率?
  • 如何实现自动管理集群、弹性计算资源等?

对于做数据工作的 IT 人来说 Greenplum 应该并不陌生。简单的说,它就是一个与 Oracle、 DB2 一样面向对象的关系型数据库。通过标准的 SQL 可以对 GP 中的数据进行访问存取。本质上讲 Greenplum 是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与 RAC 不同,这种数据库集群采取的是 MPP 架构。

现在全球有 34 个国家有 Greenplum 团队,包含研发团队、销售团队、支持团队,就在客户不断增长的时候项目选择了开源。Pivotal Greenplum 中国研发总经理姚延栋分享了 Greenplum 5.0 作为做得还不错的企业级产品要选择开源的原因,开源前和开源后的变化,以及从现有平台迁移到分布式的数据架构上的方法

最后,大会以圆桌会议为彩蛋结束了整场论坛。圆桌会议由主持人是清华海峡研究院大数据中心主任王熙主持,易观技术负责人郭炜、Kyligence 联合创始人兼 CEO 韩卿、Admaster 技术副总裁卢亿雷、Anchora 董事长兼 CEO 鲁为民和云杉网络联合创始人兼 COO 来源参与,讨论了大数据实时计算应用与分析及对大数据未来发展方向的预测

  • 在新的技术发展阶段,特别是现在云计算、大数据,开源是一个趋势。而且开源是企业创新生命力的一个重要保证。
  • 开源系统是比较复杂的,应用的时候还需要专业能力和整合能力。开源软件很多,不要迷信某一种,要根据不同的阶段,不同的业务场景做选择。比如,初创阶段数据量比较小的时候可以选择比较粗的方案,但是如果想要性能更高一些,就需要选择更细的方案了。
  • 大多开源软件原始团队都在海外,如 Hadoop,但随着中国大数据的崛起,在世界范围内有影响力的开源项目越来越多。
  • 在大数据浪潮里面,中国很多地方不仅仅是赶上国外,甚至某些领域超越了。大数据让我们能够有机会超越国外的战略技术,因为我们今天能创造的数据量是其他任何一个国家无法得到的。
  • 现在数据已经深入到了每一个行业的每一个环节里,一开始是大数据的广告推介,现在变成了场景引擎,将来变成 AI 的人工智能。
  • 现在数据来源越来越复杂,预测三到五年大数据会变得非常敏捷,这是一个大趋势。在实时挖掘和细分算法方向会有很多创业公司出现解决业务触达问题,会出现更智能的工具。
2016-11-04 07:012469

评论

发布
暂无评论
发现更多内容

数据上云难?华为云对象存储服务OBS给企业最便捷体验

路过的憨憨

Dubbo 正式支持 Spring 6 & Spring Boot 3

阿里巴巴中间件

spring 阿里云 云原生 Spring Boot dubbo

告别“自建房”,华为云ECS为企业提供更优选

科技说

解决企业数据存储难题:华为云OBS,企业“上云”的不二之选

路过的憨憨

CSDN 2022年度榜单揭晓,华为端云协同智能流程机器人斩获大奖

Geek_2d6073

瑞萨E1/E20烧录工具自检方法

不脱发的程序猿

嵌入式 汽车电子 MCU 瑞萨 RH850

数据即价值,华为云大数据BI解决方案助力企业实现数据高效转化

秃头也爱科技

华为云为瑞星量身打造下载加速方案,助力瑞星完成产品升级

秃头也爱科技

更可靠、更高效的华为云ECS,助力企业业务迅速起飞

秃头也爱科技

2023-01-12:一个n*n的二维数组中,只有0和1两种值, 当你决定在某个位置操作一次, 那么该位置的行和列整体都会变成1,不管之前是什么状态。 返回让所有值全变成1,最少的操作次数。 1 <

福大大架构师每日一题

算法 rust Solidity 福大大

Java在Mac里启动一个新的Terminal

IT蜗壳-Tango

IT蜗壳教学

看不见的控制流 — Rust 异步取消问题的几点思考

Greptime 格睿科技

数据库 rust 异步编程 tokio

用大数据服务医疗行业,华为云大数据BI,为医院智能决策提供保障

秃头也爱科技

华为云OBS对象存储,企业存储的好帮手

科技说

华为云桌面Workspace荣获CSDN年度创新产品与解决方案大奖

Geek_2d6073

Python数据可视化:数据分布图表可视化

不脱发的程序猿

Python 数据可视化 大数据分析

Atlassian FaaS 云开发平台 Forge 解析

跟YY哥学Jira

Jira Atlassian 云版 app development Forge

华为云CDN为企业下载加速,极大提升客户体验

i生活i科技

CDN

架构实战营 模块四作业

白杨

【玩转 Cloud Studio】 Cloud Studio的入门教程

Geek_7ubdnf

studio

读 2022 年 JavaScript 趋势报告

devpoint

typescript vite SOLID tauri

华为云ECS弹性可扩展,为企业提供可靠、稳定、灵活、高效的计算环境

秃头也爱科技

华为云CDN全站加速助力网站性能全面优化

i生活i科技

CDN

Jira + GitLab 实践 DevOps

跟YY哥学Jira

DevOps gitlab jenkins Jira

华为云弹性云服务器 ECS,如何引领行业高速发展?

路过的憨憨

Spring Cloud Alibaba 2022.0.0.0 版本发布啦!

阿里巴巴中间件

阿里云 云原生 Spring Cloud Aliababa

Serverless 奇点已来,下一个十年将驶向何方?

阿里巴巴中间件

阿里云 Serverless 云原生

本地数据怎么备份上云?华为云对象存储服务OBS帮你实现

科技说

华为云OBS助力企业解决数据存储难题

科技说

安全、高效、便捷,华为云CDN助力企业体验升级!

i生活i科技

CDN

聊一聊华为云弹性公网IP的那些事儿

路过的憨憨

大数据基础框架设计——实时分析技术平台洞察与实践_大数据_刘芸_InfoQ精选文章