写点什么

百度技术沙龙第 25 期:中科院查礼谈大数据研究进展

  • 2012-04-15
  • 本文字数:1167 字

    阅读完需:约 4 分钟

在 4 月 7 日举行的第 25 期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar )作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在 RCFile、MapReduce 方向的研究情况,并谈到了对大数据研究趋势的看法。

查礼首先做了自我介绍:

我现在在中国科学院计算技术研究所,从事大规模数据计算方面的研究工作,也是 Hadoop in China 大会的发起人和组织者。在去年的 Hadoop in China 大会中,我们也曾邀请 Hadoop 之父——Doug Cutting 到场演讲。

最早的研究源自于 RCFile:

最早的研究是基于与 Apache Hive 的合作,叫 RCFile。RCFile 是把原来的 SequenceFile 的纯行存储结构,改成行列混合结构。列存储的优势在于它的压缩率、加载速度上。而且目前 RCFile 已经在 FaceBook 等生产系统上得到了应用。这项研究工作的意义在于,从存储结构角度来解决存储空间不足、加载速度和查询速度不理想等问题。

此外,查礼还谈到了 MapReduce 解耦方向的进展:

大家都知道在 MapReduce 模型中,Map 和 Reduce 之间相互依赖,这样导致在资源利用上会出现非常严重的浪费。另外,对于用户作业的执行时间来讲,也很难预测。如果能从 Map 和 Reduce 两阶段将其解耦,资源和预测这两个问题就迎刃而解了。目前我们也在某个比较著名的 IT 公司实际环境上做了测试,可提高大概 30%~50% 左右的性能,效果还是很明显的。

查礼认为,大数据领域研究的发展主要可分三个阶段:大、快、准,

第一个阶段是大,现在已经出现了像 Hadoop 这样的软件,来处理数据。

第二个阶段是快,在遇到大量数据计算时,如何缩短计算时间,而且是从数量级上提高,这是这个阶段的重点,目前我们也正处于这个阶段。

第三个阶段我个人认为应该是准,比如不同用户在搜索引擎中进行搜索,搜索引擎会根据每个人不同的喜好返回不同的结果,目前好像有的搜索引擎公司正在从事这方面的研究工作。

最后,查礼谈到了大数据研究的两个发展趋势:

从研究角度来说,大数据的研究经历了一个变化的过程,主要是计算模式由数据向计算靠拢,转变为计算向数据靠拢。也就是说数据在哪里,我们就尽量把计算放在哪里,正因为有这样的一个计算模式的变化,所以产生了很多新的技术。

第二个是向专业化方向发展,越来越多的 NoSQL 数据库被广泛应用,每种又有其适合的特定场景,不像以前,MySQL 或是 Oracle 这样的关系数据库包打天下,未来,肯定是向专业化方向去发展。如果条件具备,如果应用足够庞大,完全有可能从上到下,甚至包括硬件在内都可以自己来做,为的是什么?为的是能够节约成本、提高性能,等等,这是两个大的趋势。

延伸阅读

百度技术沙龙第25 期回顾:海量数据处理技术解析(含资料下载)

演讲视频: Hypertable Goes Realtime at Baidu ,百度,杨栋

演讲视频: 58 同城在分布式存储方面的架构实践,58 同城,徐振华

2012-04-15 22:502606
用户头像

发布了 156 篇内容, 共 51.1 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

如何高效完成HarmonyOS分布式应用测试?|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS ArKUI 3.0

如何避免移动研发的一些坑

Speedoooo

研发效能 ios开发 APP开发 APP软件开发 Andriod开发

MongoDB在 AWS Marketplace 中推出即用即付产品,有力提升客户体验

MongoDB中文社区

mongodb

AOP在JavaScript和TypeScript中的应用

RingCentral铃盛

如何在建木CI中使用Vault管理密钥

Jianmu

DevOps CI/CD 开源软件

43 K8S之节点/Pod亲和调度

穿过生命散发芬芳

k8s 28天写作 12月日更

使用WT工具恢复MongoDB数据

MongoDB中文社区

mongodb

[架构实战营] 模块六作业

张祥

架构实战营

Linux一学就会之RAID磁盘阵列的原理与搭建

学神来啦

Linux 运维 linux运维 raid linux云计算

利用漏洞修复漏洞:青藤提供的「Log4j命令注入漏洞(CVE-2021-44228)」【免重启】在线热补丁服务现已上线!

青藤云安全

网络安全 漏洞修复

英特尔技术发力:着眼10倍封装密度提升,30%~50%晶体管密度提升,布局非硅基半导体

科技新消息

十年所学,终成《代码随想录》!

博文视点Broadview

如何知道页面浏览时长?

神策技术社区

采集 iOS SDK 页面浏览

【等保测评】山东省9家等保测评机构名单汇总

行云管家

等保 等级保护 等保测评 等保评测

一个小插曲

Tiger

28天写作

JetBrains又出神器啦!Fleet,体验飞一般的感觉

程序那些事

Java ide JetBrains 程序那些事 12月日更

如何使用会声会影标题工具制作弹幕效果

懒得勤快

架构训练营 week2 学习总结

红莲疾风

「架构实战营」

How to construct a Playground Project

Changing Lin

12月日更

12. 《重学 JAVA》-- 面向对象

杨鹏Geek

Java 25 周年 28天写作 12月日更

Go语言学习查缺补漏ing Day8

恒生LIGHT云社区

golang 编程语言 Go 语言

云原生应用管理,像管理手机APP一样管理企业应用

北京好雨科技有限公司

PaaS #Kubernetes# 应用管理

Dubbo 框架学习笔记二

风翱

dubbo 12月日更

【等保小知识】安全等保是什么意思?是ccrc吗?

行云管家

等保 等级保护 ccrc

CSS之选择器(五)

Augus

CSS 12月日更

架构实战营模块六作业

渐行渐远

架构实战营

百度开源一款基于 Git 的多仓库管理工具:MGit

百度开发者中心

git 开源

TDengine入驻Rainbond开源应用商店

北京好雨科技有限公司

时序数据库 #Kubernetes# rainbond

使用HTML,CSS和Javascript构建响应式导航栏和面包屑菜单

海拥(haiyong.site)

响应式 大前端 28天写作 签约计划第二季 12月日更

超写实“龚俊数字人”上线,百度智能云助力各行业打造定制数字人

百度开发者中心

人工智能

node.js中利用IPC和共享内存机制实现计算密集型任务转移

RingCentral铃盛

百度技术沙龙第25期:中科院查礼谈大数据研究进展_百度_贾国清_InfoQ精选文章