报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

百度技术沙龙第 25 期:中科院查礼谈大数据研究进展

  • 2012-04-15
  • 本文字数:1167 字

    阅读完需:约 4 分钟

在 4 月 7 日举行的第 25 期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar )作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在 RCFile、MapReduce 方向的研究情况,并谈到了对大数据研究趋势的看法。

查礼首先做了自我介绍:

我现在在中国科学院计算技术研究所,从事大规模数据计算方面的研究工作,也是 Hadoop in China 大会的发起人和组织者。在去年的 Hadoop in China 大会中,我们也曾邀请 Hadoop 之父——Doug Cutting 到场演讲。

最早的研究源自于 RCFile:

最早的研究是基于与 Apache Hive 的合作,叫 RCFile。RCFile 是把原来的 SequenceFile 的纯行存储结构,改成行列混合结构。列存储的优势在于它的压缩率、加载速度上。而且目前 RCFile 已经在 FaceBook 等生产系统上得到了应用。这项研究工作的意义在于,从存储结构角度来解决存储空间不足、加载速度和查询速度不理想等问题。

此外,查礼还谈到了 MapReduce 解耦方向的进展:

大家都知道在 MapReduce 模型中,Map 和 Reduce 之间相互依赖,这样导致在资源利用上会出现非常严重的浪费。另外,对于用户作业的执行时间来讲,也很难预测。如果能从 Map 和 Reduce 两阶段将其解耦,资源和预测这两个问题就迎刃而解了。目前我们也在某个比较著名的 IT 公司实际环境上做了测试,可提高大概 30%~50% 左右的性能,效果还是很明显的。

查礼认为,大数据领域研究的发展主要可分三个阶段:大、快、准,

第一个阶段是大,现在已经出现了像 Hadoop 这样的软件,来处理数据。

第二个阶段是快,在遇到大量数据计算时,如何缩短计算时间,而且是从数量级上提高,这是这个阶段的重点,目前我们也正处于这个阶段。

第三个阶段我个人认为应该是准,比如不同用户在搜索引擎中进行搜索,搜索引擎会根据每个人不同的喜好返回不同的结果,目前好像有的搜索引擎公司正在从事这方面的研究工作。

最后,查礼谈到了大数据研究的两个发展趋势:

从研究角度来说,大数据的研究经历了一个变化的过程,主要是计算模式由数据向计算靠拢,转变为计算向数据靠拢。也就是说数据在哪里,我们就尽量把计算放在哪里,正因为有这样的一个计算模式的变化,所以产生了很多新的技术。

第二个是向专业化方向发展,越来越多的 NoSQL 数据库被广泛应用,每种又有其适合的特定场景,不像以前,MySQL 或是 Oracle 这样的关系数据库包打天下,未来,肯定是向专业化方向去发展。如果条件具备,如果应用足够庞大,完全有可能从上到下,甚至包括硬件在内都可以自己来做,为的是什么?为的是能够节约成本、提高性能,等等,这是两个大的趋势。

延伸阅读

百度技术沙龙第25 期回顾:海量数据处理技术解析(含资料下载)

演讲视频: Hypertable Goes Realtime at Baidu ,百度,杨栋

演讲视频: 58 同城在分布式存储方面的架构实践,58 同城,徐振华

2012-04-15 22:502745
用户头像

发布了 156 篇内容, 共 53.5 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

“数据中心场景鲲鹏BoostKit大数据使能解决方案”入选“2024 ICT产业高质量发展推荐”

极客天地

京东app商品详情API接口系列(京东API)

tbapi

京东API接口 京东app详情接口

Milvus入门小册

Quincy

Milvus 入门版

Jenkins与不同阶段测试的完美结合

测试人

软件测试

方法引用与lambda底层原理&Java方法引用、lambda能被序列化么?

不在线第一只蜗牛

Java

持续交付的利器:Blue Ocean与Pipeline

测试人

软件测试

【翻译】不止Cursor,2024年AI代码工具终极指南,AI辅助编程工具聚会了——慢慢学AI143

AI决策者洞察

#人工智能 Prompt

具身智能加快产业重构,九牧引领行业从“单品”到“生态”

Alter

NFTScan | 01.06~01.12 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan #Web3

数据服务 | 某造纸企业管理会计PDCA体系的敏捷经营和精准决策

用友智能财务

运维‘ 经营分析 会计

如何玩转TikTok直播?掌握这些关键要点

Ogcloud

TikTok 直播专线 tiktok直播 tiktok直播专线 tiktok直播网络

覆铜板MES系统解决方案

万界星空科技

制造业 mes 万界星空科技mes 覆膜板行业 覆膜板mes

Alibaba Cloud Linux V3 新版发布,以安全为基石,为阿里云ECS九代实例注入 AI 新动力

OpenAnolis小助手

国产操作系统 Alibaba Cloud Linux

ClkLog埋点分析系统常见问题-指标定义与统计逻辑Sec.1

ClkLog

开源 数据分析 埋点 sdk 用户画像

如何快速批量导出CAD测量结果?

在路上

cad cad看图 CAD看图王

深度解读英伟达最新世界基础模型Cosmos:用AI数据训练AI算法,彻底闭环了?

Zilliz

AI 英伟达 Cosmos 合成数据 世界基础模型

Python库房管理系统开发指南

不在线第一只蜗牛

Python

My Metronome for Mac(音乐节拍器软件)v1.4.1激活版

小玖_苹果Mac软件

“企业级敏捷教练课程” 2月15-16日 · CSP-SM认证周末班

ShineScrum

Scrum 敏捷 认证 Scrum Master

优秀奖及决赛阵容震撼公布 第二届OpenHarmony创新应用挑战赛决战在即

科技热闻

Jenkins质量门禁设计方案的深入探讨

测试人

软件测试

深度解析1688 API对电商的影响与实战应用

科普小能手

数据挖掘 电商 1688 运营干货 API 接口

巧用CAD多行文字与文字样式功能,提高绘图效率!

在路上

cad cad看图 CAD看图软件 CAD看图王

深度揭秘:JenkinsFile与Pipeline的完美结合

测试人

软件测试

七牛云荣获 InfoQ 极客传媒「2024 年度技术生态构建品牌」

七牛云

软件项目建设方案模板参考,项目建设文档

金陵老街

百度技术沙龙第25期:中科院查礼谈大数据研究进展_百度_贾国清_InfoQ精选文章