HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

William McKnight 谈面向列的数据库

  • 2011-09-10
  • 本文字数:949 字

    阅读完需:约 3 分钟

对于某些业务用例而言,面向列的数据库(columnar database)可提供比传统的关系数据库管理系统(RDBMS)更好的数据存储能力。在不久前召开的 NoSQL Now 2011 大会上,William McKnight 针对面向列的数据库以及如何在某些数据存储需求下有效地利用它们进行了演讲

他说,使用RDBMS 作为解决方案(此类解决方案都是基于行方式设计的。)的数据查询会发送大量数据。数据输入/ 输出(I/O)已成为目前数据处理需求中的真正瓶颈,更好的情形是,当你在那儿的时候能获得更多数据。为了避免这个问题唯一要做的就是解决输入/ 输出瓶颈,这才是你真正需要做的事情。面向列的数据库提供按需挑列的能力,而不是先获取整行,当数据检索完成后其中多列(开销)又不用。在要求工作负载只占整列字节数很小百分比的使用情况下,面向列的数据库可提供更好的解决方案。

在面向列的数据库中,数据存储在所有列保持同一顺序的多列中。William 讨论了关系数据库记录的数据页面布局,并与列数据库表进行了比较。在这种行页设计(在RDBMS 数据库中)中存在一些开销,因为进行数据查询时会用到行扫描或索引扫描,而且让所有数据都参与其中可能是个昂贵的选择。他展示了一个数据查询实例,在基于行的数据库中完成此查询用了50 万次输入/ 输出,而在面向列的数据库中仅用了235 次输入/ 输出。

有许多不同的面向列的数据存储选项可供使用,例如,分解存储模型(Decomposed Storage Model)、位置表示法(Positional Representation)、改良的B 树/ 行长度加密(Modified B-Tree/Row Length Encryption)、以及位图(Bitmap)。他还谈到了物化(materialization)策略,其中包括“投影”功能(Function of ‘projection’)、早期和晚期物化(Early and Late Materialization)。

一些面向列的数据库厂商有 Vertica ParAccel Sybase IQ InfoBright 、Exasol、VectorWise,还有些开源产品,例如 MonetDB InfiniDB

William 说,基于关系行的数据仓库(data warehouse)和数据集市(data mart)将仍然存在。除了数据仓库和 Hadoop 之外,你将拥有以快得多的速度来处理数据的面向列的数据库。他在结束发言时说道,数据库设计者应该从良好的设计原则入手,然后决定你想把数据放在基于行还是基于列的解决方案中。

查看英文原文: William McKnight on Columnar Databases

2011-09-10 23:132614
用户头像

发布了 55 篇内容, 共 18.8 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

不要让基础技术设施成为稳定性瓶颈

老张

环境配置 基础架构 稳定性治理

Print to PDF Pro for mac(PDF文件打印软件) v5.2.5激活版

Mac相关知识分享

After Effects 2025 全新升级 铸就特效传奇!

Rose

信阳等保测评机构有哪些?电话多少?

行云管家

等保 等保测评 信阳

极狐GitLab 足下科技,加速国产智驾操作系统的发展与普及

极狐GitLab

gitlab 智能驾驶 客户案例

华为应用市场:赋能开发者全生命周期服务体验

热爱编程的小白白

京东零售推荐系统可解释能力详解

京东零售技术

人工智能 推荐模型 可解释

adobe pr 2025有哪些新功能?

Rose

解压助手RAR Extractor - Unzip for mac,支持几乎所有的压缩格式

Rose

开源项目管理工具如何选?9款值得一试的选择

爱吃小舅的鱼

开源项目管理工具

4K Wallpaper mac(4K壁纸软件)

Mac相关知识分享

After Effects 2025 for mac(ae2025视频后期优化处理) v25.0.1中文版

Mac相关知识分享

Premiere Pro 2025 for mac(adobe pr 2025)中文版

Mac相关知识分享

淘宝商品详情API接口Java GET调用指南

代码忍者

API 接口 pinduoduo API

摩尔线程开源vLLM-MUSA 加速国产GPU AI

吴脑的键客

人工智能

大众点评诉百度,数据爬虫合法边界引关注

本原智数

人工智能 数据合规 本原智数 数据爬虫

如何正确保护Python代码,不是Pyinstaller

LLLibra146

Python 代码保护

我们的 WebAssembly 实验:扩展 NGINX Agent

NGINX开源社区

nginx Wasm nginx 开源版

三分之一的生成式AI项目将被放弃?从零开始看RAG如何变现

本原智数

人工智能 大模型 生成式AI rag 本原智数

纽约时报诉OpenAI:生成式AI时代的数据陷阱与法律边界

本原智数

人工智能 数据采集 数据合规 本原智数

小游戏3.0时代,应回归到游戏价值本身

FinFish

小程序容器 小游戏 小游戏技术 实时互动技术

大模型准确率从17%到90%!为什么提示词工程是今天最珍贵的技能?

本原智数

人工智能 大模型 生成式AI 提示词工程 本原智数

TableFill:一天搞定1000人的数据填报工作

袋鼠云数栈

一书了解AI的下一个浪潮!

博文视点Broadview

开源建木荣获 GitCode年度十大开源社区荣誉

都广科技

#开源

RAR Extractor - Unzip for mac功能强大的解压缩软件

Mac相关知识分享

AOT使用经验总结

沙漠尽头的狼

适合才最美:Shiro安全框架使用心得

威哥爱编程

Java javaWeb shiro JavaEE

SpringBoot启动原理详解(图文全面总结)

江南一点雨

能让企业“网络隐身”的SPA,到底是什么黑科技?

芯盾时代

网关 零信任 SPA

使用SeaTunnel从InfluxDB同步数据到Doris

白鲸开源

Influxdb 数据同步 Apache SeaTunnel #开源

William McKnight谈面向列的数据库_DevOps & 平台工程_Srini Penchikala_InfoQ精选文章