QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

William McKnight 谈面向列的数据库

  • 2011-09-10
  • 本文字数:949 字

    阅读完需:约 3 分钟

对于某些业务用例而言,面向列的数据库(columnar database)可提供比传统的关系数据库管理系统(RDBMS)更好的数据存储能力。在不久前召开的 NoSQL Now 2011 大会上,William McKnight 针对面向列的数据库以及如何在某些数据存储需求下有效地利用它们进行了演讲

他说,使用RDBMS 作为解决方案(此类解决方案都是基于行方式设计的。)的数据查询会发送大量数据。数据输入/ 输出(I/O)已成为目前数据处理需求中的真正瓶颈,更好的情形是,当你在那儿的时候能获得更多数据。为了避免这个问题唯一要做的就是解决输入/ 输出瓶颈,这才是你真正需要做的事情。面向列的数据库提供按需挑列的能力,而不是先获取整行,当数据检索完成后其中多列(开销)又不用。在要求工作负载只占整列字节数很小百分比的使用情况下,面向列的数据库可提供更好的解决方案。

在面向列的数据库中,数据存储在所有列保持同一顺序的多列中。William 讨论了关系数据库记录的数据页面布局,并与列数据库表进行了比较。在这种行页设计(在RDBMS 数据库中)中存在一些开销,因为进行数据查询时会用到行扫描或索引扫描,而且让所有数据都参与其中可能是个昂贵的选择。他展示了一个数据查询实例,在基于行的数据库中完成此查询用了50 万次输入/ 输出,而在面向列的数据库中仅用了235 次输入/ 输出。

有许多不同的面向列的数据存储选项可供使用,例如,分解存储模型(Decomposed Storage Model)、位置表示法(Positional Representation)、改良的B 树/ 行长度加密(Modified B-Tree/Row Length Encryption)、以及位图(Bitmap)。他还谈到了物化(materialization)策略,其中包括“投影”功能(Function of ‘projection’)、早期和晚期物化(Early and Late Materialization)。

一些面向列的数据库厂商有 Vertica ParAccel Sybase IQ InfoBright 、Exasol、VectorWise,还有些开源产品,例如 MonetDB InfiniDB

William 说,基于关系行的数据仓库(data warehouse)和数据集市(data mart)将仍然存在。除了数据仓库和 Hadoop 之外,你将拥有以快得多的速度来处理数据的面向列的数据库。他在结束发言时说道,数据库设计者应该从良好的设计原则入手,然后决定你想把数据放在基于行还是基于列的解决方案中。

查看英文原文: William McKnight on Columnar Databases

2011-09-10 23:132756
用户头像

发布了 55 篇内容, 共 19.6 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

TiDB TiCDC使用实践

TiDB 社区干货传送门

迁移 管理与运维 安装 & 部署

TiDB Lightning使用实践

TiDB 社区干货传送门

管理与运维 安装 & 部署 备份 & 恢复

网易这么牛的迁移方案你学会了吗?【DDB迁移TiDB方案设计】

TiDB 社区干货传送门

Data Migration运维常见问题

TiDB 社区干货传送门

迁移

TiDB-最小实践 Cluster111

TiDB 社区干货传送门

实践案例

在线校验两个tidb系统的数据一致性

TiDB 社区干货传送门

迁移 版本升级 管理与运维

将 AWS S3 数据迁移至 TiDB Cloud 集群

TiDB 社区干货传送门

干货 | 分布式数据库TiDB在携程的实践

TiDB 社区干货传送门

TiDB DM使用实践

TiDB 社区干货传送门

迁移 实践案例 管理与运维 安装 & 部署

TiUP:TiDBAer 必备利器

TiDB 社区干货传送门

管理与运维 安装 & 部署

Flink CDC 2.2 正式发布,新增 TiDB 数据源,新增 TiDB CDC 连接器

TiDB 社区干货传送门

新版本/特性发布 应用适配

新经济 DTC 转型,一个简单而强大的数据平台至关重要

TiDB 社区干货传送门

TiHC Alpha 1.0 版本试用简介,欢迎来玩!

TiDB 社区干货传送门

监控 管理与运维

Facebook 开源 Golang 实体框架 Ent 现已支持 TiDB

TiDB 社区干货传送门

应用适配 数据库连接

TiDB 社区技术月刊来了!故障解读,诊断及最佳实践,发版计划...你想知道的都在这里~

TiDB 社区干货传送门

性能调优 版本升级 版本测评 故障排查/诊断

TiDB集群恢复之TiKV集群不可用

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断

Data Migration功能测试

TiDB 社区干货传送门

迁移 版本测评

tidb server的oom问题优化探索

TiDB 社区干货传送门

性能调优 故障排查/诊断

TiDB 在携程 | 实时标签处理平台优化实践

TiDB 社区干货传送门

tidb server的oom问题优化探索

TiDB 社区干货传送门

性能调优 故障排查/诊断

TiDB的HATP对我们来说意味着什么?

TiDB 社区干货传送门

数据库前沿趋势

Data Migration高可用演练

TiDB 社区干货传送门

迁移 实践案例 集群管理

TiDB 中的高可用实践

TiDB 社区干货传送门

实践案例 管理与运维 安装 & 部署

从2018到2022: 一个大数据工程师眼中的TiDB

TiDB 社区干货传送门

社区活动

tpcds performance compare between tidb and impala

TiDB 社区干货传送门

性能测评

统计信息十问: 你不了解的那些事儿

TiDB 社区干货传送门

实践案例

生产环境TiDB集群混合部署实践

TiDB 社区干货传送门

安装 & 部署 数据库架构设计

TiDB Binlog使用实践

TiDB 社区干货传送门

实践案例 安装 & 部署 备份 & 恢复

关于 TiDB 37 个知识点

TiDB 社区干货传送门

PD节点恢复之一个也不剩

TiDB 社区干货传送门

集群管理 故障排查/诊断 备份 & 恢复 扩/缩容

DM 是如何处理 DML 的

TiDB 社区干货传送门

迁移

William McKnight谈面向列的数据库_DevOps & 平台工程_Srini Penchikala_InfoQ精选文章