列存数据库：通过采取合适的数据组织结构减小查询加载的数据量，提高查询效率

来源：天极下载时间：2021-04-27 14:22:51 作者： MM

黄峰，Kyligence 公司高级研发工程师，目前主要负责 Kyligence 企业级产品的开发以及维护工作。

对 OLAP 场景的查询而言，单个查询往往需要在存储端扫描大量数据，再在内存中进行一些统计分析后，才能输出所需要的统计结果。因此，如果不能像以 Kylin 为代表的 MOLAP 引擎采用预计算的方式来避免数据的实时扫描，对于基于磁盘存储的数仓而言，存储端无疑会因为扫描大量数据造成磁盘吞吐的瓶颈。

既然如此，是否存在别的选择，可以少从存储端加载数据呢？列存数据库正是通过采取合适的数据组织结构，来减小查询加载的数据量，最终提高查询效率。

大数据圈的各位对列式存储一定不陌生，快速浮现你脑海里的想必是 ORCFile，Parquet 等，但其实这些只是数据格式，并不能直接和列存数据库划等号。

列存格式 = 列存数据库

列存数据库 [1] 更像是基于列存格式，设计的一套完整的数据库解决方案，而这套解决方案不仅需要考虑数据格式，更要考虑以下因素：

由于考虑成本效率的因素，计算机中的存储常被设计成多级存储的结构，所以数据不单在磁盘上有特定的存储格式，在内存中，甚至 L1，L2，L3 缓存中同样有其独特的布局方式。考虑到存储端复杂的情况，如何结合 OLAP 场景的 workload，从而针对不同的硬件特点设计数据布局，是列存数据库在存储端需要考虑的核心问题;

有了在不同存储层的数据存储布局之后，数据如何在不同存储层之间流动，比如，如何从磁盘加载数据到内存，什么时候进行加载，这些都是存取方法 [2] (Access Method)所涉及的内容;

数据结构配上合适的算法才能横行江湖，计算和数据组织方式往往紧密耦合，彰显团结的力量。如何结合列存的特点设计一个高效的执行引擎，为 Join，Sort，Groupby 等关系算子提供一种更为高效的算法，都是列存数据库需要考虑的问题。

由此可见，为了追求极致的性能，底层存储的变化往往会引发存取方法、执行引擎、关系算子算法实现等多方面的一系列适配性的变化，真可谓环环相扣，好不紧张。下面，我们就依次从这几个方面介绍其所涉及内容。

存储格式

可曾记得把列存的思想引入大数据的先驱者—— RCFile [3] ，它的基本思想是将数据水平切分成一个个行组，在每个行组内除了元数据和行组切分标识以外，数据部分按列来进行连续存储。

这样操作的原因在于 OLAP 的查询虽然一般都会扫描大量行，但只会涉及少量列，通过这样的列存布局方式，能够有效避免无关列的加载，从而达到减小磁盘吞吐的目的。

但似乎先驱者的下场往往不那么尽如人意，RCFile 也没有摆脱这个魔咒。相较传统数仓中的列存而言，RCFile 还是太过粗糙，要学就学全套呀!

Hive 的开发者们总结了 RCFile 的经验教训，指出其核心问题 [4] 在于：

对数据类型不感知，从而无法对具体类型做编码优化，限制了列存的存储高效性;

没有索引辅助过滤数据(如：谓词下推)，造成数据读取效率低下。

站在前人的肩膀上，后续的 ORCFile，Parquet 都开启了进化之旅，一方面加入一些 Min、Max、Count 等轻量级统计索引来加速查询;另一方面，针对不同场景，采用 RLE，Bitcode，Dictionary Code 等编码方式进行存储优化，比如 RLE，针对的就是取值范围不大，重复度高的数据，假设有一列数据是 AAABBBB，RLE 就会直接采用 A3B4 来表达(其中“3”和“4”代表前一个值出现的次数)。

自此以后，列存格式的风吹遍了整个大数据生态圈，CarbonData 采用多维排序的方式优化数据的列式布局;Druid 在列存之上，通过对维度列进行 Dictionary 编码加 Bitmap 索引的方式加速了数据的筛选和聚合......

当然，存储格式并不是只需关心存储查询的效率问题，将其应用到实际中所需要考虑的问题同样重要。比如，2019 年 4 月，Databricks 公司重磅开源 Delta Lake，给数据添加了 ACID 特性，支持数据的并发读写，Hudi 和 Iceberg 也不甘落后，存储的故事又拉开了一张大幕，世界就是这样精彩!

存取方式

数据存在磁盘上的数据布局叫做存储格式，而存取方式则包括：

数据是怎么从磁盘读到内存的？(例如 MySQL 加载数据的时候，是通过全表扫描，还是通过索引扫描)

数据在内存的布局是怎样的？

数据又是怎么写回磁盘的？

等一系列过程。

这里我们以数据从磁盘加载到内存的过程为例，来探讨列式存储能够给存取过程带来哪些优势。由于数据最终输出时是以行为单位，所以在将列存数据读入内存时，直接定位到要扫描的列，然后按顺序重构一行行数据并交由执行引擎处理，就显得尤为自然，但我们不如想的更深入一步：

内存中的数据表是不是也可以是列式的？

数据是不是可以懒加载(延迟物化)？

对于问题一，Presto、ClickHouse 等实践者通过在内存中使用列存布局，不仅优化了存储效率，也使得向量化计算加速分析查询变为可能;

对于延迟物化 [5] 的问题，核心就在于数据是否能等到真正需要它们的时候再加载，例如对于以下查询：

selectb fromR wherea =X andd =Y

是直接如上图左侧所示，将查询涉及到的 a、b、d 列全部加载到内存里构成一行一行数据，然后进行过滤(Filter)和映射(Project);

还是如上图右侧所示，选择尽量延迟加载，先分别对 a、d 列进行单独加载过滤，决定要输出的行(图中的 01 向量)，再把对应行的 b 列加载输出，最后再构建成行数据输出？

这两者的 Tradeoff 在于，虽然延迟加载能够减少数据的加载量，但需要维护原始数据的位置，这样才能找到对应行的其他列的值，然而如果筛选条件(R.a = X and R.d = Y )不能大量过滤数据，延迟加载反而低效。对于这种情况，就需要根据一些统计信息选择合适的加载算法，来最大限度的提高效率。

执行引擎与关系算子

说完了存储端的故事，让我们转战计算端，唠一唠执行引擎和关系算子与列存之间又有怎样的故事。

执行引擎

首先，来了解一下执行引擎的在 SQL 查询过程中发挥了什么样的作用。

熟悉 SQL 查询引擎的同学应该都清楚，一条 SQL 会经过词法语法解析、语义校验、逻辑执行计划生成优化等一系列步骤，生成最后的物理执行计划，例如，对于如下 SQL：

select*fromR wherea =1

其物理执行计划如下图所示：

执行引擎所做的事情就包括，定义 TableScan，Filter 等一系列关系算子(Operator)的实现框架，从而可以组合使用多个关系算子，构建它们之间的数据依赖关系(也就是执行计划)，最终实现不同 SQL 的功能。

最经典的执行引擎实现非 Volcano [6] 莫属了。它把每一个算子抽象成数据的迭代器(Iterator)，分别由 Open，Next，Close 构成。其中 Open 做一些初始化的工作，比如 TableScan 如何实现打开对应的表文件;Next 按照特定算子的功能逻辑处理数据，增量式得到输出;Close 清理资源。如下的伪代码就是 TableScan 的一个实现：

publicclassTableScanimplementIterator{ voidopen{ tableFile.open; } Row next{ if( (row = tableFile.nextRow) != EOF){ returnrow; } returnEOF; } voidclose{ tableFile.close; } }

Volcano 的优点在于处理逻辑清晰，每个算子只需关心自己的处理逻辑即可，耦合性低。不过它的缺点也很明显，过多虚函数的调用，导致大量 CPU cache miss，从而影响 CPU 执行效率。

在数据库诞生之初，数据库先贤们奋战在弥补磁盘和 CPU 速度巨大的鸿沟上，CPU 的浪费显得微不足道。然而，在数据库新时代，摩尔定律的失效使得单核性能提升日渐趋缓，OLAP 的发展导致将大量数据加载到内存进行计算，瓶颈慢慢从存储端向 CPU 端倾斜，榨干 CPU 每一滴性能的企图就变得越发强烈，于是 CodeGen，向量化执行 [7] 等方法应运而生，它们从不同的方向入手来优化 CPU 的利用率，能够极大的提高执行效率。向量化执行正是利用列式存储的优势，可以一次性对整列数据进行批量处理，减少 CPU 的消耗。

关系算子

有了执行引擎奠定的框架，关系算子只需要一个萝卜一个坑，逐一实现即可，然而算法的世界是层出不穷，千变万化的，比如对于 Join 大家最熟悉的算法就有 BroadcastJoin，LookupJoin，SortJoin 等等，而列存又会给 Join 算法带来什么样的优化空间呢？

对于 Join 而言，运算的核心在于两表中 Joinkey 的匹配上，而对于其他列数据匹配上了就复制，匹配不上就丢弃。那么结合延迟物化的思想，是否可以等到匹配完成后再加载其他列数据，从而减小不必要的数据加载。

举个例子，对于如下 SQL：

SELECTemp.age, dept.name FROMemp, dept WHEREemp.dept_id =dept.id

我们先抽出 emp 表的 dept_id 和 dept 表的 id 列数据，进行匹配，并输出匹配结果对应原表的位置信息，如下图所示：

其中等于号的左边为 dept_id 和 id 列的数据，等于号的右边为匹配结果对应原表的位置信息，比如第一行 1，2 代表 dept_id 列的第一个值 42 和 id 列的第 2 个值 42，Join 的结果。

然后根据输出的位置信息，就可以从原始数据中抽取 age，name 列的数据得到 Join 最后的结果。当然该算法能够产生明显优化效果的前提是 Join 的结果相较于原始数据比较小，这样才能够有效避免加载过多数据。另外由于上图输出结果的第二列是无序的，如果回表查必然造成大量随机 IO，为了解决这个问题，Jive Join [8] 采用了对其进行排序之后再查询，即将随机 IO 转化为顺序 IO 的方法进行优化。

总结

综上，我们从大数据存储格式的变迁;存取方式中 Early Materialization 和 Late Materialization 的权衡取舍;执行框架向优化 CPU 的方向迈进;关系算子结合存储进行优化等几个方面对列存数据库进行了讲解。

实际上，列存数据库不只是存储格式的问题，底层存储的变化往往牵一发而动全身，如何适应性的修改计算引擎、存取方式等来达到更高更快的性能，并适应不同的 workload 或者硬件发展的趋势，都是列存数据库要关心的问题。

参考文献：

[1] The Design and Implementation of Modern Column-oriented Database Systems.

[2] Design Tradeoffs of Data Access Methods.

[3] RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems.

[4] Major Technical Advancements in Apache Hive.

[5] Materialization Strategies in a Column-oriented DBMS.

[6] Encapsulation of Parallelism in the Volcano Query Processing System.

[7] Vectorization vs. Compilation in Query Execution.

[8] Fast Joins Using Join Indices.

相关推荐

腾讯音乐旗下有哪些音乐软件_腾讯音乐娱乐介绍

腾讯音乐娱乐集团(TME)旗下涵盖多款音乐类软件及服务，核心软件包括QQ音乐、酷狗音乐、酷我音乐、全民K歌四大主流应用，以及酷狗直播、懒人听书、5sing等衍生…

更新时间：2025-06-12 | 作者：zmj | 已阅读：21次
金舟打字通VS金山打字通：多维度专业对比解析

金舟打字通VS金山打字通打字模式对比；金舟打字通VS金山打字通优势对比；金舟打字通和金山打字通软件对比分析。

更新时间：2025-04-03 | 作者：DQ | 已阅读：85次 | 标签：金山打字通
突发！BOSS直聘又崩了？这些应急策略助你求职不 “断档”

利用其他招聘平台：1.注册并使用其他主流招聘平台：市面上有许多优秀的招聘平台可供选择，如智联招聘、前程无忧、脉脉等。可以在本站搜索查询招聘软件哦。2.挖掘小众招…

更新时间：2025-03-19 | 作者：软件分析员 | 已阅读：87次
于和伟新剧《我是刑警》在哪在线看_《我是刑警》剧情解析

于和伟新剧《我是刑警》是由爱奇艺独播的一部电视剧。爱奇艺作为中国领先的视频平台之一，将为观众提供这部剧的全网观看通道。如果你是刑侦剧的爱好者，或者喜欢看紧张刺激…

更新时间：2024-11-28 | 作者：ZJL | 已阅读：688次 | 标签：爱奇艺视频
《柳舟记》在什么地方能一次性看完全集_是不是会员才能下载

柳舟记电视剧在腾讯视频平台能一次性看完全集，目前该剧已经更新至第10集，VIP会员可以观看至第9集，SVIP会员可以观看至第10集，非VIP会员可以免费观看与下…

更新时间：2024-08-16 | 作者：rw | 已阅读：202次 | 标签：视频播放器腾讯软件
《九部的检察官》在哪个平台能一口气看完_免费还是付费收看

九部的检察官电视剧目前在爱奇艺这个平台能一口气看完全集，目前该剧已经更新至第6集，VIP会员用户可以观看至第6集，非VIP会员不付钱可以观看缓存至第3集，因为目…

更新时间：2024-08-16 | 作者：rw | 已阅读：310次 | 标签：视频播放器视频软件
《四海重明》完整版在线观看平台_是不是会员才能看

四海重明电视剧完整版不付费的观看平台是爱奇艺和芒果TV，这部剧在双平台播出，即便2个平台都没有开通会员前期也都可以一口气看完全集。

更新时间：2024-08-08 | 作者：rw | 已阅读：158次 | 标签：视频播放器视频软件
不是芒果会员能看披荆斩棘4吗_是否可以免费下载

通过调查发现，不是芒果TV会员能观看披荆斩棘第四季全集，只不过需要等待节目播出一个星期后转免了才能观看。同时，芒果TV不支持免费下载披荆斩棘4。

更新时间：2024-08-02 | 作者：rw | 已阅读：213次 | 标签：视频播放器视频软件
连夜整理！2024年4大平台暑期定档电视剧排行榜！

目前2024年暑期定档待播电视剧有《你比星光美丽》、《长相思第二季》、《颜心记》、《度华年》、《柳舟记》以及《少年白马醉春风》、《乌云之上》、《错位(原名交错的…

更新时间：2024-06-21 | 作者：rw | 已阅读：458次 | 标签：视频播放器视频软件
2024奥运会直播观看入口在哪里_在线观看平台汇总

2024巴黎奥运会直播在腾讯视频这个播放器上可以看，因为就在昨天晚上，腾讯宣布，中央广播电视总台与腾讯就 2024 巴黎奥运会视频点播及短视频版权达成合作意向，…

更新时间：2024-06-20 | 作者：rw | 已阅读：4441次 | 标签：视频播放器腾讯软件
《维和防暴队》下载平台推荐_免费还是付费下载

目前并没有找到维和防暴队完整版的免费下载观看平台，虽然这部电影在爱奇艺、腾讯视频、优酷以及芒果TV这4个视频平台都可以在线进行观看，但是完整版的观看和下载都是需…

更新时间：2024-06-17 | 作者：rw | 已阅读：173次 | 标签：视频播放器视频软件
《看不见影子的少年》全集下载平台分享_不付费能不能下载

看不见影子的少年全集在爱奇艺平台可以观看下载，但是目前该剧只支持前2集的免费下载与观看，后面16集都是需要付费开通会员后才能够观看和缓存的。

更新时间：2024-06-11 | 作者：rw | 已阅读：195次 | 标签：视频播放器视频软件
世预赛中国队直播回放观看入口在哪_在线观看平台推荐

世界杯亚洲区预选赛中国队的比赛直播在央视影音这个平台可以看，在软件的【体育】频道中，找到【赛事中心】中6月11日中国队和韩国队的世预赛亚洲C组第6轮比赛，然后点…

更新时间：2024-06-07 | 作者：rw | 已阅读：57次 | 标签：视频软件央视影音CBox
熬夜整理！2024年6月即将上映电视剧大全！

根据查找到的资料来看，目前2024年6月即将上映的电视剧有13部，分别是《玫瑰的故事》、《度华年》、《颜心记》、《交错的场景》、《小夫妻》、《锦绣安宁》、《爱情…

更新时间：2024-06-03 | 作者：rw | 已阅读：386次 | 标签：视频播放器腾讯软件
《狐妖小红娘月红篇》观看入口在哪_在线播放平台分享

狐妖小红娘月红篇在爱奇艺这个网络平台能预约观看下载，启动电脑端的爱奇艺，然后软件就会弹出这部最新电视剧的预约提醒，直接点击【立即预约】按钮即可完成预约。而如果没…

更新时间：2024-05-23 | 作者：rw | 已阅读：71次 | 标签：视频播放器视频软件
2024年5月定档待播新剧有几部_即将上映影视剧大盘点

目前2024年5月国内已经定档的待播电视剧有《庆余年第二季》，《狐妖小红娘月红篇》，《看不见影子的少年》，《孤舟》，《墨雨云间》以及《半熟男女》共6部。

更新时间：2024-05-11 | 作者：rw | 已阅读：240次 | 标签：视频播放器腾讯软件
我的阿勒泰完整版在什么地方下载_全集缓存平台揭晓

于适马伊琍新剧我的阿勒泰免费完整版在爱奇艺平台可以下载并观看，目前该剧已经更新至第7集，VIP用户可以观看与下载至第7集，非VIP用户可以免费观看和下载至第3集…

更新时间：2024-05-10 | 作者：rw | 已阅读：124次 | 标签：视频播放器视频软件
井柏然新剧新生不付钱去哪里下载_新生全集缓存平台解析

井柏然新剧新生是网剧但其实也算电视剧，因为网剧也属于电视剧的一种，但它不在电视台频道播出，在互联网视频平台播出。

更新时间：2024-05-07 | 作者：rw | 已阅读：193次 | 标签：视频播放器视频软件
乘风2024在什么地方可以下载_不付钱的下载平台汇总

根据查找到的资料来看，乘风2024就是乘风破浪的姐姐第5季，而在去年的乘风破浪的姐姐第4季的时候，其实它就改名为乘风2023了，而今年的其实就是第五季。

更新时间：2024-04-22 | 作者：rw | 已阅读：76次 | 标签：视频播放器视频软件
谍战剧哈尔滨一九四四在什么地方能一口气看完_不花钱的观看平台整理

2024杨幂秦昊最新谍战大剧哈尔滨一九四四在爱奇艺这个网络视频平台可以不付钱一口气看完合集，该剧将于4月21日晚19:30分上线播出。

更新时间：2024-04-19 | 作者：rw | 已阅读：154次 | 标签：视频播放器视频软件