一、ClickHouse的表引擎

表引擎体系，包括合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中，又属合并树（MergeTree）表引擎及其家族系列（*MergeTree）最为强大。

1、MergeTree的创建方式与存储结构

MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改。为了避免片段过多，ClickHouse会通过后台线程，定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。

MergeTree拥有主键，但是它的主键却没有唯一键的约束，因此即便多行数据的主键相同，它们还是能够被正常写入。

ReplacingMergeTree就是为了数据去重而设计的，它能够在合并分区时删除重复的数据。但是只能在一定程度上去重，这是因为ReplacingMergeTree是以分区为单位删除重复数据的。只有在相同的数据分区内重复的数据才可以被删除，而不同数据分区之间的重复数据依然不能被剔除。

为了解决数据表容量的问题，引入了数据分片，一张分片表有两部分组成：本地表和分布式表

本地表通常以_local为后缀进行命名，一张本地表对应一个数据分片。与传统关系型数据库不同的是，ClickHouse 是分布式系统，如何创建分布式表呢？

ClickHouse 的设计是：

这样用户在访问分布式表时，ClickHouse 会自动根据集群架构信息，把请求转发给对应的本地表。

业务中常见的ETL使用场景举例：