项目介绍
Apache Doris 是一个基于大规模并行处理技术(MPP)的分布式 SQL 数据库。它最初由百度开发,于 2017 年开源,并在 2018 年 8 月加入了 Apache 孵化器。Doris 设计用于处理 PB 级别的大数据集,并能够提供秒级或毫秒级的查询响应。它主要用于多维分析和报表查询,并且具有以下特点:
- 高性能与实时性:Apache Doris 以其极速易用的特点著称,能够快速返回海量数据下的查询结果。它不仅支持高并发的点查询场景,也支持高吞吐的复杂分析场景。
- 简单易用:Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL。这使得用户可以通过各类客户端工具访问 Doris,并支持与多种 BI 工具的无缝对接。
- 列式存储:Doris 采用列式存储,通过按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。
- 多种索引结构:支持多种索引结构,如 Sorted Compound Key Index、Min/Max、Bloom Filter 和 Invert Index,以减少数据的扫描。
- 存储模型多样性:支持多种存储模型,如 Aggregate Key 模型、Unique Key 模型和 Duplicate Key 模型,以适应不同的场景。
- 强一致的物化视图:支持强一致的物化视图,能够自动进行更新和选择,减少维护成本。
- 向量化查询引擎:采用向量化查询引擎,能够大幅减少虚函数调用、提升 Cache 命中率,高效利用 SIMD 指令。
- 自适应查询执行技术:采用自适应查询执行技术,能够根据 Runtime Statistics 动态调整执行计划。
Doris 的整体架构非常简洁,主要包括前端(Frontend)和后端(Backend)两种进程。前端负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作,而后端负责数据存储、查询计划的执行。这两类进程都是可以横向扩展的,支持到数百台机器,数十 PB 的存储容量。
Apache Doris 的开源和社区支持,使其成为一个受欢迎的数据库选择,特别是在需要高性能和实时数据分析的场景中 。
Apache Doris 是一个基于大规模并行处理技术(MPP)的分布式 SQL 数据库,适合多种场景,包括:
- 实时看板:Apache Doris 可以快速处理实时数据,生成实时报表,适用于需要实时数据分析和展示的场景。
- 企业内部分析师和管理者的报表:Apache Doris 提供高性能的数据查询能力,支持复杂的数据分析,适用于企业内部的数据分析和决策支持。
- 面向客户的高并发报表分析:Apache Doris 能够支持高并发查询,适用于面向客户的数据分析和报表服务。
- 统一数仓构建:Apache Doris 支持多模型存储,适用于构建统一的数据仓库。
- 数据湖联邦查询加速:Apache Doris 能够与数据湖进行联邦查询,加速数据湖的数据分析。
- 在线分析处理(OLAP):Apache Doris 支持高性能的 OLAP 查询,适用于需要进行多维数据分析的场景。
- 即席查询:Apache Doris 提供了即席查询的能力,适用于需要快速响应的查询场景。
- 大数据处理:Apache Doris 能够处理 PB 级别的大数据集,适用于大数据处理和分析的场景。
- 数据仓库:Apache Doris 支持数据仓库的建设,适用于构建数据仓库的场景。
- 数据湖:Apache Doris 能够与数据湖进行对接,适用于数据湖的数据分析场景。
Apache Doris 适用于多种场景,特别是需要高性能和实时数据分析的场景。
Apache Doris 在报表分析方面具有以下特点:
- 高性能查询:Apache Doris 支持高并发的点查询和复杂分析查询,能够快速返回海量数据下的查询结果,适用于对查询性能要求较高的报表分析场景。
- 实时数据分析:Doris 支持实时数据更新和查询,能够处理实时数据流,生成实时报表,适用于需要实时数据分析的场景。
- 多维分析:Doris 支持多维数据分析,能够对数据进行切片、切块、钻取等操作,适用于需要进行多维分析的报表场景。
- 复杂查询支持:Doris 支持复杂的 SQL 查询,包括聚合、分组、排序、连接等,适用于需要进行复杂数据分析的报表场景。
- 多种存储模型:Doris 支持多种存储模型,如聚合键模型、唯一键模型和重复键模型,能够根据不同的场景选择合适的存储模型,提高查询效率。
- 强一致的物化视图:Doris 支持强一致的物化视图,能够自动进行更新和选择,减少维护成本,适用于需要进行复杂查询的报表场景。
- 向量化查询引擎:Doris 采用向量化查询引擎,能够大幅减少虚函数调用、提升 Cache 命中率,高效利用 SIMD 指令,适用于需要进行高性能查询的报表场景。
- 自适应查询执行技术:Doris 采用自适应查询执行技术,能够根据 Runtime Statistics 动态调整执行计划,适用于需要进行复杂查询的报表场景。
- 兼容性:Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL,适用于需要与现有系统兼容的报表场景。
- 易用性:Doris 提供了简单易用的工具,如通过各类客户端工具访问 Doris,支持与多种 BI 工具的无缝对接,适用于需要快速上手和使用的报表场景。
Apache Doris 在报表分析方面具有高性能、实时性、多维分析、复杂查询支持、多种存储模型、强一致的物化视图、向量化查询引擎、自适应查询执行技术、兼容性和易用性等特点,适用于需要进行高性能和实时数据分析的报表场景。
在使用之前你还需要了解Apache Doris的部署方式以及软硬件要求,不过不用担心,Doris官方提供了非常详尽的中文文档,可以帮助大家快速上手。
欢迎点赞+转发+关注!大家的支持是我分享最大的动力!!!
官网:https://doris.apache.org/
源代码:
http://www.gitpp.com/plugplo/doris
欢迎点赞+转发+关注!大家的支持是我分享最大的动力!!!