「大数据」Hana入门
前言
SAP HANA(全称SAP High-performance ANalytic Appliance)
是SAP出品的一款基于列式存储的内存数据库软硬件一体的解决方案。
目前接触到的hana是传统公司还在使用SAP技术,故而依赖SAP下的hana数据库,数据中台从该数据库抽取数据一般默认需要它下发给Oracle或者Mysql再进行后续操作。
目前使用SAP(普通小公司用不起)或者Hana数据库的企业应该很少。
PS: 由于SAP的开发者团队很少,所以据了解这类高级开发很多去做外包或者说free的,每个月到手3W,还是不错的
这里归纳总结一下Hana的特点与工作原理
HANA的特点:
- 内存数据库系统:SAP HANA可以把系统所有的数据都载入内存中。因此,与传统的将数据存储在硬盘上的数据库相比,HANA的性能可以提升10~10,000倍。
- 列式存储:HANA使用了列式存储,可以提高内存的使用率和数据的检索效率。
- MPP架构
- 自动压缩数据
- 并行处理高并发:SAP HANA专门针对并行处理做了优化。
- 云计算: X86架构,可以扩展成云数据库。可以运行到VMWare
- 行列混合存储
- 可对接大数据工具:HANA可以对接大数据处理工具(例如Hadoop和R语言)。
列式存储举例:
HANA工作原理
- HANA工作台处理进行 HANA 建模、系统日常管理和监控等操作。同时具备基本的商业BI与报表能力。
- 数据加载:将数据抽取到 SAP HANA。在 HANA 环境下提供了众多的 ETL 工具,
- 使用 SLT 可以实现数据的实时同步抽取。而使用 Data Services 组件可以根据业务需求,定时周期性地从多个数据源抽取最新的业务数据,并将其填充至 HANA 内存中。还可以利用 DXC (Direct Extractor Connection)方式直接抽取 SAP 系统中的标准数据源。
- 对数据源的支持:SAP HANA 支持所有的主流系统的数据源。
- 客户可以使用JDBC、ODBC、Python等调用SAP HANA,提供了丰富的API能力。这里其实R语言几乎用的人就很少了
简化版本:
HANA的系统组成
Name Server(名字服务器):整个 HANA 数据库系统环境中通讯管理,通过 Name Server 可以知道当前 HANA 服务器的部署情况;
Index Server(索引服务器): HANA 核心组件,承担着内存管理、事务管理、元数据管理器及权限认证、多版本并发控制(MVCC)等众多的管理工作;
Statistics Server(统计分析服务器):负责收集所有数据库组件运行的状态、执行效率和资源的消耗状态,还监控 HHANA Studio 的访问,并且返回不同的提示信息给登录的用户;
Pre-processor Server(预处理器服务器)
XS Engine (XS 引擎或 XS Server):可以将持久层的数据模型封装成 HTTP 的方式供外部使用;
Hdbdaemon:以正确的顺序开始或停止其他进程
HANA的吉尼斯纪录
HANA拿到了最大数据仓库12PB的吉尼斯纪录,证明了其强大的数据能力。
下一篇:SAP HANA数据库安装