免费注册


数据仓库概述(一)

2022-04-15 人浏览

数据仓库,英文名称为Data Warehouse,可简写为DWDWH。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

一、         数据仓库与数据库的区别

1、传统的关系型数据库:

拥有相对复杂的表格结构,并且冗余数据较少;针对数据的读和写都有优化;单次操作的数据量较少。主要是基本的、日常的事务处理,较为流行的数据库有MySQLOracle等。

2、数据仓库系统

拥有相对简单的(Denormalized)表格结构,存储结构相对松散,冗余数据较多;一般只是读优化;单次操作的数据(历史数据)较多。主要应用主要是OLAPOn-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,较为流行的数据仓库有AWS RedshiftGreenplumHive等。

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库的数据来源于外部,并且开放给外部应用,他本身并不生产任何数据,同时自身也不需要消费任何的数据这也是为什么叫仓库,而不叫工厂的原因。
二、数据仓库的特点

数据仓库有面向主题、集成、企业范围、时变性、历史性五个特点,主要用于对管理决策过程的支持。

1、 面向主题

面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;

2、 集成

集成性是指数据仓库会将不同源数据库中的数据汇总到一起;

3、 企业范围

数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;

4、 时变性

与操作型数据库相比,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;

5、 历史性

数据仓库通常会保存数据的历史备份,因此就可以从中获取数据历史变化情况,用户在使用时便可将其汇总,生成各历史阶段的数据分析报告。

三、数据仓库的分层结构

数据仓库有分层结构,每个分层结构都有各自的作用,大抵上分层结构分为:贴源层、整合层、集市层、汇总层。

              1、 贴源层

              将所有涉及业务系统的数据抽取到这一层集中存放,同时也会保留历史数据,这一层基本保留了与源系统一样的结构和数据;

              2、 整合层

              会保留最细颗粒的所有历史数据,它面向主题、规范化建模,站在全局的视角上规划主题、整合业务模型,在数据模型维度上完成重大的转变;

              3、 集市层

              面向某个业务主题的多维模型集合。通过预计算、预连接、维度规范化等方式进一步将业务系统的范式模型转变成面向主题的多维模型;

              4、 汇总层

              它应技术或业务需要而建,直面需求,方便展现,同时提高数据的存储性能。

       数据仓库分层架构从整体上来看,是将数据从分散到集中、从细粒度到高度汇总、从业务模型到分析型模型转变的过程,从而更好的为分析型系统提供后台数据支撑。

       四、数据仓库的核心组件

数据仓库的核心组件有四个:源数据库,ETL,数据仓库,前端应用。

              1、 源数据库

       各类源数据库来源于业务系统和其他外部数据源,这些源数据库既为业务系统提供数据支撑,同时也作为数据仓库的数据源。

              2ETL

ETL分别代表:提取extraction、转换transformation、加载load。其中提取过程表示操作型数据库搜集指定数据,转换过程表示将数据转化为指定格式并进行数据清洗保证数据质量,加载过程表示将转换过后满足指定格式的数据加载进数据仓库。

3、 数据仓库

数据仓库会周期不断地从源数据库提取清洗好了的已被消除不一致性的数据。

              4、 前端应用

       和操作型数据库一样,数据仓库通常提供具有直接访问数据仓库功能的前端应用,这些应用也被称为BI(商务智能)应用;

上一篇: 如何写好单元测试?
下一篇: API安全治理

相关文章