3 数据仓库基础之数据仓库的特征

在之前的讨论中,我们探讨了数据仓库与传统数据库的关键区别。这让我们了解了数据仓库的独特性和必要性。今天,我们将进一步深入,探索数据仓库的几个核心特征。这些特征不仅展示了数据仓库的设计理念,也为后续的架构讨论奠定了基础。

1. 面向主题

数据仓库是一个面向主题的系统,这意味着数据的组织是围绕关键业务主题或领域来构建的。例如,在零售行业,我们可能会关注诸如“销售”、“库存”和“客户”这样的主题。与传统数据库相比,它通常是围绕 #{“事务”、“记录”} 来组织的,而数据仓库则可能更关注维度和事实数据。

案例:
考虑一个零售公司的数据仓库,可能会设计数据表如下:

  • 销售事实表:记录每笔交易的销售数量、销售金额等
  • 客户维度表:记录客户的个人信息,如姓名、地址、联系方式
  • 时间维度表:记录交易的日期、周、月等信息

这样,数据仓库的设计思路就围绕着业务的“主题”展开,便于用户分析。

2. 时间变化性

数据仓库中的数据是随时间变化而进行管理的。这意味着数据仓库保存的是历史数据,并且通常是不可更改的。例如,虽然每个月的销售数据可能会不断更新,但历史的数据记录仍会被保留,允许用户进行时间序列分析。

案例:
假设我们有一张“销售事实表”,在每次销售结束后新增一条记录,而不是修改早先的记录。这样,我们可以轻松地查询到某个月的销售额,包括前几个月的记录。

1
2
3
SELECT SUM(销售金额), MONTH(交易时间)
FROM 销售事实表
GROUP BY MONTH(交易时间);

通过这样的查询,我们能够了解不同时间段内的销售变化。

3. 非易失性

数据仓库一旦被加载,数据不会被频繁修改或删除。这种特性使得数据仓库中的数据更为稳定,用户在分析时不必担心数据的实时性问题。对于数据仓库来说,数据的“非易失性”保障了对历史数据的长期保存。

案例:
在航空公司数据仓库中,航班记录可能会以“增量”的方式进行更新,但原始的航班数据会一直保留。每次更改或新记录的到来,都只是以新的条目形式进行,而不是修改旧条目。

1
2
INSERT INTO 航班事实表 (航班号, 日期, 乘客数量)
VALUES ('CA123', '2023-01-20', 180);

4. 结构化与非结构化数据

数据仓库可以集成来自不同来源的数据,包括结构化数据(如关系型数据库中的表)和非结构化数据(如文档、文本文件等)。这一特征使得数据仓库能够更全面地提供对整个组织的数据视图。

案例:
在一个金融服务公司中,数据仓库可能会结合客户交易记录(结构化数据)和客户反馈评论(非结构化数据)。为了处理这两种不同形式的数据,通常采用数据湖与数据仓库的结合方式。

5. 支持高效查询与分析

数据仓库设计为支持复杂查询和综合分析。为了满足这一要求,数据仓库通常采用星型或雪花型模式,将数据结构化以提高查询性能。这使得分析师和业务用户能够迅速获取到所需的信息。

案例:
在一个电商平台中,分析用户购买行为的查询可能如下:

1
2
3
4
5
SELECT 客户维度.姓名, SUM(销售事实表.销售金额) AS 总销售额
FROM 销售事实表
JOIN 客户维度 ON 销售事实表.客户ID = 客户维度.客户ID
GROUP BY 客户维度.姓名
ORDER BY 总销售额 DESC;

通过这样的查询,用户能够快速找出哪些客户对销售贡献最大。

结论

了解数据仓库的特征,是构建和维护一个高效、有用的数据仓库的基础。这些特征不仅决定了数据仓库的设计和实现方式,也为后续的架构设计提供了重要指导。在下一篇中,我们将探讨数据仓库的三层架构,帮助您进一步理解如何实现这些特征,以构建高效的数据仓库系统。

3 数据仓库基础之数据仓库的特征

https://zglg.work/data-warehouse-zero/3/

作者

AI免费学习网(郭震)

发布于

2024-08-11

更新于

2024-08-12

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论