数据仓库与数据集市之间的区别

作者: Laura McKinney
创建日期: 2 四月 2021
更新日期: 14 可能 2024
Anonim
52 尚硅谷 用户行为数仓 数据集市与数据仓库概念
视频: 52 尚硅谷 用户行为数仓 数据集市与数据仓库概念

内容


数据仓库和数据集市用作 资料储存库 并达到相同的目的这些可以通过它们存储的数据量或信息量来区分。数据仓库与数据集市之间的重要区别在于,数据仓库是一个存储面向信息的数据库以满足决策要求,而数据集市则是整个数据仓库的完整逻辑子集。

简而言之,数据集市是一个范围有限的数据仓库,可以通过汇总和选择数据仓库中的数据或借助源数据系统的不同提取,转换和加载过程来获取其数据。

  1. 比较表
  2. 定义
  3. 关键差异
  4. 结论

比较表

比较依据数据仓库数据库
基本的数据仓库是独立于应用程序的。数据集市特定于决策支持系统应用程序。
系统类型 集中去中心化
数据形式详细总结一下
使用非规范化数据略微归一化。数据高度非规范化。
资料模型自顶向下自下而上
性质灵活,面向数据且使用寿命长。限制性,面向项目和寿命短。
使用的模式类型事实星座星和雪花
易于建造很难建造易于构建

数据仓库的定义

期限 数据仓库 表示时变,面向主题,非易失性以及有助于 做决定 管理过程。或者,它是一个单一站点中从多个源收集的信息存储库,以统一模式存储,该站点允许集成各种应用程序系统。一旦收集到此数据,它便会存储很长时间,因此使用寿命很长,并且可以访问 历史性信息。


因此,数据仓库为用户提供了一个单一的 集成 数据接口,用户可以通过它轻松编写决策支持查询。数据仓库有助于将数据转化为信息。设计数据仓库包括自上而下的方法。

它收集有关整个组织的主题的信息,例如客户,销售,资产,项目,因此其范围是整个企业范围。通常, 事实星座 在其中使用了schema,它涵盖了各种各样的主题。数据仓库不是静态结构,而是 不断发展 不断地。

数据集市的定义

一种 数据库 可以称为数据仓库的子集或与特定用户集合相对应的公司范围数据的子组。数据仓库涉及几个 部门的合乎逻辑的 数据集市,这些数据集市必须在数据说明中保持不变,以确保 健壮性 数据仓库。数据集市是一组集中在一个 单项任务 这些是使用自下而上的方法设计的。

数据集市范围仅限于某些特定的选定主题,因此其范围是整个部门范围内的。这些通常在 低成本 部门服务器。数据集市的实施周期以星期(而不是月份和年份)为单位进行监视。

雪花模式 致力于单主题建模,这就是为什么这些通常在数据集市中使用的原因。虽然,星形模式比雪花模式更受欢迎。根据数据源的不同,数据集市可以分为两种类型: 依赖的独立 数据集市。

  1. 数据仓库独立于应用程序,而数据集市则特定于决策支持系统应用程序。
  2. 数据存储在一个 集中 数据仓库中的存储库。与之相反,数据集市存储数据 分散地 在用户区域中。
  3. 数据仓库包含一个 详细 数据形式。相反,数据集市包含 总结 和选定的数据。
  4. 数据仓库中的数据是 非规范化,而在数据集市的情况下 高度 非正规化的
  5. 数据仓库的建设涉及 自顶向下 方法。相反,在构建数据集市时,自下而上 方法。
  6. 数据仓库是 灵活, 信息导向 和长期存在的性质。相反,数据集市是 限制性的, 面向项目 并且存在时间较短。
  7. 事实星座模式通常用于对数据仓库进行建模,而在数据集市中,星型模式更为流行。

结论

数据仓库提供企业视图,单一和集中式存储系统,固有的体系结构和应用程序独立性,而数据集市则是提供部门视图,分散存储的数据仓库的子集。由于数据仓库非常大且集成在一起,因此发生故障的风险很高,并且很难构建。另一方面,数据集市易于构建,相关的故障风险也较小,但数据集市可能会遇到碎片。