数据仓库和数据库

数据库和数据仓库各自的应用场景

两种数据处理模式

  • 操作型数据处理(OLTP),是指对数据库联机的日常操作,主要完成数据的收集、整理、存储以及增删查改等操作,主要由一般工作人员和基层管理人员完成。
  • 分析型数据处理(OLAP),是指对数据的再加工,通常是对海量的历史数据查询和分析,从中获取信息,主要由分析人员和中高级管理人员完成。
    ** 总结:数据库和数据仓库分工不同,数据库存放操作型数据,用于操作型数据处理,关注的事务处理的效率;数据仓库存放分析型数据,用于分析型数据处理,关注的是分析和查询的效率;两者功能不同、用途不同,因此结构也会不同。**

数据仓库的定义

简单地说,数据仓库就是一种面向决策主题的,从多个数据源集成数据的,拥有当前数据、细节级和综合级的历史数据的,以查询和分析为主的数据库系统,目的是支持企业决策。

数据仓库的组成要素

  • 数据源:数据源就是提供初始数据的地方,是数据仓库系统的基础。通常包括企业内部数据和外部数据。内部数据包括各种操作型数据库中的数据以及文档数据,外部数据包括各类法律法规、市场信息、竞争对手信息以及各种统计数据和文档(包括各种爬虫数据)。
  • 集成工具:即ETL工具。ETL是Extract-Transform-Load的缩写,包括数据抽取(Extracting)、数据清洗(Cleaning)、数据转换(Transforming)、数据加载(Loading)等工作。具体地说
    • 数据抽取就是从不同数据源中选择数据仓库所需要的数据。这些数据可能具有的特点是:来自不同平台、不同结构、不同类型等。
  • 数据清洗:由于数据来自于不同的数据源,因此数据质量难以保证,比如存在数据不一致性、量纲不同、值缺失等情况,就需要对抽取到的数据进行清洗。
  • 数据转换:就是将面向应用的数据转换成面向主题的数据。
  • 数据加载:就是将数据装入到数据仓库中。
  • 数据仓库服务器:数据仓库服务器负责管理数据仓库中的数据,为整个企业的数据分析提供一个完整的、统一的视图。
  • OLAP服务器:使用OLAP服务器对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层级的数据分析。
  • 数据集市:数据集市是一个小型的数据仓库,通常具有较少的主题域,是部门级的数据仓库,面向部门级的应用。
  • 前台分析工具:包括各种数据分析工具,如报表工具、OLAP分析工具、数据挖掘工具。各种分析工具既可以从数据仓库中获取数据,还可以从数据集市中获取数据。
  • 元数据:元数据就是整个数据仓库的所有描述性信息,即关于数据的数据。ETL负责建立元数据。

关于OLAP的介绍可以参考Focus@Data的博客内容。(关键词:多维数据模型,事实表,维度表事实表通过维度表主码值与维度表连接)

常用的多维数据模型

  • 星型模型
  • 雪花模型
  • 事实群模型

常用的多维分析操作

  • 多维分析基础——聚集函数:聚集就是对细节数据进行综合的过程。
    最常用的五种聚集函数:求和(sum)、计数(count)、最大值(max)、最小值(min)、平均值(average),还有求中间值(median)、排序(rank)。
  • 切片(slice):就是在数据方体的某一维上选定一个维成员的动作,即限定多维数组某一个维度只取一个特定的值。比如地区维,选定“北京”这一个维成员,这样就得到一个切片。
  • 切块(dice):就是在数据方体的某一维上选定某个区间的全部维成员的动作,即限定多维数组某一个维度只取一定区间的值。
    比如地区维,选定“北京”、“上海”、“杭州”,这样就得到一个切块。当这一个区间只有一个维成员时,就得到一个切片。因此切块可以由多个切片操作叠合而成。
    (4)旋转(rotate):改变数据方体维的次序的动作称为旋转。旋转操作对数据不做任何改变,只是改变立方体摆放的视角。
  • (5)下钻(drill down):下钻操作就是在某个分析的过程中,用户可能需要从更多的维或者某个维的更细层次上观察数据,这时候就需要通过下钻操作来实现。比如将日期维从季度层次下钻到月份层次。下钻前用户只能看到季度数据,而下钻后就可以看到月份数据。下钻操作主要有两种类型:一是在现有的维下钻取更细节一层的数据。比如日期维上的季度数据下钻到月份数据。二是增加更多的维,比如现在只分析了三个维度的数据,但是问题仍然无法解决,这时候就需要更多维的数据。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容