PowerBI中的模型关系相信小伙伴们都不会感觉到陌生,因为一份优秀的报表无法离开数据模型的支撑。
对比其它BI类工具而言,白茶认为其建模功能才是最为突出的功能点。
模型关系类型
PowerBI中我们常用的模型关系一共包含5类:
一对一关系
(1:1)
一对多关系
(1:*)
多对多关系
(*:*)
虚线关系
(1:N)
无关系
多对一
关系在白茶看来与一对多其实没有太大区别,这里就不单独罗列了。
一对一
一对一关系通常表示维度表中的所有维度与事实表中都是一一对应的。
假设Dim表中只有3行数据,那么与之对应的Fact表也是只有3行数据,这种场景在实际应用中并不多见。
一对一关系可以设置筛选器方向为交叉筛选,即除了利用Dim表来筛选Fact表以外,用Fact表也可以反向来筛选Dim表。
如果想避免一对一情况下Fact表对Dim进行筛选,可以将模型关系更改为一对多
,再将模型筛选器方向改为单向
即可。
一对多
一对多关系可以说是模型关系中最常见的一种,也是使用频率最高的一种了,通常表示Fact表中的多行记录属性在Dim表中均可以找到对应项,也是主流模型的设计思路。
也因此派生出了两种模型设计思路:星型模型
和雪花模型
。
多对多
多对多的关系通常发生在数据颗粒度不统一
的场景,例如Fact表中最细的颗粒度包含产品、门店、销售、地区,而Target目标只针对门店或者地区。
那么这种情况下,将Fact和Target在同一个上下文中展示,且包含销售颗粒度的时候,则相同门店或相同地区的销售其Target值是一致的。
类似于这种场景,也有可能是两张Fact表相关联,需要注意交叉筛选器方向
。
虚线关系
我们在创建模型关系时,一旦勾选了使此关系可用
,那么创建的模型关系都属于实线关系
,通常也叫激活的关系
。
与之对应的,取消使此关系可用
的模型关系则为虚线关系
,也叫未激活的关系
。
这种情况通常发生在Fact表中存在双属性列与同一Dim表建立关系时。
例如:
Fact表中既有订单日期,也有发货日期和送达日期,都需要与日期表建立关联,模型之间只能有1条激活关系,那么剩下的2条关系则处于未激活的状态。
这个场景在实际应用中并不多见,面对未激活的关系,我们可以在构建DAX函数时,通过USERELATIONSHIP
函数来激活其他关系。
无关系
无关系其实比较好理解,就是表与表之间,并不存在任何关系
。
对比上面的其他类型关系的使用率,无关系仅次于一对多。
是的,你没看错,无关系使用频率非常的高。
无关系适用场景非常的多,在字段参数功能发布之前,我们需要创建动态轴,需要创建多属性维度表时,需要无关系。
服装场景下,需要筛选某一颜色的产品销量,且单个SKU是包含多颜色时,需要无关系。
RLS权限设计时,权限表与维度表之间也是无关系。
而在DAX函数中,可以用来处理无关系的函数,也非常的多,比如IN、TREATAS、INTERSECT、FIND、SEARCH、VAR
等,这些其实都可以用来处理无关系。
当然,从性能的角度出发,虽然TREATAS
函数某些场合下表现接近于实线关系,但还是推荐使用实线关系。
星型模型与雪花模型
星型模型
星型模型表示Fact表位于中心,Dim表直接与事实表建立模型关系。
对于DAX计算来说,星型模型其实适用大部分场景,而且很大程度上可以避免模型设计上带来的性能损耗
。
雪花模型
雪花模型表示Dim表经过规范化处理,多个Dim表通过串联的方式,与Fact表关联到一块,单表没有冗余,可以避免数据冗余的存储问题
。
缺点也很明显,在DAX计算的时候,会因为雪花模型导致上下文转化过程中产生性能损耗
。
模型关系注意事项
参照完整性
从概念上来说,参照完整性并不是很好理解,说的通俗一点就是Fact中的维度,Dim表中不存在
。
如上图所示,Fact表存在的类别在Dim表是不存在的,因此这些行值所对应的数据都会被汇总归类到空白
。
如果Dim表中的类别本身就包含空白选项,那么因为参照完整性的空白数据会与空白选项的数据合并
。
这其实是不利于后期运维的,因此要尽量保证Dim表与Fact表的维度都是完整的。
有趣的是,VALUES参照完整性
,DISTINCT不考虑参照完整性
,感兴趣的小伙伴可以自己动手测试。
注意,因为模型关系产生的扩展表相关问题这里就不赘述了。
日期表
日期表单独拿出来讲的原因就是因为它太重要了,日常开发中用户需要的指标基本上都无法脱离同环比,因此日期表是重中之重。
日期列需要注意日期和日期/时间不是一回事
能使用自己创建的日期表,就不要使用内部自动生成的
能使用DAX函数自己计算时间指标,就不要使用时间智能函数
能标记日期表就进行标记,可以避免模型中出现隐藏的自动日期表
文件设置中的
新文件的自动日期/时间
和自动关系
一定要关闭
以下是利用DAX创建日期表的通用代码,可以根据Fact日期创建对应的日期表:
Dim_Date =
GENERATE (
CALENDAR ( MIN ( 'Fact'[DATE] ), MAX ( 'Fact'[DATE] ) ),
//'Fact'[DATE]需要根据自身情况调整
VAR DA = [Date]
VAR YEAR =
YEAR ( DA )
VAR QUARTER =
"Q" & FORMAT ( DA, "Q" )
VAR MONTE =
FORMAT ( DA, "MM" )
VAR DAY =
DAY ( DA )
RETURN
ROW (
"Year", YEAR,
"Quarter", QUARTER,
"Month", MONTE,
"DayOfMonth", DAY,
"YearQuarter", YEAR & QUARTER,
"YearMonth", YEAR & MONTE,
"YearMonthCount",
YEAR * 12 + MONTE
)
)
安全筛选器
当模型关系为一对一或者多对多时,此时交叉筛选器方向
选择双向,则可以选择是否在两个方向上应用安全筛选器
。
如图,我们现在添加了RLS
权限,设定Fact_Sales
表的Key等于A。
模型未应用安全筛选器,其结果如下:
模型应用了安全筛选器,其结果如下:
不开安全筛选器,则RLS仅对
单表生效
,打开安全筛选器,则RLS会对双端表生效
。
题外话
某些场景下,Fact表中可能缺少某些Dim表属性,需要创建列将Dim与Fact表关联,这种场景下切忌将列设置为Blank
或Null
,一定要将列设置一个默认值
,否则有可能造成云端数据刷新问题
。