一:企业级数仓多事务事实表的重要性 整个企业级的数据仓库,从表的性质来分,有维度表和事实表,事务表又分为多事务事实表,累积快照事实表,周期型快照表,这些不同种类的事实表,其实...
IP属地:宁夏
一:企业级数仓多事务事实表的重要性 整个企业级的数据仓库,从表的性质来分,有维度表和事实表,事务表又分为多事务事实表,累积快照事实表,周期型快照表,这些不同种类的事实表,其实...
0. 引言 Hive中的常用算子包括distinct、join、group by、order by、distribute by、sort by、count等,这些操作符在SQ...
Foreword Flink SQL之所以简洁易用而功能强大,其中一个重要因素就是其拥有丰富的Connector(连接器)组件。Connector是Flink与外部系统交互的...
摘要 本文通过 Scala 语言来实现一个简单的闭包,并且通过 Opcode 来深入理解 Scala 中闭包的实现原理。 一个简单的例子 闭包,简单的理解就是:函数内部的变量...
前言 一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real-time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数...
从19年10月份开始决定写这些东西,不知不觉写了43篇文章,真的没想到自己能够坚持下来,每一篇文章都是从自己工作中总结出来的,每写一个系列都需要翻阅源码、查看资料、验证或者向...
前言 我们都知道,Spark SQL上主要有三种实现join的策略,分别是Broadcast hash join、Shuffle hash join、Sort merge j...
本文主要记录使用SparkStreaming从Kafka里读取数据,并使用Redis保存Offset,并监听Redis中的某个Key是否存在来停止程序,将读取到的数据转换为j...