作者 |TMH_ITBOY原文| https://blog.csdn.net/LLJJYY001/article/details/113994130 前言 Hive作为大数...
作者 |TMH_ITBOY原文| https://blog.csdn.net/LLJJYY001/article/details/113994130 前言 Hive作为大数...
1、集群的最主要瓶颈 磁盘IO,网络带宽 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1)Zooke...
前言 在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新...
前言 在日常开发过程中使用kafka来实限流削峰作用但是往往kafka会存放多份副本来防止数据丢失,那你知道他的机制是什么样的吗?本篇文章就带给大家讲解下。 一、Kafka...
前言 Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 ...
前言 最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例,仅供参考。 案例一、小型公司 首先我...
前言 在做实时数仓时,数据量往往比较大的,如果使用Canal来监听MySQL的状态当Canal 是单节服务时,服务器挂掉是就会造成数据丢失,这时Canal恰好可以配置HA这...
前言 上篇文章给大家讲解了如何安装一个Canal,以及讲解了一部分的原理,今天我们就来深度聊一聊Canal的工作流程,以及他是怎么工作的,以及架构师怎样的。 首...
前言 当我们做一个项目时往往都需要选择该用什么技术。这一部分不是我们普通员工想的,而是架构师会根据客户的需求选择出合适的技术。当选择合适的技术会让我们的开发事半功倍。下面我...
前言 我们在做实时数仓时数据往往都是保存到数据库中例如MySQL,当有一条数据新增或修改需要马上将数据同步到kafka中或其他的数据库中,这时候我们需要借助阿里开源出来的C...
前言 环境所依赖的pom文件 一、Avro提供的技术支持包括以下五个方面: 优秀的数据结构; 一个紧凑的,快速的,二进制数据格式; 一个容器文件,用来存储持久化数据; RPC...
前言 一、Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM empl...
前言 我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开...
前言 今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解[http://mp.weixin.qq.com/s...
前言 举例说明 一、SCD问题的几种解决方案 以下为解决缓慢变化维问题的几种办法: 保留原始值 改写属性值 增加维度新行 增加维度新列 添加历史表 1.1 保留原始值 某一个...
前言 一、为什么要分层 分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因: 清晰数据结构: 每一个数据分层都有它的作用域,这样...
前言 今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。 一、维度建模基本...
今天给大家分享一些我自己都在使用的软件,使用这些软件无论是工作还是学习,我感觉我的工作效率提升了不知一点点,好了废话就不多说了,喜欢的朋友加个一键三连。 一、IDM 下载工具...
前言 1 Flink基础(适合初入职场) 简单介绍一下 Flink Flink相比传统的Spark Streaming区别? Flink的组件栈有哪些? Flink 的运行必...
前言 Flink Table 和 SQL 内置了很多 SQL 中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。 一、系统内置函数 Flin...