大数据老哥 - 简书

发简信

大数据老哥

0
关注
106
粉丝
21
文章
44330

字数
51

收获喜欢
25

总资产

IP属地：上海

大数据老哥

大厂都在用的Hive优化
作者 |TMH_ITBOY原文| https://blog.csdn.net/LLJJYY001/article/details/113994130 前言 Hive作为大数...

737 0 5
大数据老哥

最新Hadoop的面试题总结
1、集群的最主要瓶颈磁盘IO,网络带宽 2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1）Zooke...

1131 0 8

大数据老哥

企业是如何解决HDFS单点问题的？
前言在早期Hadoop刚出来的时候是没有解决HDFS单点问题的，这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪，这是非常危险的于是在Hadoop不断的更新...

275 0 1
大数据老哥

你都知道那些Kafka副本机制？
前言在日常开发过程中使用kafka来实限流削峰作用但是往往kafka会存放多份副本来防止数据丢失，那你知道他的机制是什么样的吗？本篇文章就带给大家讲解下。一、Kafka...

881 0 4
大数据老哥

HDFS是如何设计架构的？
前言 Hadoop到目前为止发展已经有10余年，版本经过无数次的更新迭代，目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 ...

267 0 0
大数据老哥

企业是如何选择技术栈来做离线数仓
前言最近在跟一位粉丝聊天，聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例，仅供参考。案例一、小型公司首先我...

963 0 2
大数据老哥

原来Canal也可以做HA?
前言在做实时数仓时，数据量往往比较大的，如果使用Canal来监听MySQL的状态当Canal 是单节服务时，服务器挂掉是就会造成数据丢失，这时Canal恰好可以配置HA这...

904 0 0

大数据老哥

万字带你深入阿里开源的Canal工作原理
前言上篇文章给大家讲解了如何安装一个Canal,以及讲解了一部分的原理，今天我们就来深度聊一聊Canal的工作流程，以及他是怎么工作的，以及架构师怎样的。首...

1132 0 1
大数据老哥

实时数仓|架构设计与技术选型
前言当我们做一个项目时往往都需要选择该用什么技术。这一部分不是我们普通员工想的，而是架构师会根据客户的需求选择出合适的技术。当选择合适的技术会让我们的开发事半功倍。下面我...

1177 0 6
大数据老哥

一文带你快速入门Canal，看这篇就够了！
前言我们在做实时数仓时数据往往都是保存到数据库中例如MySQL，当有一条数据新增或修改需要马上将数据同步到kafka中或其他的数据库中，这时候我们需要借助阿里开源出来的C...

1193 0 0
大数据老哥

Flink 自定义Avro序列化(Source/Sink)到kafka中
前言环境所依赖的pom文件一、Avro提供的技术支持包括以下五个方面：优秀的数据结构；一个紧凑的，快速的，二进制数据格式；一个容器文件，用来存储持久化数据； RPC...

1228 0 1
大数据老哥

Hive的调优你都知道那些？
前言一、Fetch抓取（Hive可以避免进行MapReduce） Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM empl...

238 0 1

大数据老哥

一文教你学会Hive视图和索引
前言我们在写HQL有没有遇到过数据量特别大的时候比如，使用HQL 处理起来非常复杂，非常慢，这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了，我们直接开...

418 0 0
大数据老哥

深入讲解拉链表，还怕面试官问？
前言今天给大家分享一个面试中经常会被问到的拉链表，我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解[http://mp.weixin.qq.com/s...

686 0 1
大数据老哥

数仓缓慢变化维深度讲解
前言举例说明一、SCD问题的几种解决方案以下为解决缓慢变化维问题的几种办法：保留原始值改写属性值增加维度新行增加维度新列添加历史表 1.1 保留原始值某一个...

2330 0 1
大数据老哥

数据仓库分层架构深度讲解
前言一、为什么要分层分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：清晰数据结构：每一个数据分层都有它的作用域，这样...

3082 0 13
大数据老哥

数仓模型设计详细讲解
前言今天给大家分享下数仓中的模型设计，一个好的数仓项目首先看一下它的架构以及他所用到的模型，它们使用的模型也都是非常巧妙的，好了，我们话不说到直接开始。一、维度建模基本...

1199 0 3

大数据老哥

作为程序员必备的十款软件
今天给大家分享一些我自己都在使用的软件，使用这些软件无论是工作还是学习，我感觉我的工作效率提升了不知一点点，好了废话就不多说了，喜欢的朋友加个一键三连。一、IDM 下载工具...

2694 0 0
大数据老哥

那些被问懵的Flink面试题
前言 1 Flink基础（适合初入职场）简单介绍一下 Flink Flink相比传统的Spark Streaming区别? Flink的组件栈有哪些？ Flink 的运行必...

2345 1 13
大数据老哥

FlinkSQL内置了这么多函数你都使用过吗？
前言 Flink Table 和 SQL 内置了很多 SQL 中支持的函数；如果有无法满足的需要，则可以实现用户自定义的函数（UDF）来解决。一、系统内置函数 Flin...

6953 0 1

个人介绍

我是一名大数据开发工程师，我在简书会分享一些我平常在工作用到的技术，以及后面会分享一些源码内容。我也在GitHub上搭建了我自己的代码仓库，里面有优秀的项目会记录我是如何从0到1走向大数据架构师（https://github.com/lhh2002），我也开通的我自己的公众号【大数据老哥】优秀的文章会第一时间在公众号发布，欢迎大家来观看。