1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求 DataNode(DN)存储实际的数据块...
1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求 DataNode(DN)存储实际的数据块...
最近很多小伙伴跟我说,自己学了不少JVM的调优知识,但是在实际工作中却不知道何时对JVM进行调优。今天,我就为大家介绍几种JVM调优的场景。 在阅读本文时,假定大家已经了解了...
一、 Geospark安装: 我采用的是gradle安装,安装环境是Spark3.0.3+Scala.2.12.3 二、 Geospark 能够读取文件的结构有:CSV,TS...
说明: spark sql的字段血缘关系具体实现代码和使用方法见GitHub:RHobart/spark-lineage-parent: 跟踪Spark-sql中的字段血缘关...
DeltaLake支持大部分由Spark DataFrame提供的Opition选项 SparkSession的配置 创建表 DeltaLake支持通过路径或者元数据查询表,...
背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供了一个用于打印数据血缘的钩子类...
https://www.freesion.com/article/1176553841/ impala数据血缘与数据地图系列: 1. 解析impala与hive的血缘日志 2...
相关说明: Presto官网: Presto | Distributed SQL Query Engine for Big Data (prestodb.io)[https:...
一直以来都是使用spark structstreaming 读取kafka数据,最近一直在尝试用flink读取kafka数据。 开发环境配置: kafka + flink +...