240 发简信
IP属地:上海
  • Hudi 源码之数据写入逻辑

    背景 本篇以Flink操作Hudi表为例,分析COW表和MOR表的upsert以及insert操作详细的执行流程。 StreamWriteFunction Hudi Flin...

  • 分析的挺好的,但是在实际生产上不建议使用这个参数,因为资源你可以释放,但是并不一定可以很随意的申请到特别是在集群的资源隔离做的不好的情况下,遇到了资源紧张的时候,很可能会无法申请到资源,导致任务的滞后,甚至是失败

  • 120
    离线多机房方案

    1. 背景 随着公司业务的高速发展,业务数据的生产速度变得越来越快,离线集群规模快速膨胀,既有机房内的机位急剧消耗,在可预见的不久的将来会达到机房容量上限,阻塞业务的发展。因...

  • 120
    Hive Format异常分析

    最近在执行Hive insert/select语句的过程碰到下面这种类型的异常: 本文已上述的错误为切入点,分析下异常原因以及Hive相关的关于Format的异常。主要内容如...

  • 赞, 也学着爬爬购物网站…

    京东商城大规模爬虫

    一开始看京东商城的商品,发现很多信息都在网页源代码上,以为会比淘宝的大规模爬取简单点,结果被京东欺骗了无数次,整整写了差不多六个小时,真是坑爹啊。先贴上github地址:ht...

  • 120
    Hadoop Security机制下跨集群日志分离认证问题解决方案

    概述:为解决临时数据导致的集群资源争用问题,我们采用了container日志分离方案,但在Hadoop Security机制下,该方案存在跨集群的认证问题。经过对Hadoop...

  • @金刚a猩猩 2.7.2

    Resource Manager YGC停顿过长分析

    动机 昨天又收到有同学因数据(代码)问题被rccd的邮件,领导也一再提醒数据的安全问题。于是审视了一下硬盘文件,以免存在无心之过… 审视过程中发现了部分日志信息及排错过程中的...

  • Resource Manager YGC停顿过长分析

    动机 昨天又收到有同学因数据(代码)问题被rccd的邮件,领导也一再提醒数据的安全问题。于是审视了一下硬盘文件,以免存在无心之过… 审视过程中发现了部分日志信息及排错过程中的...

  • 120
    Shuffle Service导致NM OOM问题分析(续)

    今天有朋友问之前NodeManager被Shuffle拉挂的问题,借此机会将之前分析的另一文档整理一下分享出来。 现象描述及分析 9月27日10时左右,编号为2611节点执行...

  • @JeremySun eden , survivor 和 old是gc用的分区概念, 而storage 和 execution、user memory是从Spark Task使用的角度起的“逻辑名称”…

    Spark on Yarn之Executor内存管理

    本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内...

  • SparkR on Yarn 安装配制

    刚完成SparkR的支持,顺手记录下流程… 1 编译SparkR 1.1 生成SparkR的lib包 1.2 编译Spark 1.3 local模式运行SparkR 测试用例...

  • 120
    Spark SQL中Kryo反序列化问题分析

    1 问题描述 当使用Spark-sql执行 Hive UDF时会发生NullPointerException(NPE),从而导致作业异常终止。NPE具体堆栈信息如下: 2 ...