240 发简信
IP属地:上海
  • Resize,w 360,h 240
    离线多机房方案

    1. 背景 随着公司业务的高速发展,业务数据的生产速度变得越来越快,离线集群规模快速膨胀,既有机房内的机位急剧消耗,在可预见的不久的将来会达到机...

  • Resize,w 360,h 240
    Hadoop Security机制下跨集群日志分离认证问题解决方案

    概述:为解决临时数据导致的集群资源争用问题,我们采用了container日志分离方案,但在Hadoop Security机制下,该方案存在跨集群...

  • Resource Manager YGC停顿过长分析

    动机 昨天又收到有同学因数据(代码)问题被rccd的邮件,领导也一再提醒数据的安全问题。于是审视了一下硬盘文件,以免存在无心之过… 审视过程中发...

  • Resize,w 360,h 240
    Shuffle Service导致NM OOM问题分析(续)

    今天有朋友问之前NodeManager被Shuffle拉挂的问题,借此机会将之前分析的另一文档整理一下分享出来。 现象描述及分析 9月27日10...

  • SparkR on Yarn 安装配制

    刚完成SparkR的支持,顺手记录下流程… 1 编译SparkR 1.1 生成SparkR的lib包 1.2 编译Spark 1.3 local...

  • Resize,w 360,h 240
    Spark SQL中Kryo反序列化问题分析

    1 问题描述 当使用Spark-sql执行 Hive UDF时会发生NullPointerException(NPE),从而导致作业异常终止。...

  • Resize,w 360,h 240
    External Shuffle Service 引起的NodeManager OOM问题分析

    1 现象描述及初步分析 近期公司yarn集群中存在NodeManager因OOM 而挂掉的情况, 且发生OOM前存在大量的Spark Shuf...

  • Spark on Yarn 之Python环境定制

    1 动机 不同用户的应用程序使用的python版本及需要的python依赖可能存在不同,若每次缺少依赖都请op去update所有节点,对于大集群...

  • Resize,w 360,h 240
    Spark on Yarn之Executor内存管理

    本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor ...