240 发简信
IP属地:山西
  • ES索引设计

    1.Shards数量规划 一个index可以被分为多个shards,从而分布到不同的物理机上。Shard的划分结果也会影响索引和查询速度。每个分...

  • Resize,w 360,h 240
    基于日志的CDC方案(Binlog)

    从 ETL 的角度进行分析,一般采集的都是业务库数据,这里使用 MySQL 作为需要采集的数据库,通过 Debezium 把 MySQL Bin...

  • Hive-3.1.2安装、配置与服务启动

    注:所有操作皆以hive用户运行 1.下载hive版本包apache-hive-3.1.2-bin.tar.gz进行解压 2.修改配置文件 配置...

  • Maven私服搭建

    1.介绍 MavenMaven是Apache的一个项目管理工具,它包含了一个项目对象模型 (Project Object Model),一组标准...

  • Kafka Connect REST API 使用手册

    Kafka Connect 作为service提供了 REST API 服务 管理 Kafka Connector Kafka Connect ...

  • Maven deploy 打包到远程仓库以及从远程仓库下载jar包

    1、Maven deploy 打包到远程仓库 mvn deploy 用来将项目工程生成的构件分发到远程Maven仓库。例如: Dreposito...

  • Hbase 客户端批量写入数据

    hbase新版本中引入了 BufferedMutator,可以提供更加高效清晰的写操作。 org.apache.hadoop.hbase.cli...

  • kafka connect启动源码分析

    分布式模式下kafka-connect启动运行: 启动命令:bin/connect-distributed.sh conf/connect-di...

  • Kafka-connect-hdfs源码解析

    写数据流程分析 启动task类方法,HdfsSinkTask.java类中start 初始化DataWriter,DataWriter.java...

个人介绍
程序员,专注大数据技术,开发以后台为主前台为辅,目前投身Hadoop大数据以及Ranger安全开发,活跃在大数据开源社区,同时分享自己的一些经验总结。