主要用来理解yarn如何运行 1.4 源代码目录结构 bin 基本脚本 etc 配置信息 include 编程库头文件 lib 动态和静态库 l...
收录了22篇文章 · 10人关注
主要用来理解yarn如何运行 1.4 源代码目录结构 bin 基本脚本 etc 配置信息 include 编程库头文件 lib 动态和静态库 l...
ZooKeeper服务命令 启动ZK服务: sh bin/zkServer.sh start查看ZK服务状态: sh bin/zkServer....
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 S...
目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录声明, 由于spark发展日新月异, 在网上查看好多博客,都...
第五章 数据处理与执行 5.3 RDD转换与DGA 数据处理模型RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap fi...
欧式距离 曼哈顿距离 切比雪夫距离 余弦夹角 线性回归 (欧氏距离) scipy sigmode 函数 numpy 的 revel 和 flat...
使用场景 web请求日志 对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。 方法:针对请求源ip...
分类指标 1.混淆矩阵 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价指标有总体精度、制图精度、用户...
celery 分布式任务队列工具 Celery是一个分布式任务队列工具,是一个异步的任务队列基于分布式消息传递 基本 Broker: 消息队列使...
专题公告
详细记录我学习数据挖掘中的点点滴滴