Nathan Marz的大作Big Data: Principles and best practices of scalable real-time data system...
整理之前内网学习的笔记,现在看来也很有价值 1.留存的基础知识 4月25号有110个新用户访问过来,1天后,有29个继续访问。也就说说留存只有29。以此类推。 为什么要关注留...
说到状态管理, 必须要提一下 checkpoint, Flink 中每个函数和算子都可以是有状态的, 有状态的函数需要存储每个事件的处理过程数据, 也因为引入状态, 就不得不...
First Steps to Scala,Scala 入门教程。 A Scala Tutorial,一篇面向 Java 程序员的 Scala 教程。 Scala By Exa...
对于非清洗数据类的任务, 时间窗口的使用是很有必要的. 和spark不同, 需要时刻谨记, 这是一个流, 这是一个流, 这是一个流.
1 注意import的StreamExecutionEnvironment // java 的头是 import org.apache.flink.streaming.api...
首先需要编程应用的四层抽象: 最底下的一层对用户是不可见的, 通过ProcessFunction集成到DataStream API. 我们的编程对象也都是DataStream...
Decision Tree (决策树/判定树)是监督学习中的分类算法, 通常预测和分类算法的评估主要体现在: 准确率:预测的准确与否是本算法的核心问题,其在征信系统,商品购买...
在谈Flink之前, 我们在一个更高的层面上来理解一下数据的处理, 包括数据类型和处理模型两个大的方面. 首先, 是数据的类型 我们把数据处理分成两种模型: 无边界的数据: ...
包括内容: IK分词组件的添加和配置 索引建立及高亮搜索示例 添加自定义分词的测试 版本: ES - 2.4.5, IK - 1.10.5ps: 5.0的版本, 配置和验证代...
这里主要记录一下集群使用用碰到过的要点, 以及对性能优化比较有意义的知识点. 会逐渐完善拆解 内存: 首先应该记住, 必须给予Elasticsearch足够的内存,而且是物理...
想通过这篇分享, 总结下用过的一些数据可视化方式, 主要是想分享下图表的一些使用心得. 数据可视化其实是一门挺有深度的学问, 也看过一些书. 这里的内容还是从基本的图表解释,...
* ES集群会在生产环境被长期实践, 一些重要概念, 包括应用和优化调试方法值得记录分享 * 所以, 会有关于ES的一系列分享, 先从基础开始, 成体系了后再加目录 ES: ...