在大数据面前,JVM的内存结构和GC机制往往会成为掣肘 1. 对象开销:在HotSpot中,每个对象占用的内存空间必须是8的倍数。这就导致每个对象占据的内存空间包含三部分:头...
2018年12月23日,北京,晴,微冷,一年之末。随手翻阅16、17年总结,不禁长舒一口气,我终究没辜负当时的自己,从16年巨大的变化与挫折中走出来,我用了两年。有些偶然,或...
这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术,产品色彩会强不少。参考了《长尾理论》、《推荐系统实践》以及...
和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECTcount(DISTINCT uid) FROM log(2) SELECT ip, ...
前言 近两年,KUDU 在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么...
一个问题 我们使用如下的参数提交了Flink on YARN作业(per-job模式)。 该作业启动了10个TaskManager,并正常运行。来到该任务的Web界面,随便打...
一. 托管State 1.1 主程序 构建 StreamExecutionEnvironment; 启动 Checkpoint,并设置间隔时间; 设置 StateBacken...
看完本文,你能get到以下知识Flink 流处理为什么需要网络流控?Flink V1.5 版之前网络流控介绍Flink V1.5 版之前的反压策略存在的问题Credit的反压...
当一个应用被提交时,Dispatcher分发器就会启动并将应用移交给一个JobManager。 JobManager控制一个应用程序执行的主进程,每个应用程序都会被一个不同的...
DataStream是Flink API中最核心的数据结构,代表一个运行在多个分区上的并行流。 1.map&flatMap 2.filter 3.keyBy 4.KeyedS...
这里是「王喆的机器学习笔记」的第二十二篇文章,上篇文章介绍了推荐系统「实时性」为什么是重要的,以及如何从特征的角度增强推荐结果的实时性。但特征实时性再强,影响的范围也仅限于当...
Druid 介绍 说起 Druid,大家首先想到的是阿里的 Druid 数据库连接池,而本文介绍的 Druid 是一个在大数据场景下的解决方案,是需要在复杂的海量数据下进行交...