首先,我们要知道这两个方法都是用于数据降维。在多变量,大样本的情况尤为适用。 那么,接下来我将以我理解的最简单的话来介绍它们,在此说明,若想要严谨,数学证明得大家自己去推。 ...
IP属地:北京
首先,我们要知道这两个方法都是用于数据降维。在多变量,大样本的情况尤为适用。 那么,接下来我将以我理解的最简单的话来介绍它们,在此说明,若想要严谨,数学证明得大家自己去推。 ...
火山日常啰嗦学习了一些大数据的相关框架后,发现应用层的东西确实不难,真正难的都是底层原理,所以我查看了很多资料,借鉴了前人的方法再加上自己的理解,写下了这篇文章。 数据倾斜的...
在之前的文章中,提到如何爬取雪球网用户的股票数据,但是由于爬取过程中,会存在一些问题,比如由于网站设有反爬虫机制,所以会导致在爬取过程中收到403的response,因此在爬...
updateStateByKey updateStateByKey操作,可以让我们为每个key维护一份state,并持续不断的更新该state。 首先,要定义一个state,...
前言 记录一下在测试过程中,遇到的一个有关ThreadLocal的问题,顺便学习一下ThreadLocal相关的知识。 ThreadLocal介绍 ThreadLocal是一...
最近组件化项目中使用SNAPSHOT仓库作为开发的库,各个工程师在上面发布组件的Aar,不同工程师之间可以通过maven依赖来添加组件,但在开发过程中遇到工程师用Sync P...