2019-11-01

1.parallelizePairs的入参中，如果有2个Tuple2的KEY一样，则生成RDD时只有一个，VALUE为位置靠后的元素值。

2.mapToPair和flatMapToPair的区别：前者将每个元素处理成Tuple2，后者处理成Iterator。

3.测试常用方法collectAsMap()，若有KEY相同的TUPLE2，只显示最后一个KV对。

格式名称结构化备注

文本文件否一行就是一条纪录

JSON 半结构化 -

CSV 是基于文本的表格

SequenceFiles 是键值对数据，常见的HADOOP文件格式

parquet 半结构化列族式存储

最后编辑于：2019.11.02 22:33:19

[调优]数据倾斜调优～spark性能优化：
spark性能优化：数据倾斜调优 - LW_ICE - 博客频道 - CSDN.NEThttp://blog.cs...
葡萄喃喃呓语阅读 813评论 0赞 7
2019-11-01
类：属性（状态）操作（功能）继承：两个类的关系（被继承类称为父类或基类，继承的类称为子类或派生类）子类拥有父类的...
L_8789阅读 250评论 0赞 0
2019-11-01
先是整个文章的框架为什么要遵循规范？规范是由设计升华而来。从视觉的角度来说，实际上就是一个素材库。产品有什么样...
设计师云木阅读 369评论 0赞 0
c++多线程系统编程精要2019-11-01
面临思维转变： 1、当前线程可能随时会被切换出去，或者说被抢占了。 2、多线程程序中事件的发生顺序不再有全局统一的...
雪上霜阅读 534评论 0赞 1
浮华·背后
喜好表面的浮华是人性所在，但将人性体现的淋漓尽致却在浮华背后。人们平静的行于浮华之间，终却在浮华背后湮没于波...
时针先生阅读 241评论 1赞 3

赞1赞

赞赏

手机看全文