2019-11-01

总结:常用API的练习

1.parallelizePairs的入参中,如果有2个Tuple2的KEY一样,则生成RDD时只有一个,VALUE为位置靠后的元素值。

2.mapToPair和flatMapToPair的区别:前者将每个元素处理成Tuple2,后者处理成Iterator。

3.测试常用方法collectAsMap(),若有KEY相同的TUPLE2,只显示最后一个KV对。



SPARK支持的主流的文件格式

格式名称                结构化                备注

文本文件                否                        一行就是一条纪录

JSON                    半结构化                    -

CSV                      是                        基于文本的表格

SequenceFiles      是                        键值对数据,常见的HADOOP文件格式

parquet                    半结构化            列族式存储

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • spark性能优化:数据倾斜调优 - LW_ICE - 博客频道 - CSDN.NEThttp://blog.cs...
    葡萄喃喃呓语阅读 813评论 0 7
  • 类:属性(状态)操作(功能)继承:两个类的关系 (被继承类称为父类或基类,继承的类称为子类或派生类)子类拥有父类的...
    L_8789阅读 250评论 0 0
  • 先是整个文章的框架 为什么要遵循规范? 规范是由设计升华而来。从视觉的角度来说,实际上就是一个素材库。产品有什么样...
    设计师云木阅读 356评论 0 0
  • 面临思维转变: 1、当前线程可能随时会被切换出去,或者说被抢占了。 2、多线程程序中事件的发生顺序不再有全局统一的...
    雪上霜阅读 534评论 0 1
  • 喜好表面的浮华是人性所在, 但将人性体现的淋漓尽致却在浮华背后。 人们平静的行于浮华之间, 终却在浮华背后湮没于波...
    时针先生阅读 237评论 1 3