1.读取数据,将RDD持久化到内存中,并进行行动操作。
2.一般常用的是从外部存储中读取来创建RDD,如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合,例子如下:
lines=sc.parallelize(['pandas','i like pandas'])
3.RDD操作-转化操作
union为合并操作,filter为过滤操作。
4.RDD操作-行动操作
对错误计数,并显示前两个错误。
行动操作中的collect()可以获取整个数据集,但是不能用于大数据集,这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件
运行.py文件
6.常见的转化操作和行动操作
map:
flatmap:
reduce:
aggregate: