首先读取数据
rawData = sc.textFile(u"/user/tq/iris.txt")
rawData.take(5)
结果如下:
然后对某字段记录进行计数
rawData1 = rawData.map(lambda x:x.split(",")).map(lambda x:x[0]).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)
rawData1.take(5)
结果如下:
使用sortByKey
sortData1= rawData1.map(lambda (x,y):(y,x)).sortByKey(ascending = False)
sortData1.take(10)
结果如下:
使用sortBy
sortData2 = rawData1.sortBy(lambda x:x[1],ascending = False)
sortData2.take(10)