DataFrame json读取数据
//读取json文件
spark.read.json("input/user.json")
//可以是 csv,fomat,jdbc,json,load,option,parquet,schema,table,text,textFile
//读取的自动转换成dataFrame对象
val df=spark.read.json("input/user.json")
//转换后的数据读取 以表的形式
df.show
DataFrame 以临时视图读取数据
//形成一张临时user视图(视图只能查询)
df.createOrReplaceTempView("user")
//全查表
spark.sql("select * from user").show
spark.sql("select count(1) from user").show
DLS语法
//查看DataFrame的schema信息
df.printSchema
//只看username列的数据
df.select("username").show()
//查询的年龄列+1,使用$表示值的引用,如果是直接写age表示列名,无法计算
df.select($"age"+1).show
//使用单引号 可直接取值计算 代替$
import spark.implicits._ //倒入隐式计算 支持值的计算
df.select(‘age+1).show
//过滤年龄值大于20的数据
df.filter('age>20).show
//按照age分组查询,并且展示每个分组的数量
df.groupBy("age").count.show