利用IDEA开发Spark-SQL
自定义函数
UDF:
UDAF(自定义聚合函数)
强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator。
举例方案:计算平均工资
实现方式一:RDD
实现方式二:弱类型UDAF
实现方式三:强类型UDAF