九、functions
2025-06-03 22:26:08 | 世界杯足球队 | admin | 8921°c
avg(col):计算指定列的均值
approx_count_distinct(col, rsd=None):统计指定列有多少个distinct 值
countDistinct(col,*cols):计算一列或者一组列中的distinct value 的数量。
collect_list(col):返回指定列的元素组成的列表(不会去重)
collect_set(col):返回指定列的元素组成的集合(去重)
first(col,ignorenulls=False):返回组内的第一个元素。
如果ignorenulls=True,则忽略null 值,直到第一个非null 值。如果都是null,则返回null。
如果ignorenulls=False,则返回组内第一个元素(不管是不是null)
grouping(col):判断group by list 中的指定列是否被聚合。如果被聚合则返回1,否则返回 0。
grouping_id(*cols):返回grouping 的级别。
cols 必须严格匹配grouping columns,或者为空(表示所有的grouping columns)
kurtosis(col):返回一组元素的峰度
max(col):返回组内的最大值。
mean(col):返回组内的均值
skewness(col): 返回组内的偏度
stddev_pop(col):返回组内的总体标准差(分母除以 N )
stddev_samp(col): 返回组内的标准差,与stddev 相同
sum(col):返回组内的和
sumDistinct(col):返回组内distinct 值的和
var_pop(col):返回组内的总体方差。 (分母除以 N )
var_samp(col):返回组内的样本方差 。(分母除以 N-1 )