九、functions

2025-06-03 22:26:08 | 世界杯足球队 | admin | 8921°c

avg(col):计算指定列的均值

approx_count_distinct(col, rsd=None):统计指定列有多少个distinct 值

countDistinct(col,*cols):计算一列或者一组列中的distinct value 的数量。

collect_list(col):返回指定列的元素组成的列表(不会去重)

collect_set(col):返回指定列的元素组成的集合(去重)

first(col,ignorenulls=False):返回组内的第一个元素。

如果ignorenulls=True,则忽略null 值,直到第一个非null 值。如果都是null,则返回null。

如果ignorenulls=False,则返回组内第一个元素(不管是不是null)

grouping(col):判断group by list 中的指定列是否被聚合。如果被聚合则返回1,否则返回 0。

grouping_id(*cols):返回grouping 的级别。

cols 必须严格匹配grouping columns,或者为空(表示所有的grouping columns)

kurtosis(col):返回一组元素的峰度

max(col):返回组内的最大值。

mean(col):返回组内的均值

skewness(col): 返回组内的偏度

stddev_pop(col):返回组内的总体标准差(分母除以 N )

stddev_samp(col): 返回组内的标准差,与stddev 相同

sum(col):返回组内的和

sumDistinct(col):返回组内distinct 值的和

var_pop(col):返回组内的总体方差。 (分母除以 N )

var_samp(col):返回组内的样本方差 。(分母除以 N-1 )