当前位置：主页 > python教程 > spark dataframe全局排序

spark dataframe全局排序id与分组后保留最大值行

发布：2023-04-14 16:15:02 59

我们帮大家精选了相关的编程文章，网友吕灵韵根据主题投稿了本篇教程内容，涉及到spark、dataframe全局排序、spark、dataframe、spark dataframe全局排序相关内容，已被923网友关注，内容中涉及的知识点可以在下方直接下载获取。

spark dataframe全局排序

正文

作为一个算法工程师，日常学习和工作中，不光要 训练模型关注效果 ，更多的时间是在 准备样本数据与分析数据 等，而这些过程都与大数据 spark和hadoop生态 的若干工具息息相关。

今天我们就不在更新 机器学习 和 算法模型 相关的内容，分享两个 spark函数 吧，以前也在某种场景中使用过但没有保存收藏，哎！！ 事前不搜藏，临时抱佛脚 的感觉真是痛苦，太耽误干活了 。

so，把这两个函数记在这里 以备不时 之需～

(1) 得到 spark dataframe 全局排序ID

这个函数的 应用场景 就是：根据某一列的数值对 spark 的 dataframe 进行排序，得到全局多分区排序的全局有序ID，新增一列保存这个rank id ，并且保留别的列的数据无变化 。

有用户会说，这不是很容易吗 ，直接用 orderBy 不就可以了吗，但是难点是：orderBy完记录下全局ID 并且保持原来全部列的DF数据 。

多说无益，遇到这个场景 直接copy 用起来就知道有多爽了，同类问题我们可以用下面这个函数解决～

scala 写的 spark 版本代码：

def dfZipWithIndex(
  df: DataFrame,
  offset: Int = 1,
  colName: String ="rank_id",
  inFront: Boolean = true
) : DataFrame = {
  df.sqlContext.createDataFrame(
    df.rdd.zipWithIndex.map(ln =>
      Row.fromSeq(
        (if (inFront) Seq(ln._2 + offset) else Seq())
          ++ ln._1.toSeq ++
        (if (inFront) Seq() else Seq(ln._2 + offset))
      )
    ),
    StructType(
      (if (inFront) Array(StructField(colName,LongType,false)) else Array[StructField]())
        ++ df.schema.fields ++
      (if (inFront) Array[StructField]() else Array(StructField(colName,LongType,false)))
    )
  )
}

函数调用我们可以用这行代码调用： val ranked_df = dfZipWithIndex(raw_df.orderBy($"predict_score".desc)), 直接复制过去就可以～

python写的 pyspark 版本代码：

from pyspark.sql.types import LongType, StructField, StructType
def dfZipWithIndex (df, offset=1, colName="rank_id"):
    new_schema = StructType(
                    [StructField(colName,LongType(),True)]        # new added field in front
                    + df.schema.fields                            # previous schema
                )
    zipped_rdd = df.rdd.zipWithIndex()
    new_rdd = zipped_rdd.map(lambda (row,rowId): ([rowId +offset] + list(row)))
    return spark.createDataFrame(new_rdd, new_schema)

调用同理 ，这里我就不在进行赘述了。

(2)分组后保留最大值行

这个函数的 应用场景 就是：当我们使用 spark 或则 sparkSQL 查找某个 dataframe 数据的时候，在某一天里，任意一个用户可能有多条记录，我们需要 对每一个用户，保留dataframe 中某列值最大的那行数据 。

其中的 关键点 在于：一次性求出对每个用户分组后，求得每个用户的多行记录中，某个值最大的行进行数据保留 。

当然，经过 简单修改代码，不一定是最大，最小也是可以的，平均都ok 。

scala 写的 spark 版本代码：

// 得到一天内一个用户多个记录里面时间最大的那行用户的记录
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions
val w = Window.partitionBy("user_id")
val result_df = raw_df
    .withColumn("max_time",functions.max("time").over(w))
    .where($"time" === $"max_time")
    .drop($"max_time")

python写的 pyspark 版本代码：

# pyspark dataframe 某列值最大的元素所在的那一行 
# GroupBy 列并过滤 Pyspark 中某列值最大的行 
# 创建一个Window 以按A列进行分区，并使用它来计算每个组的最大值。然后过滤出行，使 B 列中的值等于最大值 
from pyspark.sql import Window
w = Window.partitionBy('user_id')
result_df = spark.sql(raw_df).withColumn('max_time', fun.max('time').over(w))\
    .where(fun.col('time') == fun.col('time'))
    .drop('max_time')

我们可以看到：这个函数的关键就是运用了 spark 的 window 函数 ，灵活运用威力无穷哦！

到这里，spark利器2函数之dataframe全局排序id与分组后保留最大值行 的全文就写完了，更多关于spark dataframe全局排序的资料请关注码农之家其它相关文章！

上一篇：python统计函数被调用次数的实现
下一篇：Python3.10新特性之match语句示例详解

参考资料

Java开发Spark应用程序自定义PipeLineStage详解

发布：2023-04-19

这篇文章主要为大家介绍了Java开发Spark应用程序自定义PipeLineStage详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

Win10搭建Pyspark2.4.4+Pycharm开发环境的图文教程(亲测)

发布：2023-04-04

本文主要介绍了Win10搭建Pyspark2.4.4+Pycharm开发环境的图文教程(亲测)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

PySpark中RDD的数据输出问题详解

发布：2023-03-05

RDD是 Spark 中最基础的抽象，它表示了一个可以并行操作的、不可变得、被分区了的元素集合，这篇文章主要介绍了PySpark中RDD的数据输出详解,需要的朋友可以参考下

介绍idea远程调试spark的方法步骤

发布：2020-01-28

今天小编就为大家分享一篇关于idea远程调试spark的步骤讲解，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

PyCharm搭建Spark开发环境实现第一个pyspark程序

发布：2022-06-17

给网友朋友们带来一篇关于PyCharm的教程，这篇文章主要介绍了PyCharm搭建Spark开发环境实现第一个pyspark程序，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习

PyCharm+PySpark远程调试的环境配置的方法

发布：2022-04-14

今天小编就为大家分享一篇PyCharm+PySpark远程调试的环境配置的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

PySpark和RDD对象最新详解

发布：2023-03-04

Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算TB、PB乃至EB级别的海量数据，PySpark是由Spark官方开发的Python语言第三方库，本文重点介绍PySpark和RDD对象，感兴趣的朋友一起看看吧

Spark JDBC操作MySQL方式详细讲解

发布：2023-04-19

这篇文章主要介绍了Spark JDBC操作MySQL方式，Spark SQL可以通过JDBC从传统的关系型数据库中读写数据，读取数据后直接生成的是DataFrame，然后再加上借助于Spark SQL丰富的API来进行各种操作