python-3.x - 通过行解析并从 Spark Dataframe 中隔离学生记录
问题描述
我的学生数据库在 Student 表中有每个学生的多条记录。
我正在将数据读入 Spark 数据框,然后遍历 Spark 数据框,为每个学生隔离记录并为每个学生记录做一些处理。
到目前为止我的代码:
from pyspark.sql import SparkSession
spark_session = SparkSession \
.builder \
.appName("app") \
.config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:2.7.2") \
.getOrCreate()
class_3A = spark_session.sql("SQL")
for row in class_3A:
#for each student
#Print Name, Age and Subject Marks
我该怎么做呢?
解决方案
另一种方法是使用 SparkSQL
>>> df = spark.createDataFrame([('Ankit',25),('Jalfaizy',22),('Suresh',20),('Bala',26)],['name','age'])
>>> df.show()
+--------+---+
| name|age|
+--------+---+
| Ankit| 25|
|Jalfaizy| 22|
| Suresh| 20|
| Bala| 26|
+--------+---+
>>> df.where('age > 20').show()
+--------+---+
| name|age|
+--------+---+
| Ankit| 25|
|Jalfaizy| 22|
| Bala| 26|
+--------+---+
>>> from pyspark.sql.functions import *
>>> df.select('name', col('age') + 100).show()
+--------+-----------+
| name|(age + 100)|
+--------+-----------+
| Ankit| 125|
|Jalfaizy| 122|
| Suresh| 120|
| Bala| 126|
+--------+-----------+
推荐阅读
- powershell - 使用 WMI 查询提取一些信息并将其发送到文件
- android - 如何修复 react-native-gesture-handler:compileDebugJavaWithJavac 失败
- python - 在笛卡尔坐标中对齐两个 3D 对象
- python - 如何在 django 中获取用户(当前已登录)的帖子?
- android - 获取房间实体中嵌入对象的空值
- reactjs - 希望使用反应钩子传递所有道具
- angular - 垫排序不适用于下拉列
- notepad++ - 调用 notepad++.exe 时在启动时打开一个 url
- php - Laravel 模型组按问题。我不知道该怎么称呼它
- sql - 如何在具有功能索引的表上删除行后清理未使用的空间?