sql - Spark count 分组中的单词数
问题描述
我有一个数据集
+----------+--------+------------+
| id| date| errors|
+----------+--------+------------+
|1 |20170319| error1|
|1 |20170319| error2|
|1 |20170319| error2|
|1 |20170319| error1|
|2 |20170319| err6|
|1 |20170319| error2|
需要按天计算错误数
输出
+----------+--------+------------+
| date| errors| count
+----------+--------+------------+
|20170319| error1| 2
|20170319| error2| 3
|20170319| err6| 1
val dataset = spark.read.json(path);
val c =dataset.groupBy("date").count()
//我如何继续计算错误
我在 spark scala sql 中尝试过 Windowing over date 但无法找到生产力我需要转换为 Rdd 并找到一种方法吗?
解决方案
你只需要groupBy
两者date
和errors
。
val c =dataset.groupBy("date","errors").count()
推荐阅读
- nativescript - 如何在 nativescript-vue 上使用 axios
- windows - forfiles 批处理命令在为 /d 参数实施时无法识别 + 符号
- asp.net - ASP.NET Web 应用程序使用两个版本的 VB 编译器 - 这是怎么回事?
- jquery - 为什么 $.ajax 总是会出错回调?
- https - Airflow 中用于 HTTPS 的 HttpOperator 或 HttpHook
- python - 如何显示所有标签内容?
- c# - 无法在预制件内实例化预制件
- mysql - 将字符从数据库提取到另一个包含所有项目的数据库
- google-sheets - 在 Google Sheet 图表中可视化每月的输入和输出(流量)率
- django - 带有 ManyToManyField 的 Django Rest Framework 自定义权限类