scala - 您如何通过 RDD 操作计算两个过滤器?
问题描述
我有两个 RDD,一个看起来像这样:
increase
rose
die
bear
contracted
own
eyes
lights
making
然后我算第一个RDD:</p>
(float,2)
(agree,20)
(healing,2)
(shot,45)
(guide,24)
(opening,11)
(urging,9)
(practises,1)
(surge,9)
(maintained,2)
我有另一个RDD,它是不同形式动词的字典,像这样
abash,abash,abashed,abashed,abashes,abashing
abate,abate,abated,abated,abates,abating
abide,abide,abode,abode,abides,abiding
absorb,absorb,absorbed,absorbed,absorbs,absorbing
accept,accept,accepted,accepted,accepts,accepting
accompany,accompany,accompanied,accompanied,accompanies,accompanying
ache,ache,ached,ached,aches,aching
achieve,achieve,achieved,achieved,achieves,achieving
现在,我需要统计第一个 RDD 中的单词,并根据第二个 RDD 合并属于同一个单词但形式不同的单词。例如 (work, 100), (works,50), (working,150) -> (work, 300) 我尝试计算第一个 RDD,然后找出第一个 RDD 中的哪些元素属于第二个 RDD和计数,但这部分不知道如何通过RDD操作来完成
解决方案
这是作业还是什么。相同的问题(针对相同的任务)在此处提出和回答。
推荐阅读
- assets - R3 Corda 可以用于资产管理吗?
- python - 如何在joblib并行进程中使用pickle保存大型python对象
- python - 根据来自 YAML 文件的用户输入向 JSON 文件添加自定义字段 - Python3
- reactjs - 关于redux组件渲染方法的问题
- android - 被播放保护阻止 [已发布的 apk]
- vba - 如何检查 TextBox 值格式是否类似于 28-87222?
- angular - 在 Typeahead 中,无法订阅服务以获取绑定到 typeahead 搜索的数据
- android - 处理多个位置时 Firebase 响应延迟
- excel - 范围输入
- angular - Angular ngFor 将子数组读入列表项