首页 > 解决方案 > 您如何通过 RDD 操作计算两个过滤器?

问题描述

我有两个 RDD,一个看起来像这样:

increase
rose
die
bear
contracted
own
eyes
lights
making

然后我算第一个RDD:</p>

(float,2)
(agree,20)
(healing,2)
(shot,45)
(guide,24)
(opening,11)
(urging,9)
(practises,1)
(surge,9)
(maintained,2)

我有另一个RDD,它是不同形式动词的字典,像这样

abash,abash,abashed,abashed,abashes,abashing
abate,abate,abated,abated,abates,abating
abide,abide,abode,abode,abides,abiding
absorb,absorb,absorbed,absorbed,absorbs,absorbing
accept,accept,accepted,accepted,accepts,accepting
accompany,accompany,accompanied,accompanied,accompanies,accompanying
ache,ache,ached,ached,aches,aching
achieve,achieve,achieved,achieved,achieves,achieving

现在,我需要统计第一个 RDD 中的单词,并根据第二个 RDD 合并属于同一个单词但形式不同的单词。例如 (work, 100), (works,50), (working,150) -> (work, 300) 我尝试计算第一个 RDD,然后找出第一个 RDD 中的哪些元素属于第二个 RDD和计数,但这部分不知道如何通过RDD操作来完成

标签: scalaapache-sparkrdd

解决方案


这是作业还是什么。相同的问题(针对相同的任务)在此处提出和回答。


推荐阅读