pyspark - PySpark:如何在 pyspark 中编写计算逻辑
问题描述
我有两个具有以下架构的数据框
df1:
root
|-- story_id: string (nullable = true)
|-- uri: string (nullable = true)
df2:
root
|-- uri: string (nullable = true)
这是来自两者的示例数据
df1:
|story_id |uri |
+----------------------------------+---------------------------------------------------------------------------------------------------------------+
|0x5883d731edac1ca0d115c1ef05fb45e3|https://ilovupdates.com/i-know-what-you-did-last-summer-amazon-originals/|
|0x5883d731edac1ca0d115c1ef05fb45e3|https://ilovupdates.com/annabelle-sethupathi-2021-full-movie-download/|
|0x5883d731edac1ca0d115c1ef05fb45e3|https://ilovupdates.com/vicky-kaushal-biography/|
+----------------------------------+---------------------------------------------------------------------------------------------------------------+
df2
+----------------------------------------------------------------------------------+
|uri |
+----------------------------------------------------------------------------------+
|https://tvnewsalert.com/topics/entertainment/ |
|https://tvnewsalert.com/private-vaccine-verification-app-portpass-sparks-privacy-security-concerns/|
|https://tvnewsalert.com/kota-factory-season-2-web-series-download-leaked-on-moviesflix-480p/ |
+----------------------------------------------------------------------------------+
本质上,df1 包含给定故事 ID 的多个 url,并且 df1 中有多个故事 ID。
df2 包含一组主 url。
任务是找出 df1 中每个故事 id 中有多少个 url 存在于 df2 的主 url 集中
所以对于像这样的输入:
df1
s1, url1
s1, url2
s1, url3
s2, url2
s2, url4
df2
url1
url3
url4
输出应该是
s1, 2
s2, 1
解决方案
任务是找出 df1 中每个故事 id 中有多少个 url 存在于 df2 的主 url 集中
您可以在分组和计算数量之前加入uri
以确定哪些uri
存在story_id
output_df = df1.join(df2,['uri'],"inner").groupBy("story_id").count()
output_df.show()
让我知道这是否适合您。
推荐阅读
- android - Android位图回收:需要设置null吗?
- sql - 优化数据库设计
- angular - 在詹金斯中执行 ng test chromeHeadLess 失败
- jquery - jquery偶尔运行的原因是什么?
- c# - C# HttpClient 摘要身份验证不起作用
- c++ - MinGW 编译器在 sublime 和 vscode 中不起作用
- c# - 为什么 .NET 在散列密码中生成转义字符?
- python - 用python求解域F(2)上的线性方程组
- javascript - 标签输入与自动完成从 url 中的数组
- python - 打破python中的嵌套try/except块