首页 > 解决方案 > 如何将具有“valid_from”和“valid_to”列的表连接到具有时间戳的表?

问题描述

我在 PySpark 工作,有一个表格,其中包含特定文章的销售数据,每个日期和文章一行:

#ARTICLES
+-----------+----------+
|timestamp  |article_id|
+-----------+----------+
| 2018-01-02|   1111111|
| 2018-01-02|   2222222|
| 2018-01-02|   3333333|
| 2018-01-03|   1111111|
| 2018-01-03|   2222222|
| 2018-01-03|   3333333|
+-----------+----------+

然后,我有一个较小的表,其中包含每篇文章的价格数据。价格从某个日期到另一个日期有效,在最后两列中指定:

#PRICES
+----------+-----+----------+----------+
|article_id|price|from_date |to_date   |
+----------+-----+----------+----------+
|   1111111| 8.99|2000-01-01|2999-12-31|
|   2222222| 4.29|2000-01-01|2006-09-05|
|   2222222| 2.29|2006-09-06|2999-12-31|
+----------+-----+----------+----------+

在此处的最后两行中,您会看到此价格已在 2006-09-06 降低。

我现在想将价格加入第一张桌子。它必须是其各自时间戳上的价格。在这个例子中,我想要以下结果:

#RESULT
+-----------+----------+-----+
|timestamp  |article_id|price|
+-----------+----------+-----+
| 2018-01-02|   1111111| 8.99|
| 2018-01-02|   2222222| 2.29|
| 2018-01-02|   3333333| null|
| 2018-01-03|   1111111| 8.99|
| 2018-01-03|   2222222| 2.29|
| 2018-01-03|   3333333| null|
+-----------+----------+-----+

我将如何最好地做到这一点?

我的一个想法是“推出”价格表以包含每个时间戳和 article_id 的一行,然后使用这两个键加入。但我不知道如何使用两个日期列展开表格。

标签: apache-sparkpysparkapache-spark-sqlpyspark-sql

解决方案


在条件之间加入应该可以工作。

from pyspark.sql.functions import col
articles.alias('articles').join(prices.alias('prices'), 
   on=(
        (col('articles.article_id') == col('prices.article_id')) & 
        (col('articles.timestamp').between(col('prices.from_date'), col('prices.to_date')))
   ),
   how='left'
).select('articles.*','prices.price')

推荐阅读