首页 > 解决方案 > 如何计算pyspark中的重叠日期

问题描述

我有与多家公司合作过的用户的数据。一些用户同时在多家公司工作过。如何在不考虑重叠体验的情况下聚合整体体验。我已经浏览了一些链接可以获得正确的解决方案。任何帮助将不胜感激。

EMP CSV 数据

fullName,Experience_datesEmployeed,Experience_expcompany,Experience_expduraation, Experience_position
David,Feb 1999 - Sep 2001, Foothill,2 yrs 8 mos, Marketing Assoicate
David,1994 - 1997, abc,3 yrs,Senior Auditor
David,Jun 2020 - Present,   Fellows INC,3 mos,Director Board
David,2017 - Jun 2019,     Fellows INC ,2 yrs,Fellow - Class 22
David,Sep 2001 - Present, The John D.,19 yrs, Manager

预期输出:

FullName,Total_Experience

David,24.8 yrs

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


推荐阅读