python - 如何计算pyspark中的重叠日期
问题描述
我有与多家公司合作过的用户的数据。一些用户同时在多家公司工作过。如何在不考虑重叠体验的情况下聚合整体体验。我已经浏览了一些链接可以获得正确的解决方案。任何帮助将不胜感激。
EMP CSV 数据
fullName,Experience_datesEmployeed,Experience_expcompany,Experience_expduraation, Experience_position
David,Feb 1999 - Sep 2001, Foothill,2 yrs 8 mos, Marketing Assoicate
David,1994 - 1997, abc,3 yrs,Senior Auditor
David,Jun 2020 - Present, Fellows INC,3 mos,Director Board
David,2017 - Jun 2019, Fellows INC ,2 yrs,Fellow - Class 22
David,Sep 2001 - Present, The John D.,19 yrs, Manager
预期输出:
FullName,Total_Experience
David,24.8 yrs
解决方案
推荐阅读
- windows - 从带有参数的 Windows 批处理命令运行 live-server 命令
- apache-spark - 如何使用 spark sql 或 hive 更新表的值?
- swt - WindowBuilder SWT 表
- c# - C# 上的 SQLite。选择查询不适用于字符串
- ios - 为什么在 iOS 中不能使用 Swift 和 Xcode 从这个字符串创建这个 URL?
- windows - 为什么 Anaconda 安装程序不建议在 Windows 上将其目录添加到 PATH?
- c++ - 如何管理 C++ 中无法深度复制的资源
- jquery - onkeyup 在针对 tinymce 的 jQuery Validate 中不起作用
- azure-ad-b2c - ADB2C 自定义策略 - 登录后重定向到源页面
- python - 编码练习 - 为每个玩家移动 python 抓取垃圾