python - 删除熊猫时间序列中的重复项
问题描述
我有一个 csv 文件,其时间序列的结构如下:col1: date
col2: value
. csv 文件的日期是从 1 月 1 日到 4 月 30 日。然后我有第二个 csv 文件,不同之处在于日期是 2 月 1 日到 5 月 31 日。从 2 月 1 日到 4 月 30 日第二列中的值是在第一个和第二个文件中相同。第三个 csv 文件(3 月 1 日至 6 月 30 日)、第四个等存在相同的问题:相同的重叠结构。我想阅读这些 csv 文件,但只保留从 1 月 1 日到 12 月 31 日的唯一日期,而没有重复值。有没有一种使用 Pandas 数据帧的快速方法?
解决方案
一种选择是使用 pandas pd.concat() 连接文件,然后尝试:
df = pd.concat([file1,file2,file3])
df.drop_duplicates()
推荐阅读
- javascript - 是入口点,ES6 模块
- python - Python包在本地运行但来自PyPI时返回错误
- orocrm - 产品列表中没有缩略图 (OroCommerce)
- xml - 在将 XML 转换为文本时,第二行在 XSLT 中移动了两个选项卡
- google-cloud-platform - 使用共享 VPC 的 GCP 内部 HTTP(S) 负载平衡
- twilio - 向 Twilio 视频 SDK 添加功能
- php - 如何在 WP 管理仪表板(后端)的特定页面中修改 CSS
- javascript - 我正在尝试在编写的 js 下部署我的 firebase 功能?
- reactjs - 反应为什么我的应用程序不会为谷歌地图呈现更新的状态?
- project-reactor - Mono.just(1) 与 Flux.just(1) 的区别