python - 删除重复数据并将其余数据附加到 pandas
问题描述
我有以下代码:
import pandas as pd
import datetime
import pandas as pd
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from alpha_vantage.foreignexchange import ForeignExchange
import os
from os import path
from alpha_vantage.timeseries import TimeSeries
import matplotlib.pyplot as plt
import sys
while True:
if path.exists('stockdata.csv') == True:
data1 = pd.read_csv('stockdata.csv')
ts = TimeSeries(key='1ORS1XLM1YK1GK9Y', output_format='pandas')
data, meta_data = ts.get_intraday(symbol = 'spy', interval='1min', outputsize='full')
data = data.rename(columns={'1. open':'Open','2. high': 'High','3. low': 'Low', '4. close':'Close', '5. volume': 'Volume'})
data1 = data1.append(data)
data1.to_csv('stockdata.csv', sep= ' ')
break
else:
data1 = pd.DataFrame(columns=['Open','High','Low', 'Close','Volume'])
data1.to_csv('stockdata.csv', sep= ' ')
我要做的是检查文件stockdata.csv
是否在当前目录中。如果找不到,则创建文件。
如果找到该文件,则下载间谍代码数据data
并将该数据附加到data1
并保存在 csv 文件中。
这假设运行 24/7,我将包括一个 12 小时睡眠计时器,因此每 12 小时它会更新数据。
- 我希望数据框删除重复数据并仅附加新数据。
解决方案
drop_duplicates会做你需要的吗?
data1 = data1.drop_duplicates()
推荐阅读
- c# - 如何解码我不知道它是如何编码的文本
- python - 将 pyproject.toml 添加到项目中会使 pip install 失败
- sql - PostgreSQL - 选择时间间隔
- pandas - 用熊猫导入 csv
- javascript - 试图缩短我从 API 调用中得到的响应
- log4j2 - 如何将 log4j2 写入的文件的命名推迟到文件打开时?
- javascript - 在语义 UI 反应表单输入中只允许数字
- r - 谷歌身份验证从 R 访问 Bigquery
- java - 提供多个依赖项时,如何仅复制未提供的依赖项?
- optaplanner - OptaPlanner 构造启发式在 -1 上初始化