python - 从熊猫数据框中提取子集确保不重叠?
问题描述
df
假设我有 2 个带有297232 x 122
维度和df_raw
维度的Pandas 数据框840380x122
。df
已经是 的子集df_raw
。两个数据框的索引均为DateTime
. 我想对 中70%
的值df
和30%
中的值df_raw
进行采样(如果需要,可以随机采样),同时确保采样的数据帧子集在索引方面没有重叠。
更准确地说,df_subset
将具有从 中70%
随机选择的值df
,并从df_raw_subset
中30%
随机选择值df_raw
,但df_subset
不df_raw_subset
应该在采样的行方面包含重叠,即它们应该具有唯一DateTime
索引。
解决方案
所以我们sample
从 df 开始,因为尺寸很小,当我们将来从另一个更大的 df 中删除它时,我们不会遇到问题:没有足够的数据指向sample
df_sub=df.sample(frac=0.7, replace=False)
然后我们将索引放入df_raw
bydf_sub
n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)
推荐阅读
- objective-c - “原子”属性与线程安全
- android - 使用 Query Back4app 看不到进度条
- aws-lambda - AWS Chalice:在 Python 中读取 lambda 环境变量
- r - R Notebook/Markdown 不使用“fig.path =”块选项保存块图
- php - PHP如何停止写入和截断
- python-2.7 - Python提取味精库:'gbk'编解码器无法解码字节:非法多字节序列
- reactjs - React iFrame 在 IE11 中显示奇怪 - 引导类不起作用
- treeview - 在 sap.m.Tree 中仅显示 JSON 模型的一部分
- html - Html单选按钮定位
- python - 点 pip 到 anaconda pip