python - 从一个更大的数据帧创建唯一命名的数据帧
问题描述
使用数据帧和循环非常新。在 python 或 R 中寻找我的查询的答案。我有一个结构类似于下面的数据框。
TP1.v1 | TP1.v2 | TP1.v3 | TP2.v1 | TP2.v2 | TP2.v3 |... TPn.v1
Gene A| 7 |6 |7 |6 |4 |1 |... 9
Gene B| 3 |4 |4 |4 |5 |3 |... 3
Gene n| 6 |1 |1 |5 |7 |7 |... 8
我想为所有 TP1、TP2 等创建一个新的数据框。每个 TP(时间点)有 3 列与之关联。理想情况下,我还希望使用循环来执行此操作,因为我有多个具有相似结构的文件。最后,我希望循环给每个新数据框一个新的唯一名称。
我已经能够在不使用循环的情况下在 R 中完成这项任务。简单地重复使用基本函数来操作数据框。但这非常缓慢且费力,因此希望循环执行此操作。
理想的输出将是 n 个唯一命名的数据帧,每个数据帧有 3 列,每个数据帧都保留原始数据帧中的行名和列名。
下面我添加了来自 R 的 dput(head(df)) 的输出。
structure(list(D1.log2fc = c(-0.453086, -0.1828075, 0.105551500000001,
0.368134000000001, 0.194800000000001, -0.327664499999999), D1.AveExp = c(4.9001385,
5.59887075, 9.35607416666667, 9.466082, 9.28132575, 5.43070783333333
), D1.adjPval = c(0.158162310733078, 0.680539779380169, 0.798318133631351,
0.368809197240543, 0.588741274410125, 0.363696882398466), D3.log2fc = c(-0.5979695,
-0.510921500000001, 0.544158999999999, 0.354766, 0.631701999999999,
-0.365363499999998), D3.AveExp = c(4.9001385, 5.59887075, 9.35607416666667,
9.466082, 9.28132575, 5.43070783333333), D3.adjPval = c(0.0354796268783931,
0.104426887750224, 0.0342979093938487, 0.318289098430963, 0.0318404713171763,
0.231275103023615), D6.log2fc = c(-0.349413, -0.854375500000001,
0.7416965, 0.5901225, 0.821465500000002, -0.578061499999999),
D6.AveExp = c(4.9001385, 5.59887075, 9.35607416666667, 9.466082,
9.28132575, 5.43070783333333), D6.adjPval = c(0.151181193217808,
0.00788722811936, 0.00487109163210043, 0.0635131764099792,
0.00547087529420614, 0.0423872835135151), D10.log2fc = c(-0.528707499999999,
-0.431807000000002, 0.454508000000001, 0.628860999999999,
0.379918500000002, -0.195571999999999), D10.AveExp = c(4.9001385,
5.59887075, 9.35607416666667, 9.466082, 9.28132575, 5.43070783333333
), D10.adjPval = c(0.0360033103086792, 0.125511404231851,
0.0445352483558512, 0.0499786423872913, 0.126969394135026,
0.517590415583245), D14.log2fc = c(-0.517372, -0.379950000000001,
0.596869, 0.7255935, 0.6545535, -0.205755499999999), D14.AveExp = c(4.9001385,
5.59887075, 9.35607416666667, 9.466082, 9.28132575, 5.43070783333333
), D14.adjPval = c(0.039311630129941, 0.172677856404577,
0.0124695746689562, 0.0265985268105264, 0.0152333310246979,
0.452405710914221)), row.names = c("hsa-let-7a-2", "hsa-let-7b",
"hsa-let-7d", "hsa-let-7e", "hsa-let-7f", "hsa-let-7f1"), class = "data.frame")
解决方案
不确定您所说的唯一命名的 DataFrame 是什么意思。这将创建一个包含每个 DataFrame 的字典。希望能帮助到你。
import pandas as pd
import numpy as np
# Sample Data
df = pd.DataFrame(np.random.rand(50,3*10),
columns = ['TP%d.v%d'%(i, j) for i in range(1,11) for j in range(1,4)])
# Construct dictionary:
dd = {}
for name in df.columns.str.split('.').str[0].unique():
dd[name] = df[df.columns[df.columns.str.startswith(name)]].copy()
如果您想改用多索引数据帧。以下解决方案将简单地重新定义当前 DataFrame 的列。使用这些可能有点复杂,但效率更高:
# MultiIndex Solution
df.columns = df.columns.str.split('.', expand=True)
推荐阅读
- php - 如何使用折叠/展开选项制作 jQuery 数据表 mysql php
- python - 使用 Python 进行参数曲线拟合
- python - Python数据框部分字符串替换
- reactjs - 即使响应为 200,S3 React Typescript 也不会上传文件
- node.js - 如何在 MERN 应用中实现登录功能?
- vba - 如何使用用于格式化表格的宏计算选择中有多少个选项卡
- php - PHP比较字符串日期值正在输出不同的输出
- java - 是否可以通过使用 Google Map API 知道特定街道是否是一种方式?
- domain-driven-design - 为什么存储库与域实体一起使用?
- sql - 将所有行从一个表复制到另一个而不写出所有列