python - 将 csv 行号划分为用逗号和空格分隔的列
问题描述
我有两种类型的 csv 文件,它们都有几行,但有时用空格分隔,有时用逗号分隔。对于逗号情况,我没有发现将它们添加到 DataFrame 的问题,但我在空格情况下确实有问题,我在下面的代码中引入了文件链接。ex1.csv 用逗号分隔,但 ex2.csv 用空格分隔。
https://1drv.ms/f/s!AgQ59n47uloFzSPbIlS9RhRNfZ1p
import os
import pandas as pd
import numpy as np
import openpyxl as pyx
import numpy as np
x=[]
y=[]
z=[]
Rx=[]
Ry=[]
Rz=[]
atot=[]
t=[]
f = io.open(file, mode="r", encoding="utf-8")
lines=f.readlines()
for i in lines:
try:
a=[i.strip('\n')]
a1=[float(n) for n in a[0].split(',')]
t.append(a1[1])
x.append(a1[4])
y.append(a1[3])
z.append(a1[2])
Rx.append(a1[7])
Ry.append(a1[6])
Rz.append(a1[5])
except :
a=[i.split('\n')]
a1=[float(n) for n in a[0].split()]
x.append(a1[3])
y.append(a1[2])
z.append(a1[1])
Rx.append(a1[6])
Ry.append(a1[5])
Rz.append(a1[4])
上图:如果分隔符是逗号,我会得到“list”对象没有属性“split”的错误,这是因为 a 是以这种方式读取的:
a= [['\ufeff -1.3053 2.2743 -5.0045 0.0121 0.1814 -0.0285 0.0000 0.0000',
'']]
我添加了一点,我事先将包含逗号的行分开(后面的行以这种方式除外,并且它分离得很好,但是在尝试将其添加到 DataFrame 时,它让我犯了错误:
t.append(i.split()[0]);
x.append(i.split()[3]);
y.append(i.split()[2]);
z.append(i.split()[1]);
Rx.append(i.split()[6]);
Ry.append(i.split()[5]);
Rz.append(i.split()[4]);
添加以这种方式添加到 DataFrame 的点:
df1 = pd.DataFrame(list(zip(x, y, z, Rx, Ry, Rz)), columns=['x', 'y', 'z', 'Rx' , 'Ry', 'Rz'])
for i in df1.columns:
mylist+=(list(df1.loc[df1[i].argmax()]))
for i in df1.columns:
mylist+=(list(df1.loc[df1[i].argmin()]))
解决方案
Pandas 有一个非常强大的方法pd.read_csv(...)
,可以解决读取各种 csv 文件时的大部分麻烦。也许我错过了一些阻碍你使用的关键问题pd.read_csv(...)
,但下面的代码应该作为概念证明。
df1 = pd.read_csv("ex1.csv", sep=",", header=None)
df1.columns = ["t", "atot", 'x', 'y', 'z', 'Rx', 'Ry', 'Rz']
print(df1)
df2 = pd.read_csv("ex2.csv", sep=" ", header=None)
df2 = df2.dropna(axis=1) # Eliminate the columns that were created because of multiple spaces as separators
df2.columns = ["t", "atot", 'x', 'y', 'z', 'Rx', 'Ry', 'Rz']
print(df2)
我认为通常 csv 损坏不应作为逐行读取 csv 文件的理由。
如果您稍后需要单独的列作为列表,您可以随时创建它们,如下所示:
X = df2['x'].values.tolist()
Rx = df2['Rx'].values.tolist()
但是,您应该避免使用过多的变量,正如您可能已经知道的那样。另外,从你的原始代码来看,感觉你应该花更多的时间来征服 Pandas 的基础知识,例如:here。有一点学习曲线,但它会在以后为您节省很多痛苦。
推荐阅读
- r - 使用 UTF-8 编码将 csv 文件导入 R 数据帧
- vba - Word 用户 VBA 设置为文本框边框样式
- destructuring - 这个对象是解构的还是其他的?
- instrumentation - 使用 maven-surefire 从 javaagent 访问测试类
- javascript - 检测表默认值的变化(Django)
- c# - Akka.net 在 /user 下的 Actor 名称中添加一个随机数
- salesforce - 有没有办法将 Microsoft Bot Framework 移交集成到 Salesforce Live 代理
- reactjs - 强类型对象属性依赖于其他对象属性
- python - 在 python BeautifulSoup 或 selenium 中从任何网站中提取社交链接
- javascript - Unity webgl 加载时如何播放视频?