首页 > 解决方案 > 将 csv 行号划分为用逗号和空格分隔的列

问题描述

我有两种类型的 csv 文件,它们都有几行,但有时用空格分隔,有时用逗号分隔。对于逗号情况,我没有发现将它们添加到 DataFrame 的问题,但我在空格情况下确实有问题,我在下面的代码中引入了文件链接。ex1.csv 用逗号分隔,但 ex2.csv 用空格分隔。

https://1drv.ms/f/s!AgQ59n47uloFzSPbIlS9RhRNfZ1p

import os
import pandas as pd
import numpy as np
import openpyxl as pyx
import numpy as np

x=[]
y=[]
z=[]
Rx=[]
Ry=[]
Rz=[]
atot=[]

t=[]

f = io.open(file, mode="r", encoding="utf-8")

lines=f.readlines()

for i in lines:
    try:
        a=[i.strip('\n')]
        a1=[float(n) for n in a[0].split(',')]

            t.append(a1[1])
            x.append(a1[4])
            y.append(a1[3])
            z.append(a1[2])
            Rx.append(a1[7])
            Ry.append(a1[6])
            Rz.append(a1[5])

        except :
            a=[i.split('\n')]
            a1=[float(n) for n in a[0].split()]
            x.append(a1[3])
            y.append(a1[2])
            z.append(a1[1])
            Rx.append(a1[6])
            Ry.append(a1[5])
            Rz.append(a1[4])

上图:如果分隔符是逗号,我会得到“list”对象没有属性“split”的错误,这是因为 a 是以这种方式读取的:

a= [['\ufeff     -1.3053      2.2743     -5.0045      0.0121      0.1814     -0.0285      0.0000      0.0000',
  '']]

我添加了一点,我事先将包含逗号的行分开(后面的行以这种方式除外,并且它分离得很好,但是在尝试将其添加到 DataFrame 时,它​​让我犯了错误:

            t.append(i.split()[0]);
            x.append(i.split()[3]);
            y.append(i.split()[2]);
            z.append(i.split()[1]);
            Rx.append(i.split()[6]);
            Ry.append(i.split()[5]);
            Rz.append(i.split()[4]);

添加以这种方式添加到 DataFrame 的点:

df1 = pd.DataFrame(list(zip(x, y, z, Rx, Ry, Rz)), columns=['x', 'y', 'z', 'Rx' , 'Ry', 'Rz'])

for i in df1.columns:
    mylist+=(list(df1.loc[df1[i].argmax()]))
for i in df1.columns:
    mylist+=(list(df1.loc[df1[i].argmin()]))

标签: pythonpandascsv

解决方案


Pandas 有一个非常强大的方法pd.read_csv(...),可以解决读取各种 csv 文件时的大部分麻烦。也许我错过了一些阻碍你使用的关键问题pd.read_csv(...),但下面的代码应该作为概念证明。

df1 = pd.read_csv("ex1.csv", sep=",", header=None)
df1.columns = ["t", "atot", 'x', 'y', 'z', 'Rx', 'Ry', 'Rz']
print(df1)

df2 = pd.read_csv("ex2.csv", sep=" ", header=None) 
df2 = df2.dropna(axis=1)  # Eliminate the columns that were created because of multiple spaces as separators
df2.columns = ["t", "atot", 'x', 'y', 'z', 'Rx', 'Ry', 'Rz']
print(df2)

我认为通常 csv 损坏不应作为逐行读取 csv 文件的理由。

如果您稍后需要单独的列作为列表,您可以随时创建它们,如下所示:

X = df2['x'].values.tolist()
Rx = df2['Rx'].values.tolist()

但是,您应该避免使用过多的变量,正如您可能已经知道的那样。另外,从你的原始代码来看,感觉你应该花更多的时间来征服 Pandas 的基础知识,例如:here。有一点学习曲线,但它会在以后为您节省很多痛苦。


推荐阅读