首页 > 解决方案 > 是否可以使用矢量化 Pandas 代码解析包含数组的 csv 列?

问题描述

以下代码生成一个 CSV,然后再次对其进行解析。b 列包含每个字段的整数数组。

import pandas as pd
from io import StringIO
import numpy as np


# Create CSV
df = pd.DataFrame(dict(
    a=[1,2,3],
    b=[[1], [1,2], [1,2,3]]
))
s = df.to_csv()

# ,a,b
# 0,1,[1]
# 1,2,"[1, 2]"
# 2,3,"[1, 2, 3]"

def parse(s):
    return np.fromstring(s[1:-1], sep=", ", dtype=int)

df2 = pd.read_csv(StringIO(s), converters=dict(b=parse))

现在的问题是是否可以矢量化/加速解析。我怀疑这可能通过为 b 列指定一个 dtype 来实现,但我无法弄清楚这将是什么 dtype。

有什么建议么?

标签: pythonpandasnumpycsv

解决方案


这个转换器工作吗?那我建议坚持下去。

原始 DF 有一个 object dtype 列,其中包含不同大小的列表。保存写入str这些列表的版本。您的转换产生一个数组

In [155]: np.fromstring("[1,2,3]"[1:-1], sep=", ", dtype=int)                                  
Out[155]: array([1, 2, 3])

eval(或“更安全”的ast等价物)产生一个列表:

In [156]: eval("[1, 2, 3]")                                                                    
Out[156]: [1, 2, 3]

请注意,如果原始文件有数组而不是列表,则字符串将无法正常工作。

In [157]: str(_155)                                                                            
Out[157]: '[1 2 3]'

它缺少方便的逗号。更糟糕的是,它可能包含...的是数组足够大。

这经常出现,通常是因为人们无意中使用这些列表或数组元素保存了一个框架。到目前为止,我还没有看到一个很好的选择——至少如果你想要一个人类可读的 csv 的话。

在某种程度上,具有列表或数组元素的数据框是一种异常。列 dtype 将是 object,并且无法进行快速 numpy 操作。但是 pandas 也将对象 dtype 用于字符串。

此外,对于长度不同的列表,您无法创建 nd 数组。它只能是列表或对象 dtype 数组。数字数组的计算速度没了。


推荐阅读