首页 > 解决方案 > 在 Pandas 中解析大字符串值

问题描述

我有一个.csv从中生成数据框的。此 csv 具有来自遵循以下格式的系统的原始数据输出:

{"DataType1":"Value","DataType2":"Value","DataType3":"Value",.....}

数据框中的每一行都只有 1 列。我试图打破这一点,以便数据类型成为列标题并且值填充行。另一方面是并非所有行都具有相同的数据类型,有些行具有其他行中可能不存在的附加数据类型。例如,第 1 行可能有DataType1DataType2和 ,DataType3而第 2 行可能有DataType2DataType4DataType5。理想情况下,我希望输出使列标题包含所有数据类型,无论该行是否具有值。所以最终的数据框将是这样的结构:

-------------------------------------------------------------
| DataType1 | DataType2 | DataType3 | DataType4 | DataType5 |
-------------------------------------------------------------
| Value     | Value     | Value     |   NaN     |   NaN     |
-------------------------------------------------------------
|  NaN      |  Value    | NaN       | Value     |  Value    |
-------------------------------------------------------------

标签: pythonpandascsvdataframe

解决方案


从字典转换时,数据帧遵循以下格式:

dict = {'column 1':[1,2], 'column 2':[3,4], ...}

请注意,每个键中值的长度相同或

pd.DataFrame(dict)

会抛出错误。

要超越错误,您可以遍历 dict 并通过解析它来制作 DataFrame。

pd.DataFrame(dict([(k,pd.Series(v)) for k,v in dict.items() ]))

*假设 'dict' 是您的字典名称。

这样,您将获得所需的输出。


推荐阅读