首页 > 解决方案 > 在将制表符分隔的文件导入数据框时定义 dtypes

问题描述

由于某些数据不明确(例如,应解释为字符串而不是整数的客户编号),我正在使用 dtype 选项 (pd.read_table('BSC.csv', dtype=str)。

它工作正常,因为 Pandas 不再抱怨模棱两可的类型。然而,当我将数据帧存储在 HDFStore 中时,我收到了一个抱怨,即使用无类型对象会导致性能损失。我使用 .dtypes 查看了我的数据框,发现所有类型都移回了“对象”。

我查看了 Pandas.read_table 文档,但没有找到任何可以在导入后将类型冻结为字符串的设置。这是否意味着唯一的选择是在存储数据帧之前使用 .apply(to_string) 步骤?

标签: python-3.xpandastypeshdf5hdf

解决方案


推荐阅读