python - Pandas - 并行化 astype 函数
问题描述
我正在处理一个具有很多特征的巨大数据集。这些特征实际上是 int 类型,但由于它们具有np.nan
值,pandas 会float64
为它们分配类型。
我float32
通过迭代每一列来投射这些功能。大约需要 10 分钟才能完成。有什么办法可以加快这个操作?
数据是从 csv 文件中读取的。数据中有object
和int64
列。
for col in float_cols:
df[col] = df[col].astype(np.float32)
解决方案
dtype
在字典中使用参数read_csv
:
df = pd.read_csv(file, dtype=dict.fromkeys(float_cols, np.float32))
推荐阅读
- reference - 推断包括内部引用在内的方法的适当生命周期
- java - Pod OOM - Xmx 不被尊重
- python-3.x - 当您需要 AWS lambda 函数运行超过 15 分钟(即最大超时)时该怎么办?
- html - 如何在 Bootstrap 4 上让所有列的高度和边距相同?
- json - 如何从我使用 angular6 的 api 访问 JSON 数据响应
- tensorflow - Tensorflow-NSL 能解决最短路径问题吗?
- wso2 - 如何在 WSO2 身份服务器中自定义用户创建 API 中的字段
- php - 如何获取对数组中传入的值的查询结果(mySQL 和 PHP)
- swift - 字符串中带有双引号的 Alamofire 请求参数
- powershell - PowerShell十进制数排序问题