python - 来自python元组列表的dask数据框
问题描述
我对 dask 真的很陌生。我想从 python 元组列表创建一个 dask 数据框。在 pandas 中,您可以使用DataFrame.from_records
将元组列表转换为数据框。什么功能可以在 dask 中为我提供相同的功能。我的数据看起来有点像这样
[(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262 , '预订', 'NULL')]
我现在正在使用此代码执行任务。这是这样做的正确方法吗。
import pandas as pd
import dask
import dask.dataframe as dd
names = ['id', 'status', 'reg_entry']
dfs = dask.delayed(pd.DataFrame.from_records)(cursor.fetchall(), columns=names)
df = dd.from_delayed(dfs)
解决方案
您可以尝试从现有的 pandas 数据框创建一个 dask 数据框(以便能够使用所有 pandas 构造函数):
df = pd.DataFrame([(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262, 'booking', 'NULL')])
ddf = dd.from_pandas(df, npartitions=2)
推荐阅读
- javascript - React-Native:发布模式下的 JavaScript 正则表达式异常(无效组)
- vba - Min 函数在 VBA 中无法正常工作
- android - 破解安卓谷歌地图详情视图
- mysql - mysql错误说'字段列表'中的未知列,我如何选择此列中的数据?
- git - 如何在git中将更改合并到来自父级父级的分支?
- python - 无法连接到 GearHost 数据库
- sql - 如何在 PostgreSQL 中将表设为只读
- c# - .Net Core 2.1.2 版本设置和控制器脚手架(序列不包含元素)
- python - 为什么我会收到此错误?(QuantConnect 算法)
- tcpdump - 捕获 nginx 和 http 客户端以及 nginx 和我的应用程序之间的通信