mysql - 如何使用并行插入语句在 MySQL 表中插入巨大的 Pandas 数据框?
问题描述
我正在做一个项目,我必须编写一个包含数百万行和大约 25 列的数据框,其中大部分是数字类型。我正在使用Pandas DataFrame to SQL Function将数据帧转储到 Mysql 表中。我发现这个函数创建了一个可以一次插入多行的 Insert 语句。这是一个很好的方法,但是 MySQL 对使用这种方法可以构建的查询长度有限制。
有没有一种方法可以在同一个表中并行插入,以便我可以加快进程?
解决方案
你可以做一些事情来实现这一点。
一种方法是在写入 sql 时使用附加参数。
df.to_sql(method = 'multi')
根据此文档,将“multi”传递给方法参数允许您批量插入。
另一种解决方案是使用 multiprocessing.dummy 构建自定义插入函数。这是文档的链接:https ://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy
import math
from multiprocessing.dummy import Pool as ThreadPool
...
def insert_df(df, *args, **kwargs):
nworkers = 4 # number of workers that executes insert in parallel fashion
chunk = math.floor(df.shape[0] / nworkers) # number of chunks
chunks = [(chunk * i, (chunk * i) + chunk) for i in range(nworkers)]
chunks.append((chunk * nworkers, df.shape[0]))
pool = ThreadPool(nworkers)
def worker(chunk):
i, j = chunk
df.iloc[i:j, :].to_sql(*args, **kwargs)
pool.map(worker, chunks)
pool.close()
pool.join()
....
insert_df(df, "foo_bar", engine, if_exists='append')
第二种方法是在https://stackoverflow.com/a/42164138/5614132建议的。
推荐阅读
- laravel - Laravel 5.8 + Vue2JS 会话和组件中的旧值
- java - Pattern.matches() 针对 char 数组而不强制转换为 java 中的 String
- javascript - 在 Reactjs 中的 setState() 之后未定义(使用钩子)
- javascript - reactjs错误未捕获的ReferenceError:未定义要求
- python - 仅列出 S3 存储桶中的文件夹直到一定深度
- google-apps-script - 谷歌表格 JS 事件
- ruby-on-rails - 有没有办法在 gui 中打开 Heroku Postgres DB 备份来探索数据?
- go - 最近复制的文件将所有 0 作为字节数组返回
- selenium - selenium.common.exceptions.WebDriverException:消息:未知错误:无法创建 Chrome 进程
- r - ggplot 和 ggplot2 有什么区别?