python - Python Pandas MySQL - 为什么将数据帧写入数据库时 SQLite 速度如此之快
问题描述
我正在开发一个网站,用户将 csv 文件直接导入数据库和一个前端,一旦数据被归档到数据库中,它就会对数据执行一些数据分析。我正在使用 pandas 将 csv 转换为数据框,然后将该数据框导入 MySQL 数据库:
导入 MySQL 数据库:
engine = create_engine('mysql+mysqlconnector://[username]:[password]@[host]:[port]/[schema]', echo=False)
df = pd.read_csv('C:/Users/[user]/Documents/Sales_Records.csv')
df.to_sql(con= engine, name='data', if_exists='replace')
这样做的问题是,对于我使用的数据集(500 万行),性能太慢并且操作超时而没有导入数据。但是,如果我尝试除使用 SQLite3 之外的相同操作:
导入 SQLite3 数据库:
conn = sqlite3.connect('customer.db')
df = pd.read_csv('C:/Users/[user]/Documents/Sales_Records.csv')
df.to_sql('Sales', conn, if_exists='append', index=False)
mycursor = conn.cursor()
query = 'SELECT * FROM Sales LIMIT 10'
print(mycursor.execute(query).fetchall())
此代码块在几秒钟内执行并导入数据集的所有 500 万行。所以我该怎么做?我预计不会有多个人同时传递大型数据集,所以我认为放弃 MySQL 并不会因为 SQLite 在此应用程序中提供的明显性能优势而受到伤害。只是感觉有更好的方法......
解决方案
MySQL 通过网络连接将数据发送到磁盘。
SQLite3 直接通过磁盘发送数据。
看看https://gist.github.com/jboner/2841832
你没有提到 MySQL 服务器在哪里。但即使它在您的本地机器上,它也会通过 TCP/IP 堆栈,而 SQLite 只会直接写入磁盘。
推荐阅读
- javascript - 如何在一页中添加多个条纹按钮?
- angular - 如何以角度将项目添加到我的 FormArray?
- java - 为子类创建对象时,如何从 hashMap 中实现属性?
- html - css中的打字机动画
- mongodb - 我想在 MongoDB 中查找同一日期的信息
- python-3.x - 如何缓存 Django rest framework generics.ListAPIView 响应
- ibm-watson - Watson 助手捕获自由文本作为评论
- dax - 在度量中使用相关的表值
- python - 无法使用 Flask 应用程序工厂和 Flask-Restful 添加资源
- php - 提交数据到 JSON/API URL