python - 使用 Python 和 Pandas 从 Oracle 获取数据的性能问题
问题描述
我正在使用该cx_Oracle
模块创建sqlalchemy
引擎并使用 Python 和 Pandas 从 Oracle 数据库中检索数据,但我遇到了性能问题,并且出现了数据库错误。
如果我只指定几列,我的代码可以正常工作(但速度很慢),并且在很长一段时间后我可以获得所有 350 万行。这是我正在使用的代码:
import cx_Oracle
import pandas as pd
import config
from sqlalchemy import create_engine
engine = create_engine('oracle+cx_oracle://config.user:config.password@config.host:1521/?service_name=config.service')
sql = "select ITEM_NO, COUNTRY_CODE, LANGUAGE_CODE from table_ben_l_t where (LANGUAGE_CODE = 'es' and COUNTRY_CODE = 'ES')"
df = pd.read_sql(sql, engine)
一旦我添加了更多列,我就无法再运行它了,因为在长时间的延迟(我说的是几个小时)之后出现了数据库错误。
我知道使用这种方法来检索数据并创建 Pandas 并不是唯一可用的方法,但它绝对是最方便的……有没有更好/更安全的方法从 Oracle DB 获取这些数据?我正在考虑逐块下载行,将它们转储到可以传递给Pandas的dict列表中,但这似乎不是很“优雅”......我相信一定有更好的方法来做这... :-)
提前感谢任何可以帮助我的人!:-)
杰夫
编辑1: 响应@OldProgrammer 和@crocarneiro:
根据查询结果,列没有索引select * from all_ind_columns where table_name = 'TABLE_BEN_L_T';
编辑 2: 这是我收到的错误消息:
DatabaseError: (cx_Oracle.DatabaseError) ORA-01555: snapshot too old: rollback segment number 509 with name "_SYSSMU509_3146905099$" too small
(Background on this error at: http://sqlalche.me/e/14/4xp6)
也非常感谢@Christopher Jones!这看起来很有趣!
解决方案
我终于按照 Christopher Jones 的建议通过调整fetcharraysize
和属性解决了这个问题。prefetchrows
我通过设置属性值显着提高了性能,并且不再出现超时和错误消息!
非常感谢所有帮助过的人!:-)
杰夫
推荐阅读
- jenkins - Helm 卸载以删除版本(如果存在)
- java - 合并同一级别的数字
- python - 在 python 中读取多个图像和标签
- java - 如何将 JavaFX 窗格添加到 TornadoFX 组件?
- macos - OSX 浏览器不显示某些特殊的 Unicode 字符/符号
- django - 为什么我的 ModelForm 没有显示正确的设置?
- python - 如何将无分隔符的固定宽度数字表加载到 Pandas 中?
- python - 在python ..寻找一个简单的代码来从日期时间输出字符串并从列表中浮动
- javascript - react-native-navigation:如何转到没有标签栏的特殊页面?
- ide - 如何设置 remix.ethereum.org 和我的 GitHub 存储库