首页 > 解决方案 > 将熊猫数据框导出到配置单元表的最佳方法是什么?

问题描述

我在这里(以及许多其他地方)寻求帮助:

  1. 如何将 Pandas 数据框保存到配置单元表?
  2. pyspark中的熊猫数据框到蜂巢
  3. 如何使用 Python(不使用 PySpark)将 pandas 数据框插入到现有的 Hive 外部表中?

但我认为我并不完全理解所提出的建议,因为我对其中任何一个都失败了

我想做的是:

  1. 从 hive 表中从 schema1 提取数据到 python 数据框。
  2. 对列进行一些操作并保存为 pandas 数据框。
  3. 将 pandas 数据框导出到配置单元表 schema2。

我将第 1-2 点提出如下:

  1. 从 hive 表中提取数据到 python 数据框。
transport = puretransport.transport_factory(host='my_host_name',
                                            port=10000,
                                            username='my_username',
                                            password='my_password',
                                            use_ssl=True)

engine = db.create_engine(f"hive://my_username@/schema1",
                          connect_args={'thrift_transport': transport})

print("Selecting data from table", end=" ")
tab1 = []
for chunk in pd.read_sql_query(
        """select * from schema1.my_table""", con=engine, chunksize=5):
    tab1.append(chunk)
df = pd.concat(tab1)
print("DONE")

  1. 对列进行一些操作并保存为 pandas 数据框。
my_code_returning_dataframe...
  1. 将 pandas 数据框导出到配置单元表 schema2。
what_should_i_do_there?

预先感谢您的任何帮助。

标签: pythonpandasdataframehadoophive

解决方案


推荐阅读