首页 > 解决方案 > 如何使用 Python 从 AWS 机器访问 Github 中的 Excel 数据

问题描述

我有一个 excel 文件放在 Github 中,Python 安装在 AWS 机器上。我想使用 Python 脚本从 AWS 机器上读取 excel 文件。你能帮我实现这一目标吗?到目前为止,我使用下面的代码来实现这一点......

#Importing required Libraries
import pandas as pd
import xlwt
import xlrd

#Formatting WLM data
URL= 'https://github.dev.global.tesco.org/DotcomPerformanceTeam/Sample-WLM/blob/master/LEGO_LIVE_FreshOrderStableProfile_2019_v0.1.xlsx'
data = pd.read_excel(r"URl", sheet_name='WLM', dtype=object)

当我执行此操作时,我遇到了错误

IOError: [Errno 2] No such file or directory: 'URl'

标签: pythonpandasgithub

解决方案


您可以使用 de Wget 命令从 GitHub 下载文件。这里的关键是使用原始版本链接,否则您将下载一个 html 文件。要获取原始链接,请单击您在 GitHub 上上传的文件,然后右键单击原始按钮并选择保存路径或复制路径。最后你可以用它来下载文件,然后用 pd.read_excel("Your Excel file URL or disk location") 读取它。例子:

#Raw link: https://raw.github.com/<username>/<repo>/<branch>/Excelfile.xlsx

!wget --show-progress --continue -O /content/Excelfile.xlsx https://raw.github.com/<username>/<repo>/<branch>/Excelfile.xlsx

df = pd.read_excel("content/Excelfile.xlsx")

注意:此示例适用于 Colab,如果您使用的是本地环境,请不要使用感叹号。您还可以在此处找到更多想法:从 GitHub 下载单个文件


推荐阅读