python - 使用 Python 读取 Excel 动态文件引用
问题描述
我正在尝试使用 Python 读取具有对其单元格的动态工作簿引用的 excel 文件。当我使用 openpyxl 并阅读它时,它会将具有动态工作簿引用的单元格返回为 '=[1]Sheet0!T10' 而不是:
'='Q:\OPERATIONS\PERFORMANCE\ANALYSIS\2019[analysis.xlsx]Sheet0!T10'
我需要有关正在引用的文件路径的信息。这是重现该问题的代码:
1: from openpyxl import load_workbook
2: import pandas as pd
3: xls = r"C:\TEST\test.xlsx"
4: wb = load_workbook(filename = xls, read_only=True)
5: ws = wb("sheet1")
6: df = pd.DataFrame(ws.values)
7: ws["E11"].value
这将返回 '=[1]Sheet0!T10'
当我在第 6 行转换为数据框时,它返回 df 的值不是公式,所以这没有帮助。有没有更好的包或方法来提取python中引用的文件路径?
解决方案
感谢@Charle Clark 提供了一个线索来解决这个难题。此链接可用于获取 Excel 文件中的动态工作簿参考的答案。
for root, dirs, files in os.walk(root, topdown=False):
for name in files:
if name.count(".xls"):
try:
xls = os.path.join(root, name)
wb = load_workbook(filename = xls, read_only=True)
print(xls)
except Exception as err:
msg = "ERROR: {} file failed to read!".format(xls)
print(msg)
print(err)
f.write(str(err)+"\n")
continue
items = wb._external_links
msg = "There are {} external links..".format(len(items))
print(msg)
if len(items) > 0:
xls_dict[xls] = []
for index, item in enumerate(items):
Mystr = wb._external_links[index].file_link.Target
Mystr = Mystr.replace("file:///","").replace("%20"," ")
print(Mystr)
此代码可能更简单,但可以完成工作。还有,openpyxl不打开旧版本的excel(xls),这个需要单独处理。您可以通过搜索 xlsx 或发布错误消息进行过滤,如上所示。
推荐阅读
- html - 是否有 github 操作或工作流来格式化 html 文件或以编程方式执行它的方法是安全的?
- excel - 如何将微调器链接到单元格
- gmail - Google OAuth 2 授权 - 生成错误的确认链接
- javascript - 使用 chrome.tabCapture.capture 时记录 Google Chrome 音频在 CPU 使用率上的断断续续
- codeceptjs - 无法使用带量角器的 codeceptjs 单击按钮
- python - macOS Catalina下的Pygame(尝试使用pygame 2.0.0.dev6)
- c# - ASP.NET Core - 减少业务服务依赖的最佳方法
- python - Anaconda 环境 - SKLearn 功能存在但无法导入
- c# - 如何提高通过流下载大尺寸 azure blob 文件的性能?
- amazon-web-services - 公开共享 AWS S3 文件