首页 > 解决方案 > 使用 Python 读取 Excel 动态文件引用

问题描述

我正在尝试使用 Python 读取具有对其单元格的动态工作簿引用的 excel 文件。当我使用 openpyxl 并阅读它时,它会将具有动态工作簿引用的单元格返回为 '=[1]Sheet0!T10' 而不是:

'='Q:\OPERATIONS\PERFORMANCE\ANALYSIS\2019[analysis.xlsx]Sheet0!T10'

我需要有关正在引用的文件路径的信息。这是重现该问题的代码:

1: from openpyxl import load_workbook
2: import pandas as pd
3: xls = r"C:\TEST\test.xlsx"
4: wb = load_workbook(filename = xls, read_only=True)
5: ws = wb("sheet1")
6: df = pd.DataFrame(ws.values)
7: ws["E11"].value

这将返回 '=[1]Sheet0!T10'

当我在第 6 行转换为数据框时,它返回 df 的值不是公式,所以这没有帮助。有没有更好的包或方法来提取python中引用的文件路径?

标签: pythonexcelpandasopenpyxl

解决方案


感谢@Charle Clark 提供了一个线索来解决这个难题。此链接可用于获取 Excel 文件中的动态工作簿参考的答案。

for root, dirs, files in os.walk(root, topdown=False):
        for name in files:
            if name.count(".xls"):
                try:
                    xls = os.path.join(root, name)
                    wb = load_workbook(filename = xls, read_only=True)
                    print(xls)
                except Exception as err:
                    msg = "ERROR: {} file failed to read!".format(xls)
                    print(msg)
                    print(err)
                    f.write(str(err)+"\n")
                    continue
                
                items = wb._external_links
                msg = "There are {} external links..".format(len(items))
                print(msg)
                if len(items) > 0:
                    xls_dict[xls] = []
                    for index, item in enumerate(items):                        
                        Mystr = wb._external_links[index].file_link.Target
                        Mystr = Mystr.replace("file:///","").replace("%20"," ")
                        print(Mystr)

此代码可能更简单,但可以完成工作。还有,openpyxl不打开旧版本的excel(xls),这个需要单独处理。您可以通过搜索 xlsx 或发布错误消息进行过滤,如上所示。


推荐阅读