python - 如何使用 Python 读取在线 docx 文件和 webscrape 表格内容
问题描述
我正在尝试对在线安全 docx 文件进行网络抓取。我可以通过以下方式成功获得它:
r = requests.get(" https://the_full_path.docx ", auth=HttpNtlmAuth('uid','pwd'))
但现在我对如何读取这个对象以及如何更深入地挖掘文件结构以提取我需要的内容感到困惑。
解决方案
我找到了一个片段,我在其中创建了一个 .docx 文件并将传入的流存储到其中。我将继续搜索如何读取本地文件,但我已经看到了这种搜索的示例。
with open('myfile.docx', 'wb') as f:
for chunk in r.iter_content(1024 * 1024 * 2): # 2 MB chunks
f.write(chunk)