python-3.x - 无法下载文件(网页抓取) - OSError [Errorno22] - 无效参数
问题描述
我用 Python 3 编写了一个程序,它以一定的深度抓取和下载维基百科类别的页面并将它们放在一个目录中。
我面临的问题是,“假设在代码执行过程中,如果算法遇到任何具有特殊字符(如(*、#、$ 等)的维基百科页面),那么算法将失败,并显示下面提到的消息错误跟踪“。
特殊字符 wiki 页面的示例如下:
https://en.wikipedia.org/wiki/Eden*
错误跟踪如下:
Traceback (most recent call last):
File "F:\Pen Drive 8 GB\PDF\Code\wiki.py", line 103, in <module>
d.search_and_store("Biomedical_engineering", subcategory_depth=2, path=PATH)
File "F:\Pen Drive 8 GB\PDF\Code\wiki.py", line 98, in search_and_store
self.search_and_store(subcat_result['title'], subcategory_depth-1, path)
File "F:\Pen Drive 8 GB\PDF\Code\wiki.py", line 98, in search_and_store
self.search_and_store(subcat_result['title'], subcategory_depth-1, path)
File "F:\Pen Drive 8 GB\PDF\Code\wiki.py", line 76, in search_and_store
if self.write_page_text(path, page_result):
File "F:\Pen Drive 8 GB\PDF\Code\wiki.py", line 44, in write_page_text
txt_file = open(file_path, 'w')
OSError: [Errno 22] Invalid argument: 'F:\\Code\\Wikipedia\\DATASETS\\Biomedical Engineering/Eden*.txt'
如您所见,该算法在没有任何特殊字符的情况下抓取页面数据,但为什么会引发上述错误。
MWE 非常大。如果有人建议,那么我可以分享。
请提出一些建议,因为我长期以来一直在尝试这个并且很沮丧。我什至不知道我做错了什么?请帮忙。
任何小的帮助都深表感谢。
提前致谢。
解决方案
推荐阅读
- php - 使用 CloudConvert 使用 PHP 组合 PDF 时未找到类错误
- lstm - FastAi LSTM 前向方法问题
- magento2 - magento 2自定义主题预览图像未显示在管理员中
- ubuntu-18.04 - 如何在 ubuntu 18.04 中长时间运行 Maria DB
- javascript - 状态栏添加额外的填充 React-native
- python - sklearn 中 MLPClassifier 的 predict_proba() 函数输出总可能性不等于一
- flutter - 如何在 Flutter 中找出 Widget 出现/消失的时间?
- python - 这可能是因为 cuDNN 初始化失败,因此请尝试查看上面是否打印了警告日志消息。[操作:Conv2D]
- python - 使用 Pil 将图像存储在列表中并在浏览器中检索这些图像
- flutter - flutter pub publish:找不到名为“dry-run”的选项