python - “utf-8”编解码器无法解码位置 1 中的字节 0x8b:无效的起始字节
问题描述
我正在尝试通过以下代码读取网页的页面源代码:
from urllib.request import urlopen
url = "http://www.tsetmc.com/Loader.aspx?ParTree=15"
page = urlopen(url)
htmlSource = page.read().decode("utf-8")
f=open("output.txt",'w')
f.write(htmlSource)
但我得到了这个错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
我不知道这个页面是否使用 utf-8 编码。
谢谢你的帮助。
解决方案
我不知道这个页面是否使用 utf-8 编码。
如果您不知道页面是如何编码的,您可以将字节写入文件而不尝试检查它们:
page = urlopen(url)
htmlSource = page.read()
f=open("output.txt",'wb')
f.write(htmlSource)
推荐阅读
- java - mvn clean package 出错,声称我的目录中没有 POM,当我这样做时
- java - 无法解析 PowerMockito 但 PowerMockRunner 可以
- material-ui - type=date 的 TextField 组件创建不需要的日历图标
- c++ - 向 std::runtime_error 添加额外的字符串
- java - 没有整数溢出风险的类标识符
- javascript - 在前端上传图片上传时无法读取未定义的属性“路径”(反应)
- python - Python中的Selenium if else如何使用
- python - 如果给出了用户和项目的嵌入,如何获得所有用户和 PySpark 中所有项目的余弦相似度分数?
- react-native - React Native:如何在底部呈现新消息?
- angular - mat-table 不填充来自 http 请求的数据