python-3.x - 来自已解析网站的 UnicodeEncodeError (Python3)
问题描述
我正在尝试使用 Python3 脚本从网站内容中解析某些内容,但遇到了“UnicodeEncodeError”:
import urllib.request
myurl = "https://stackoverflow.com/"
with urllib.request.urlopen(myurl) as url:
html = url.read()
print(type(html))
content = html.decode("UTF-8", "ignore")
print(type(content))
print(content)
这会产生:
<class 'bytes'>
<class 'str'>
File "C:\Python3\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u200b' in position 688: character maps to <undefined>
现在,不是解码本身失败(因为第二次打印调用仍然通过),但是解码后的字符串仍然包含应该被忽略的 unicode 字符?
我是否阅读过有关此错误的文档?
解决方案
推荐阅读
- php - 我正在使用 HTML 和 PHP 编写登录页面
- flask - Axios 正在为 api 目标 url 添加前缀
- entity-framework - 当您可以直接在数据库中执行 SQL 时,运行 EF 迁移有什么意义?
- javascript - 将字节数组写入文件 JavaScript
- java - 使用 ClassLoader 加载资源
- rust - 如何在泛型/嵌套结构中省略顶级类型参数?
- php - Laravel - 刀片未在浏览器中加载
- ruby-on-rails - 即使在捆绑安装之后,rails 也找不到 gem
- javascript - 如何让 Facebook 评论插件与 VueJS 一起使用
- c++ - 如何解决我的动态规划问题?