首页 > 解决方案 > 来自已解析网站的 UnicodeEncodeError (Python3)

问题描述

我正在尝试使用 Python3 脚本从网站内容中解析某些内容,但遇到了“UnicodeEncodeError”:

import urllib.request

myurl = "https://stackoverflow.com/"
with urllib.request.urlopen(myurl) as url:
    html = url.read()
    print(type(html))
    content = html.decode("UTF-8", "ignore")
    print(type(content))
    print(content)

这会产生:

<class 'bytes'>
<class 'str'>
  File "C:\Python3\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u200b' in position 688: character maps to <undefined>

现在,不是解码本身失败(因为第二次打印调用仍然通过),但是解码后的字符串仍然包含应该被忽略的 unicode 字符?

我是否阅读过有关此错误的文档?

标签: python-3.xunicode

解决方案


推荐阅读