首页 > 解决方案 > 使用scrapy时如何处理特殊字符?

问题描述

我正在抓取一些西班牙语网站,并且有一些特殊字符,例如:ñ 或 ó。我正在使用此代码,但是当我将 csv 文件导出为 excel 时,不会出现特殊字符。

在此处输入图像描述

这是之后如何在 excel 中查看文件的一些示例。而不是ñ,它出现了ñ。

在此处输入图像描述

标签: pythonweb-scrapingscrapy

解决方案


您的脚本应该没问题。问题是Excel默认使用cp1252打开csv文件,而Python将文件存储在utf-8中。计算机只能存储数字,而操作系统和软件使用一个称为字符编码的特殊表格来找出如何将数字转换为字母和字符。CP1252 和 utf-8 是众多字符编码标准中的两个。在这种情况下,ñ 有一个 utf-8 编码 0xC3 0xB1,而在 cp1252 中它被解释为 ñ。

如果你想用 utf-8 打开 csv 文件,你应该在 Excel 中选择 File-Import,而不是在 File Origin 下拉菜单中选择 Unicode(UTF-8)。


推荐阅读