首页 > 解决方案 > 处理字符串列表中的法语字符

问题描述

我正在尝试从CSV用法语编写的文件中提取数据Python 2.7。我可以正确读取单个单元格(字符以打印时应有的方式显示)。但是,当我打印行列表(文件的全部内容)时,输出会被打乱。

例子:

# -*- coding: utf-8 -*-
from __future__ import print_function#, unicode_literals

l = ["à ä â",     #Some french characters
     "é è ë ê",
     "ï î",
     "ù ü û",
     "ö ô",
     "ç",
     "°"]

for i, item in enumerate(l):
    print(l[i])

print(l)

分别打印行(for循环)输出:

à ä â
é è ë ê
ï î
ù ü û
ö ô
ç
°

打印整个列表 ( print(l)) 输出时:

['\xc3\xa0 \xc3\xa4 \xc3\xa2', '\xc3\xa9 \xc3\xa8 \xc3\xab \xc3\xaa', '\xc3\xaf \xc3\xae', '\xc3\xb9 \xc3\xbc \xc3\xbb', '\xc3\xb6 \xc3\xb4', '\xc3\xa7', '\xc2\xb0']

这真的让我很困惑。如果我错过了已经回答该问题的帖子,我深表歉意。

到目前为止我尝试了什么:

l= [unicode(i, 'utf-8') for i in l]

它还输出:

[u'\xe0 \xe4 \xe2', u'\xe9 \xe8 \xeb \xea', u'\xef \xee', u'\xf9 \xfc \xfb', u'\xf6 \xf4', u'\xe7', u'\xb0']

编辑:

另一种尝试是:

l=repr(l).decode('unicode-escape').encode('utf8')
print(l)

输出所需的结果:

[u'à ä â', u'é è ë ê', u'ï î', u'ù ü û', u'ö ô', u'ç', u'°']

然而,

print(l[0])

输出:

[

所以列表现在是一个字符串。

预先感谢您的帮助和建议。

标签: pythonpython-2.7unicodeencoding

解决方案


你已经发现了 Python 2 的这个特性:

在列表中打印 Unicode 字符

这就是 Python 2 中列表的打印方式。您的数据或您正在做的事情没有任何问题。


推荐阅读