python - Python readline() 方法导致 UnicodeDecodeError
问题描述
我正在尝试读取和提取大型 txt 的信息并将其写入另一个文档,但出现此错误: 这是我的代码:
#Create list with PLZ, city and state
cepfinal = open("cepfinal.txt", "w") #file to be written
with open("ceptest2.txt", "r") as fp: #read file
while True:
line = fp.readline()
# print(str(line))
x = line.split("\t") #separate all that have double space
plz = x[0] #extract PLZ
# print(plz)
y = x[1]
mun = y.split("/") #separe city from state
# print(mun)
plzmun = [plz] + mun
# print(plzmun)
final = plzmun.pop(2) #remove state
plzmun = " ".join(plzmun) #create string
print(plzmun)
cepfinal.write(plzmun + "\n")
fp.close()
这是一个 45 Gb 的文件,所以我想我有内存问题。有人可以帮我制作精益代码吗?
解决方案
你的问题是编码,你可以试试这个来解决你的问题
with open("ceptest2.txt", "r", encoding="utf8") as fp:
推荐阅读
- jenkins - 环境注入器插件是否有替代方案,用于将信息从一个詹金斯任务传递到另一个任务
- angular - 在角度版本 7 中安装库 pdfmake 后收到警告
- c++ - 为什么 'int' 在 C++ 中只用作 int 而为什么不用作 std::int?
- nlp - 作为数据科学家,我应该研究什么来分析传入的电子邮件?
- c# - 如何在多台服务器上发布 Web API net core 3.0
- laravel - 无法使用 laravel 发送电子邮件。?使用邮件陷阱
- python - 使用 python 的 pyodbc 到 MSSQL Server 的连接问题
- python - Python 数组操作模块中可能出现的错误
- c# - 在 Visual Studio 中设置显式写入默认访问修饰符
- python - 如何根据不同数组中的标签拆分数据集?