python - 如何加载一列中的某些行包含额外的“,”分隔符的csv?获取“错误标记数据”
问题描述
我正在尝试使用 pandas 加载 csv(来自 Google Play 控制台的评论),其中列用“,”(逗号)分隔。然而,一些著作评论在文本中包含逗号,显然不应该被它们分开。在这些情况下,评论最初包含在引号中,如下所示:
App_rating,Date,Review,App_version
5,2020-03-01,Great app,3.0.0
2,2020-03-02,"Lame, previous version was better",4.0.0
4,2020-03-01,Good,3.0.1
我试过这段代码:
input_fd = open('reviews.csv', encoding='utf8', errors = 'backslashreplace')
pd.read_csv(input_fd, sep=',')
但出现如下错误:
Error tokenizing data. C error: Expected 4 fields in line 2, saw 5
我不想使用error_bad_lines=False
,因为我需要保留所有线条。
解决方案
您不需要open
在文件中读取它pandas
。
只需使用:
df = pd.read_csv(filename) ## filename is the complete path of your csv
此处无需指定分隔符。
我这样读你的csv:
cat t1.txt
App_rating,Date,Review,App_version
5,2020-03-01,Great app,3.0.0
2,2020-03-02,"Lame, previous version was better",4.0.0
4,2020-03-01,Good,3.0.1
In [1745]: df = pd.read_csv('t1.txt')
In [1746]: df
Out[1746]:
App_rating Date Review App_version
0 5 2020-03-01 Great app 3.0.0
1 2 2020-03-02 Lame, previous version was better 4.0.0
2 4 2020-03-01 Good 3.0.1
推荐阅读
- python - 如何使用 .add() 函数在 python 中合并两个数据帧
- node.js - Firebase 托管 + 云函数 + node.js 问题
- machine-learning - 为什么我的注意力模型比非注意力模型差
- javascript - 为什么使用第二次循环功能有错误?
- angular - 未处理重定向规则
- matplotlib - 解决 google colab 中的 UnknownBackend 错误
- excel - 在 Excel 中构建宏以计算单元格值 > 100,动态不断变化
- python - tkinter 撤回功能问题
- tcl - 跨平台移动到垃圾箱
- r - LMER 测试从哪里来的相同错误?