python - 使用 Pandas 在 Python 中处理复杂的管道分隔 CSV/平面文件导入
问题描述
我在 stackoverflow 上四处寻找,但找不到类似的问题 - 如果存在,请提前抱歉。
我正在尝试导入一个大的“|” 具有 7 列的分隔 CSV 文件。
问题是一些数据列包含自由文本,在某些情况下也恰好包含额外的管道。这会导致它在数百行上出错,正如它自然所期望的那样,在我的例子中是 7 列,但它看到的是 8、9、10 行。
下面的代码将跳过不寻常的行并导入文件的其余部分,但这无济于事,因为我们需要所有行。
import pandas as pd
fileImport = pd.read_csv('myfile.csv', sep="|", error_bad_lines=False, encoding = "ISO-8859-1")
处理这些不寻常/烦人的行是否有明显的技巧?
这种行的一个例子:
11111|2222|2000-11-01 00:00:00|AAAA.|Alcohol use disorder identificatn test|XXXXXX||An overall total score of less than 5 is negative||How often: Monthly or less||How many: 3 - 4||6 or more units: Never||Date: Unknown|||
似乎列中的单独数据项进一步用管道封装:
|An overall total score of less than 5 is negative||How often: Monthly or less||How many: 3 - 4||6 or more units: Never||Date: Unknown|
解决方案
推荐阅读
- postman - 如何用邮递员发送已经存在的对象?
- c++ - 为链接操作重载按位 OR('|') 无法按预期工作
- docker - 节点子域的 nginx 配置给出 502 错误
- javascript - 对象的隐式类型强制
- git - 如何在替换当前文件并忽略非冲突文件时从 git 存储库中提取
- docker - 如何一一设置Dockerfile的RUN Command exec?
- jquery - 如何结合本文档的按键和按钮点击事件
- java - 如何创建用于验证 Firestore 文档 ID 的 Java 模式?
- google-maps - 出现错误 - 错误类型错误:无法读取未定义的属性“构造函数” - 在 IONIC Native Google Maps 中
- ios - How to add and remove UILabels in UIStackview