python - 自动拆分具有异常字符的 CSV
问题描述
虽然我可以使用 Python 操作一个 CSV 文件,如果它是严格用逗号分隔的,但我正在使用这种格式时遇到了一个大问题。它是逗号分隔的,但最后一列由下图中的大约六个逗号组成的网格组成:
"{""EvidenceDetails"": [{""MitigationString"": """", ""Criticality"": 2, ""Timestamp"": ""2018-05-07T13:51:02.000Z"", ""CriticalityLabel"": ""Suspicious"", ""EvidenceString"": ""1 sighting on 1 source: item. Most recent item: Item4: item. I've never seen this IP before. Most recent link (May 7, 2018): link"", ""Rule"": ""Recent""}, {""MitigationString"": """", ""Criticality"": 2, ""Timestamp"": ""2018-05-09T05:32:41.316Z"", "etc"}]}"
其他列是标准的逗号分隔,但这一列是一团糟。我只需要提取时间戳的 YYYY-MM-DD;没有其他的。但是,我似乎无法找到去除不必要字符的方法。
有什么建议么?我正在专门使用 Python,但如果我还有其他需要注意的地方,请告诉我!
谢谢!
解决方案
您正在查看 JSON 格式,因此请尝试使用该json
模块:
import json
# if data is in a file
with open('your filename here','r') as f:
data = json.load(f)
# if data is stored in a string variable
data = json.loads(stringvar)
data 变量现在应该以更易于访问的格式包含您的数据。
推荐阅读
- javascript - 加载多条记录时,如何防止 TailwindCSS 表扩展?
- terraform - 将大型手动管理的 AWS 账户迁移到 Terraform 配置中
- neo4j - Neo4j Cypher 复杂查询优化
- django-rest-framework - 用于 M2M 关系的 Django Rest Framework 序列化程序与中间连接表
- regex - Atom regexp:丢弃块周围的多行文本
- visual-studio - 我收到包含矢量的错误
- javascript - Parcel 当我按下 onclick 事件按钮时,未定义。为什么?
- python-3.x - python pandas数据框计算
- r - 我想在 R 中使用 splots 和 survminer 对生成的 2 个 Kaplan Meier 曲线图进行注释(添加字母,例如 A 和 B)
- php - 带有迭代变量的php循环