python - 如果它包含文件名/路径和包含已知重复项的外部文件,我需要删除整个 json blob/对象
问题描述
我将如何删除以以下开头的字符串: {"filename": "\\network\test\etc\file0001.tif 并以 }]}]} 结尾
对象的长度因文件的大小、内容而异。
我开始在 python 中找出数据帧/熊猫,但我还不了解一般的 json 结构。
import pandas as pd
df = pd.read_json('Filelist.json')
--ColA in the index = "filename" (Need help here)--
dups = pd.read_csv('Deleted_Duplicates.csv')
df_final = df.loc[~df.ColA.isin(dups.Duplicates),:]
df_final.to_json('Filelist_NoDupes.csv',index=False)
我希望我可以忽略文件名所在的列,使用外部列表去除整个行/对象并输出新文件。
解决方案
您需要找出正确的转义,因为您没有要测试的工作示例,但它会是这样的:
df_final = df.loc[~df.ColA.str.match(pat = '\{"filename"\: "\\\\network\\test\\etc\\file0001.tif.*\}\]\}\]\}') ,:]
推荐阅读
- php - 未定义变量:laravel 中的产品
- r - stargazer可以同时输出SE和CI吗?
- flutter - 运行会话结束后不会保留对应用所做的更改
- flutter - Flutter按钮新主题copyWith不会改变颜色
- node.js - 对于等待(... of ...)不起作用。Babel 呈现环境,节点 v10
- java - Hibernate HQL select 与 where order by query 不同
- r - R:连接到未受保护的访问数据库时提示凭据对话框
- php - PHP 和 Laravel | 在 GroupBy 之后使用 OrderBy
- elasticsearch - 如何更改这些映射以具有嵌套字段?
- maven - rtMavenRun() Artifactory 插件不使用在 Jenkins 中配置的凭据