首页 > 解决方案 > 清洁数据导入 Neo4J 数据库

问题描述

我是 Neo4j 和数据分析新手。我正在寻找编程方式来格式化从 Active Directory 收集的数据,以准备将其导入 Neo4j。现在,我正在使用 PowerBI 和 DAX Studios 以我需要的方式清理数据,但这并不高效,并且仍然需要大量手动干预。我也在尝试使用 OpenRefine 来做这件事,但我想看看专家们是怎么想的。

我的终极愿景是能够获取原始文件并将其上传到 Web 前端,使用一些黑魔法过程将数据格式化为我需要的样子,然后将其上传到新的 Neo4j 后端进行分析。一旦数据在后端,我就可以走了。我有一个收集器进程来进入环境并收集原始信息。这只是从 A 点到 B 点的旅程。感谢您提供任何帮助。谢谢!

标签: neo4jdata-cleaningdata-scrubbing

解决方案


关于数据清洗的话题。当我从 .csv 文件中导入数据时,我经常使用:apoc.map.clean 函数来删除空值 http://neo4j-contrib.github.io/neo4j-apoc-procedures/3.5/utilities/map-functions/

此外,在解析大型 CSV 文件时,我经常删除不需要的密钥

LOAD CSV WITH HEADERS FROM 'file:///segment_data.csv' as line FIELDTERMINATOR ','
WITH line LIMIT 1
WITH apoc.map.removeKeys(line, [i in keys(line) WHERE NOT i contains 'cust_']) as custKeys
WITH custKeys
RETURN apoc.map.clean(custKeys,[], ["","NA"]) AS output

推荐阅读