首页 > 解决方案 > 非结构化数据方法和解决方案

问题描述

我有很多非结构化/半结构化数据,想想,电子邮件有基本的收件人/发件人/主题,但有很多正文包含各种其他类型的数据。如果包含地理数据,我希望挖掘这一点以告知某些自动化、见解甚至热图。

不过,我正在尝试以正确的方式解决问题。从系统架构到设计系统和流程,是否有人有“操作顺序”?

尽我所能:第 1 步是定义存放数据的“桶”第 2 步是在 to/from/subject 数据周围应用图表或一般结构,例如。第 3 步可能是应用 NLP 或 Watson 来挖掘特定关键字或情绪的非结构化数据。围绕重要发现的用例将推动所有这一切。然后,第 4 步可以应用“找到”的结构并从那里构建功能、自动化和流程。

这有任何意义吗?希望我走在正确的轨道上,但很想听听想法。

标签: data-structuresnlpdata-sciencedata-warehouse

解决方案


推荐阅读