首页 > 解决方案 > 无监督学习,不同的技术和查询

问题描述

我必须根据数据预测,哪个灾难管理团队应该对事故做出反应——警察/救援/消防队/救护车等。

问题有几个部分 -

  1. 唯一 ID -(数字的组合)

  2. 每个ID的多个句子的文本数据,

    例如:造成的损坏是由于冰雹造成的。人们没有遵守救援指示,而且粗心大意。伤害很高。- 总共 50k 个不同的 ID 和文本

  3. 几个结构化数据字段 - 如位置、类型、严重性等 - 总共 400 个变量

解决问题的方法:

  1. 获取文本数据和 ID 并计算 TFIDF、余弦相似度、Doc2Vec、主题模型

现在我必须合并结构化数据和非结构化数据来制作集群。由于它是一种无监督学习,因此不确定如何综合以上所有内容以从数据中获取一些意义。

总的来说,我现在有 - 400 个变量,来自 TFIDF 的 10000 个分数值,但我是:

最终目标 - 创建可以研究的集群,以区分如果 ID 包含某些关键字,它应该转到特定的管理团队 - 例如:盗窃/谋杀/抢劫 - 都应该是一个集群,我可以将警察与该集群相关联

标签: cluster-analysisdata-miningtopic-modelingunsupervised-learningdoc2vec

解决方案


推荐阅读