cluster-analysis - 无监督学习,不同的技术和查询
问题描述
我必须根据数据预测,哪个灾难管理团队应该对事故做出反应——警察/救援/消防队/救护车等。
问题有几个部分 -
唯一 ID -(数字的组合)
每个ID的多个句子的文本数据,
例如:造成的损坏是由于冰雹造成的。人们没有遵守救援指示,而且粗心大意。伤害很高。- 总共 50k 个不同的 ID 和文本
几个结构化数据字段 - 如位置、类型、严重性等 - 总共 400 个变量
解决问题的方法:
- 获取文本数据和 ID 并计算 TFIDF、余弦相似度、Doc2Vec、主题模型
现在我必须合并结构化数据和非结构化数据来制作集群。由于它是一种无监督学习,因此不确定如何综合以上所有内容以从数据中获取一些意义。
总的来说,我现在有 - 400 个变量,来自 TFIDF 的 10000 个分数值,但我是:
- 不确定如何将余弦相似度与数据框联系起来
- 不确定如何将 Doc2Vec 用于集群
- 不确定如何使用主题模型
最终目标 - 创建可以研究的集群,以区分如果 ID 包含某些关键字,它应该转到特定的管理团队 - 例如:盗窃/谋杀/抢劫 - 都应该是一个集群,我可以将警察与该集群相关联
解决方案
推荐阅读
- javascript - 如何使用节点从文本文件中读取多个对象?
- ruby-on-rails - 从活动记录/postgres 迁移到 mongodb/mongoid,我无法创建/保存
- c# - 无法从 LiteDb 存储和检索数据
- karma-runner - HeadlessChrome 84.0.4147 (Linux 0.0.0) 错误
- kotlin - 在流程中实施退避策略
- jaxb - 创建 Jax2b 编组器 Formatted_Output 属性不起作用
- azure - Azure B2C - 使用查询图的 REST API 将声明中的组发送到 SAML SP
- xquery - 我们可以在eclipse中使用xquery吗?
- mapbox - 如何使用loadImage在mapbox中添加svg作为标记?
- mysql - MySQL存储错误的时间戳