首页 > 解决方案 > 如何从(单个)句子中获取上下文?

问题描述

我对 NLP 还很陌生,

我想实现一个基于 python 的聚类算法,它将具有:

所以问题是,我有一堆声明(20 个声明 * 每个声明 5-6 个词 = 100-120 个词)都与标题声明相关。并且算法应该能够对它们进行聚类。

对于 (1) - 作为输入,首先我将有一个标题,我想从该标题中提取各种主题,例如:

标题:“制造装配线中的问题” - 从这里我想提取类似的东西

1. 机械问题

2. 电气问题

3. 线人管理

4.供应链管理问题......

并使用这些提取的主题对这些语句进行聚类。我可以执行聚类的第二个任务,但是如何从包含不超过 6-7 个单词的单个语句中提取主题?

语言:英语

知道如何解决第一个问题吗?

标签: pythonmachine-learningnlp

解决方案


那么简短的版本是你需要更多的数据。您可以制作一个主题模型(我建议您研究 LDA - 可能是guidedLDA),但您肯定需要更多......好吧一切。首先,6 个不同的文档还远远不够。其次,6 个单词/文档也不够。您是否有任何理由想从标题而不是完整文档中提取主题 - 因为至少完整文档会有更多单词?


推荐阅读