python - 如何从(单个)句子中获取上下文?
问题描述
我对 NLP 还很陌生,
我想实现一个基于 python 的聚类算法,它将具有:
上下文/主题提取 - 来自标题声明(可能包含不超过 6-7 个单词)
聚类算法
所以问题是,我有一堆声明(20 个声明 * 每个声明 5-6 个词 = 100-120 个词)都与标题声明相关。并且算法应该能够对它们进行聚类。
对于 (1) - 作为输入,首先我将有一个标题,我想从该标题中提取各种主题,例如:
标题:“制造装配线中的问题” - 从这里我想提取类似的东西
1. 机械问题
2. 电气问题
3. 线人管理
4.供应链管理问题......
并使用这些提取的主题对这些语句进行聚类。我可以执行聚类的第二个任务,但是如何从包含不超过 6-7 个单词的单个语句中提取主题?
语言:英语
知道如何解决第一个问题吗?
解决方案
那么简短的版本是你需要更多的数据。您可以制作一个主题模型(我建议您研究 LDA - 可能是guidedLDA),但您肯定需要更多......好吧一切。首先,6 个不同的文档还远远不够。其次,6 个单词/文档也不够。您是否有任何理由想从标题而不是完整文档中提取主题 - 因为至少完整文档会有更多单词?
推荐阅读
- java - 当应用程序处于后台时,android线程一直滞后
- tabulator - 如何在制表器中居中列标题?
- scikit-learn - Scikit-learn:带有 GridSearchCV 的 StackingRegressor
- bash - 在 Ubuntu 中使用 BASH 由 INDEX 访问的关联数组变量
- google-cloud-functions - 为什么日志报告成功时云功能无法返回?
- javascript - Javascript - 如何通过 ID 和名称获取元素?
- ios - 在不影响键盘的情况下更改安全区域的背景
- yubico - 从 yubikey 获取凭证以实现无密码
- ssis - SSIS编辑脚本任务并保存它不起作用
- delay - 如何根据来源定义延迟时间?