首页 > 解决方案 > 如果我想保留句子的顺序,在 NLTK 中矢量化文本数据的最佳方法是什么?

问题描述

我正在对文本数据进行分类并希望将其输入模型,但我遇到了一个问题。我不想使用 CountVectorizer,因为它不会保留它的结构,但也不想手动将每个单词转换为数组,因为效率低下。

在这种情况下,我可以使用哪些方法会有所帮助。

谢谢

标签: tensorflowkerasnlpnltk

解决方案


这不是对问题的直接回答,而是提供了一个视角。
如果词序列比词袋方法更重要,那么使用基于图的模型会有所帮助。例如,pycrfsuite是一个很好的起点。


推荐阅读