tensorflow - 如果我想保留句子的顺序,在 NLTK 中矢量化文本数据的最佳方法是什么?
问题描述
我正在对文本数据进行分类并希望将其输入模型,但我遇到了一个问题。我不想使用 CountVectorizer,因为它不会保留它的结构,但也不想手动将每个单词转换为数组,因为效率低下。
在这种情况下,我可以使用哪些方法会有所帮助。
谢谢
解决方案
这不是对问题的直接回答,而是提供了一个视角。
如果词序列比词袋方法更重要,那么使用基于图的模型会有所帮助。例如,pycrfsuite是一个很好的起点。
推荐阅读
- postgresql - Npgsql 与 Kubernetes 上的 Pgbouncer - 池化和 keepalives
- python - 如何使用烧瓶和 MongoDB 将用户帖子与其会话链接?
- java - 如何在 JGraphT 中的图形上允许负权重?
- python-3.x - 如何在 Python 中构建基于类的装饰器?
- reactjs - 内联减速器和 useReducer 中的封闭道具
- google-sheets - 在行本身中显示值,但在数据透视表的摘要中显示 COUNT
- python-3.x - 一维 CNN 的输入高度必须保持不变吗?
- c# - c# 生成具有趋势和最大和最小偏移量的随机数
- python - 如何将大字符串转换为数据框?
- php - 如何在 MySQL 中搜索包含两个或多个以空格分隔的单词的字符串字段?