首页 > 解决方案 > 如何对文本数据进行整数编码值?

问题描述

我一直在研究如何为深度学习模型准备数据集。

如果我们有这样的数据,

data = [['this', 'is'], ['not', 'with']]

首先他们得到我们语料库中单词的频率。基于词频整数标签被分配给词。

更频繁的单词被分配1,然后是2,依此类推。

我的问题是为什么我们需要这样做?我们不能只是为单词随机分配整数值吗?如果我们遵循该规则,它会提高准确性吗?

标签: pythontensorflowtextdeep-learningnlp

解决方案


我怀疑它对准确性有任何影响,除非你以后做一些不寻常的事情

我可以看到它对以下方面有影响:

  • 性能:常用词将聚集在一起(接近第零个索引),因此很可能最终一起出现在缓存中
  • 人工解释/可读性:字符串/显示输出将趋于“更整洁”,常用词需要更少的数字
  • 轻松处理生僻字;所有超过某个阈值的索引值都表明该词是罕见的,并且可以映射到某个占位符/被忽略(取决于模型如何处理这个)

推荐阅读