python - 如何对文本数据进行整数编码值?
问题描述
我一直在研究如何为深度学习模型准备数据集。
如果我们有这样的数据,
data = [['this', 'is'], ['not', 'with']]
首先他们得到我们语料库中单词的频率。基于词频整数标签被分配给词。
更频繁的单词被分配1,然后是2,依此类推。
我的问题是为什么我们需要这样做?我们不能只是为单词随机分配整数值吗?如果我们遵循该规则,它会提高准确性吗?
解决方案
我怀疑它对准确性有任何影响,除非你以后做一些不寻常的事情
我可以看到它对以下方面有影响:
- 性能:常用词将聚集在一起(接近第零个索引),因此很可能最终一起出现在缓存中
- 人工解释/可读性:字符串/显示输出将趋于“更整洁”,常用词需要更少的数字
- 轻松处理生僻字;所有超过某个阈值的索引值都表明该词是罕见的,并且可以映射到某个占位符/被忽略(取决于模型如何处理这个)
推荐阅读
- docker - Docker golang busybox“没有这样的文件或目录”错误
- laravel - 错误 500:Mailgun 的服务器当前无法访问
- flutter - 使用多个构造函数创建自定义小部件
- php - PHP S3Client uploadAsync 方法的测试错误处理
- javascript - 如何在Angular中切片一个json数组
- python - 如何运行泊松过程模拟?
- apache-spark - AKS 中的火花。错误:无法找到或加载主类 org.apache.spark.launcher.Main
- javascript - 如何组合有序数组中的字符串来构建句子
- jenkins - Jenkins 管道外壳输出不如预期
- javascript - 如何使用 javascript 创建数字猜谜游戏并做出反应?