data-representation - 给定一个有限的字符词汇表,表示具有统一长度的任意长字符序列的最简单方法是什么?
问题描述
我正在尝试为项目操作有限状态传感器。但是,在构建 FST 时,我需要每个输出符号都是来自输入符号的任意长字符序列,这些字符只是来自相关文本语料库的单个唯一字符。此外,我需要统一表示这些任意长的序列,以便每个组合的表示具有相同的长度。当然,对于任意长度,可能的最长组合具有无限长度,因此让我们假设没有组合可以比相关语料库中最长的文档更长。
换句话说,给定一个input_vocabulary
of ['a', 'b', 'c']
,一个output_vocabulary
of['a', 'ab', 'acb', 'abcb']
需要每个都表示为某个长度为 4 的向量,每个向量中的每个项目都是来自 的项目input_vocabulary
。我唯一的想法是使用填充向量来做到这一点,例如,对于这个例子,[ [0, 3, 3, 3], [0, 1, 3, 3], [0, 2, 1, 3], [0, 1, 2, 1] ]
,其中3
是一个填充标记,但我对此很陌生,所以任何帮助将不胜感激。
为了澄清,我想知道是否有办法在没有填充令牌的情况下做到这一点。
解决方案
推荐阅读
- azure - azure blob 并行 blob 删除
- python - python 3中的列表值(ValueError)问题
- html - 有没有办法阻止CKeditor放置块引用的引号内的元素
- jenkins - 在 Jenkins 声明性管道中的 docker .withRun 命令中使用空格转义参数
- javascript - 是否可以更改 Google Chatbot 的“卡片”“宽度”?
- ruby-on-rails - 如何修复捆绑版本不兼容?
- c++ - 修复安装 OSRM 时使用“make”命令时的构建问题
- c++ - 是否有用于 boost::numeric::interval 长度的内置函数
- python - 在 Jupyter 仪表板视图中相互堆叠的单元格
- list - 遍历包含值列表的 shell 参数并将这些值写入文件