首页 > 解决方案 > 给定一个有限的字符词汇表,表示具有统一长度的任意长字符序列的最简单方法是什么?

问题描述

我正在尝试为项目操作有限状态传感器。但是,在构建 FST 时,我需要每个输出符号都是来自输入符号的任意长字符序列,这些字符只是来自相关文本语料库的单个唯一字符。此外,我需要统一表示这些任意长的序列,以便每个组合的表示具有相同的长度。当然,对于任意长度,可能的最长组合具有无限长度,因此让我们假设没有组合可以比相关语料库中最长的文档更长。

换句话说,给定一个input_vocabularyof ['a', 'b', 'c'],一个output_vocabularyof['a', 'ab', 'acb', 'abcb']需要每个都表示为某个长度为 4 的向量,每个向量中的每个项目都是来自 的项目input_vocabulary。我唯一的想法是使用填充向量来做到这一点,例如,对于这个例子,[ [0, 3, 3, 3], [0, 1, 3, 3], [0, 2, 1, 3], [0, 1, 2, 1] ],其中3是一个填充标记,但我对此很陌生,所以任何帮助将不胜感激。

为了澄清,我想知道是否有办法在没有填充令牌的情况下做到这一点。

标签: data-representationfinite-state-automaton

解决方案


推荐阅读