python - 使用 Transformer 进行多语言场景文本识别的单一模型

问题描述

我正在研究印度语言的场景文本识别问题。最近我偶然发现了这篇论文。它使用视觉转换器来识别英语文本。
我正在尝试为印度语言复制相同的模型，但有一个变化。而不是只识别一种语言的单词，我必须用单一模型识别 3 种语言，印地语、泰米尔语和卡纳达语。因此该模型应该识别图像中的语言（脚本）和单词。

使用变压器，我对如何做到这一点有一些想法。在这张图片中。用于场景文本识别的基本转换器架构
我们将 n 个特征向量（绿色框）和一个额外的类标记（蓝色框）一起输入到编码器，编码器输出 n+1 个向量。我们可以使用编码器第一个输出向量（图像中的蓝色向量）来检测类（又名脚本）。解码器使用剩余的向量来计算注意力。解码器进行最终的单词预测。
我想以某种方式将知识从输出类向量转移到解码器，以便解码器在每一步都预测来自同一脚本的字符。（例如，如果编码器预测语言是印地语，那么解码器应该预测印地语中的字符作为输出）在训练中，模型应该学习预测单词的语言（脚本）并预测单词。整个模型应该是端到端可训练的。

标签： pythondeep-learningpytorch

python - 使用 Transformer 进行多语言场景文本识别的单一模型

问题描述

解决方案

推荐阅读