首页 > 解决方案 > 使用 Transformer 进行多语言场景文本识别的单一模型

问题描述

我正在研究印度语言的场景文本识别问题。最近我偶然发现了这篇论文。它使用视觉转换器来识别英语文本。
我正在尝试为印度语言复制相同的模型,但有一个变化。而不是只识别一种语言的单词,我必须用单一模型识别 3 种语言,印地语、泰米尔语和卡纳达语。因此该模型应该识别图像中的语言(脚本)和单词。

使用变压器,我对如何做到这一点有一些想法。在这张图片中。用于场景文本识别的基本转换器架构
我们将 n 个特征向量(绿色框)和一个额外的类标记(蓝色框)一起输入到编码器,编码器输出 n+1 个向量。我们可以使用编码器第一个输出向量(图像中的蓝色向量)来检测类(又名脚本)。解码器使用剩余的向量来计算注意力。解码器进行最终的单词预测。
我想以某种方式将知识从输出类向量转移到解码器,以便解码器在每一步都预测来自同一脚本的字符。(例如,如果编码器预测语言是印地语,那么解码器应该预测印地语中的字符作为输出)在训练中,模型应该学习预测单词的语言(脚本)并预测单词。整个模型应该是端到端可训练的。

标签: pythondeep-learningpytorch

解决方案


推荐阅读