首页 > 解决方案 > 如何更准确地标记具有多种语言的单词数据列。?

问题描述

处理多语言分类数据集,其中一列有多种语言的文本,我尝试使用简单的标记化,但它的准确率较低。

我使用了简单的分词器,但准确率要低得多。

数据集有一列包含多语言文本。

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(num_words=18, lower=True)
tokenizer.fit_on_texts(data.overview)
sequences = tokenizer.texts_to_sequences(data.overview)
x = pad_sequences(sequences, maxlen=18)

我已经检查了 TF-Hub 上的universal-sentence-encoder-multilingual-large,但它没有与 keras 模型集成。

标签: pythonmachine-learningkerasmultilingual

解决方案


num_words构造函数中Tokenizer的不是序列长度,而是要使用的词汇的大小。因此,您将标记器设置为仅保留 18 个最常用的单词。大约 10,000 到 100,000 的值可能效果更好,具体取决于您使用的数据集的外观。


推荐阅读