python - 如何更准确地标记具有多种语言的单词数据列。?
问题描述
处理多语言分类数据集,其中一列有多种语言的文本,我尝试使用简单的标记化,但它的准确率较低。
我使用了简单的分词器,但准确率要低得多。
数据集有一列包含多语言文本。
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(num_words=18, lower=True)
tokenizer.fit_on_texts(data.overview)
sequences = tokenizer.texts_to_sequences(data.overview)
x = pad_sequences(sequences, maxlen=18)
我已经检查了 TF-Hub 上的universal-sentence-encoder-multilingual-large,但它没有与 keras 模型集成。
解决方案
num_words
构造函数中Tokenizer
的不是序列长度,而是要使用的词汇的大小。因此,您将标记器设置为仅保留 18 个最常用的单词。大约 10,000 到 100,000 的值可能效果更好,具体取决于您使用的数据集的外观。
推荐阅读
- android - MadiaStreamTrack 缩放功能未在 Android WebView 中返回,但适用于 Chrome
- haskell - 获取玫瑰树中节点的父节点
- azure - Azure 应用程序配置是否甚至适用于 Kubernetes 托管的 ASP .NET Core 应用程序?
- sql - 如何使用以下参数编写 SQL 查询
- python - 我需要从句子中找到给定单词的同义词。举个例子
- vue.js - 使用 v-show/v-if 和 Vue 制定表单模式
- android - 在 Android Studio 的 RecyclerView 中单击按钮时更改按钮的颜色
- openlayers - 如何确定地图*将*移动多少而不移动它
- ios - 单击菜单时,CocoPod SideMenu 不起作用
- r - source("filename") 和 R-Studio 中的源按钮之间有区别吗