fasttext - 将挪威文本检测为丹麦语的 fasttext 模型
问题描述
我正在使用 fasttext (v=0.9.1) 来检测文本的语言(参见this)。
使用此模型时,挪威语文本被检测为丹麦语。
!curl "https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin" > lid.bin
import fastText
language_detector=fastText.load_model('lid.bin')
language_detector.predict('Hei Jeg viser til hyggelig sam', k=3)
输出:
(('__label__da', '__label__no', '__label__hu'),
array([9.16624188e-01, 8.25065151e-02, 2.37607688e-04]))
有什么帮助吗?
解决方案
似乎很难区分挪威语和丹麦语(见此)。
fastText 不是特别适合这个任务。
您可以尝试使用polyglot,这是一个专门用于多语言 NLP 的 python 库。
from polyglot.detect import Detector
detector = Detector('Hei Jeg viser til hyggelig sam')
print(detector)
输出:
Prediction is reliable: True
Language 1: name: Norwegian code: no confidence: 96.0 read bytes: 1189
Language 2: name: un code: un confidence: 0.0 read bytes: 0
Language 3: name: un code: un confidence: 0.0 read bytes: 0
推荐阅读
- oracle - 在 Oracle 中插入多行
- facebook-graph-api - 反正有没有使用 Facebook v2.6 API 而不是最新的 v3.0 API?
- react-native - 在共享对话框中显示我的应用程序
- wordpress - 汇总自定义帖子字段中的特定元值
- powershell - PowerDesigner COM 对象在 Windows Server 2012 上为空
- javascript - 克隆的 DOM 结构上的 Angular 5 点击事件未触发
- c# - Assign vs create new delegate
- java - weblogic.j2ee.dd.xml.AnnotationProcessException(基于 weblogic 12c 和 spring5 java 的配置)
- python - 按间隔在每个单元格上创建带有标签的矩阵
- android - 更新 Gradle 依赖项后无法解决