postgresql - 如何在 PostgreSQL 的文本列中检测除英语以外的其他语言(非拉丁语)?
问题描述
我有一个包含两列的表:一列是 id,另一列是文本列。我只想保留文本值为英文的行。
我所说的语言是使用非拉丁字母的语言,例如阿拉伯语、汉语和西里尔语。这个问题在 2012 年左右被问到,我想知道是否有一些新的解决方案,而不是用另一种编程语言来处理它!
解决方案
这不是一个容易的问题。那里有几个用于语言检测的库(例如 langdetect),但它们在数据库中不起作用,因此您必须通过选择它们来处理所有记录,用另一种语言处理它们,然后在测试失败时删除它们. 此外,准确率不是很高,并且随着文本变短而降低;如果您的文本只是几个单词,那么准确性非常可怕。
推荐阅读
- c# - web api没有返回响应,但返回时形成数据
- javascript - 如何将 map / foreach 与相邻项目一起使用?
- sql - 如何使用 PL/SQL 分析函数计算遗漏中位数
- arrays - 将数组输出到 Excel
- android - 使用 socket.io 制作后台服务以显示通知
- vue.js - 如何在 Vuejs 上进行图表专家更新
- python-3.x - 删除列表中重复项的简单方法
- javascript - 如何正确解析一组 Fetch 响应
- docker - 您的连接不是私人的(此证书无法通过受信任的验证机构进行验证)
- c# - 为什么 C# 配置系统在 IIS 作为 CGI 运行时无法初始化?