首页 > 解决方案 > 使用 Sphinx 进行多语言全文搜索

问题描述

我已经能够设置 sphinx 以进行英语的全文搜索。但是,我所拥有的是混合的多语言文本(印地语-英语),我需要在其上创建索引。

我找不到太多关于如何在 sphinx 中实现它的信息。

还是我需要切换到其他数据库。

标签: elasticsearchsolrsphinx

解决方案


一般来说,您“只需”设置charset_table以包含您要搜索的所有单词字符 http://sphinxsearch.com/docs/current/conf-charset-table.html

唉,默认设置只有真正定义好的英语和俄语字符集表——留给自己为其他语言实现 charset_table 规则。

wiki http://sphinxsearch.com/wiki/doku.php?id=charset_tables 确实有一个梵文列表可能可用?

Manticore Search(在评论中提到)默认情况下确实有更精细的 charset_tables。它的默认“non_cjk”应该支持印地语。既可以在 Manticore 中使用它,也可以(稍加努力)向后移植它并在 Sphinx 中使用它。 https://github.com/manticoresoftware/manticoresearch/tree/master/src/charsets


推荐阅读