azure-cognitive-search - Azure 搜索:日文搜索片假名和平假名
问题描述
我用 ja.microsoft 分析器创建了搜索索引,就我在 katkana 中搜索字符而言,它工作正常。但是当使用平假名字符时,搜索不起作用并且不返回搜索结果。
例:用平假名搜索名字不能打到片假名名字,反之亦然: 要打“外星谷キツ”(名字是片假名),但搜索“きつ”(平假名)。打不开。点击“元广あえか”(片假名的拼音字符),搜索“アエカ”;但是,它没有得到它。</p>
Azure 搜索是否支持任何支持所有写作方案(平假名、Kankana、Kanji 等)的分析器,或者我需要为此使用其他一些技术?
解决方案
Lucene 和 Microsoft 日语分析器都不会为平假名生成片假名标记,反之亦然。分析器将为给定的音节创建标记。
您可以使用分析 API查看为特定字符串生成了哪些令牌。
例如,使用以下输入调用分析 API:
{
"text": "元廣 あえか",
"analyzer": "ja.microsoft"
}
返回:
{
"@odata.context": "https://service-name.search.windows.net/$metadata#Microsoft.Azure.Search.V2019_05_06.AnalyzeResult",
"tokens": [
{
"token": "元廣",
"startOffset": 0,
"endOffset": 2,
"position": 0
},
{
"token": "あえか",
"startOffset": 3,
"endOffset": 6,
"position": 1
}
]
}
推荐阅读
- angular - 如何在Angular中的组件顶部显示微调器
- python - ImportError numpy.core.multiarray 导入失败
- azure - 找不到模块:'Az.Accounts' - 在 VM 规模上设置 Azure Windows 数据中心 2019
- apache-spark - 通过sqlquery读取大表时pyspark无法生成作业
- matplotlib - 在 seaborn 中,如何关闭 xaxis 标题,但保留 xaxis 标签和刻度?
- r - 排序和删除元素后如何恢复向量的原始顺序?
- graphql - 无法连接到 WebSocket 端点 [apollo-server-express with GooglePubSub]
- javascript - 使用 vue 公式上传多张图片
- r-markdown - 4 级和 5 级标题未包含在 officedown 的目录中
- javascript - 如何找出具有相似类的块划掉固定块(getBoundingClientRect)?