首页 > 解决方案 > Microsoft 自然语言列表:是否有“无语言”或“原始 unicode”或“语言中立”的等价物?

问题描述

Microsoft 自然语言列表中是否存在与“非语言”或“原始”等效的内容,这会导致断词(即标记化)算法仅使用空格作为分隔符?

编辑:或者有没有办法告诉微软的技术只有在它附加到词素时才使用句点作为标记分隔符?

具体问题(对我们而言)是 SQL Server 中的全文搜索在对文本进行标记时使用句点作为分隔符。但是我们的文本包含有意义的“非词汇”字符串JC7D.14GR.2345DG,我们希望在不搜索每个块的情况下搜索这些字符串,(JC7D and 14GR and 2345DG)或者(JC7D NEAR 14GR NEAR 2345DG)当这些值出现在彼此非常接近的列表中时,这种单独的块方法会产生误报。

标签: sql-servernlpfull-text-searchtokenize

解决方案


推荐阅读