sql-server - Microsoft 自然语言列表:是否有“无语言”或“原始 unicode”或“语言中立”的等价物?
问题描述
Microsoft 自然语言列表中是否存在与“非语言”或“原始”等效的内容,这会导致断词(即标记化)算法仅使用空格作为分隔符?
编辑:或者有没有办法告诉微软的技术只有在它附加到词素时才使用句点作为标记分隔符?
具体问题(对我们而言)是 SQL Server 中的全文搜索在对文本进行标记时使用句点作为分隔符。但是我们的文本包含有意义的“非词汇”字符串JC7D.14GR.2345DG
,我们希望在不搜索每个块的情况下搜索这些字符串,(JC7D and 14GR and 2345DG)
或者(JC7D NEAR 14GR NEAR 2345DG)
当这些值出现在彼此非常接近的列表中时,这种单独的块方法会产生误报。
解决方案
推荐阅读
- performance - 使用 IIS Express 监视性能计数器
- modelica - 如何在 Modelica 中存储和插入多维、可变大小的数组?
- javascript - 处理 JSON
- gradle - 打包 tornadofx 应用程序时出现不受支持的 major.minor 版本错误
- karate - 验证来自具有多个数据的 xpath 位置的数据
- c# - 如何拆分 Grid 以仅使某些元素可滚动?
- c++ - 'for循环'在3次迭代后退出
- c# - "System.Net.Mail.SmtpException" Asp.NET
- excel - Excel Vba - 选择命名范围的行
- swift - 如何在 MacOS 上使用 Swift 中的自动布局使视图在 x 轴上居中?