python - 输入 Universal Sentence Encoder 的数据是否应该标准化?
问题描述
我目前正在为我的 B.Sc使用 Tensor Flow 的通用句子编码器 ( https://arxiv.org/pdf/1803.11175.pdf )。我研究提取摘要技术的论文。在这项任务的绝大多数技术中(如https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855),句子首先被规范化(小写,停用词删除,lemmantisation),但我找不到提示是否应该首先规范化输入到 USE 的句子。是这样吗?有关系吗?
解决方案
选择实际上取决于设计的应用。
关于停用词删除和词形还原:这些操作通常会从文本中删除一些内容,因此,它可以删除信息。但是,如果它没有产生影响,那么您可以删除。(最好都尝试一下。一般来说,性能差异不应该太大)。
小写取决于您使用的预训练模型(例如,在 BERT 中,您有bert-base-uncased
和bert-base-cased
)和应用程序的选择。一种简单的验证方法是将文本输入到 USE 模型中,获得它的句子嵌入,然后将相同的输入文本小写并获得它的句子嵌入。如果它们相同,则意味着您的模型不区分大小写。但是,如果它给出不同的嵌入,那么它是区分大小写的。(通过运行此处提供的程序,USE 似乎区分大小写)。小写字母的选择再次取决于应用程序。
推荐阅读
- css - 如何为 4 个项目增加这个 css 动画?
- gnuplot - 在 GnuPlot 中将两个不同大小的图合二为一
- python-3.x - Python unittest.mock google storage - 如何实现 exceptions.NotFound 作为副作用
- flutter - 如何在列表视图项中独立切换布尔值?
- ruby-on-rails - 模块中类的 Active Record 加入
- regex - 通过 htaccess 在 drupal 8 中提供静态子页面
- reactjs - 如何用 HOC 包装 forwardRef 组件?
- amazon-web-services - 如何使用 Terraform 将 S3 存储桶区域名称发送到 json 文件?
- javascript - Google Maps API - 检索 2 个坐标之间的道路距离
- autohotkey - 如何制作它以便您可以更改 GUI 中的热键?- 自动热键