首页 > 解决方案 > 文本语义预处理

问题描述

假设我有一个车祸数据集。每起事故都有一个使用一组摄像机和其他传感器进行的文字描述。

假设现在我只有一个相机的数据(例如正面),我想删除所有与它无关的描述句子。我认为一个基本且简单的解决方案可能是使用布尔检索系统,该系统使用一组特定的关键字来删除不需要的句子,但我也不知道这是否是一个好主意,或者它是否可以工作;有人可以建议我吗?什么样的统计数据可能对研究这个问题有用?谢谢

标签: nlpstatisticsdata-miningtext-processinginformation-retrieval

解决方案


正则表达式可能是一种解决方案。我创建了一个匹配单词“front”的正则表达式,不区分大小写,它搜索front,然后得到一个或多个匹配的整个句子。结果可以从开始的空白处修剪一些。(可能也可以通过一些微调来删除。)

如果您需要“front”、“rear”、“side”、“right”、“left”或其他,您可以通过一些从列表中获取值的变量来交换单词。

正则表达式示例 https://regex101.com/r/ZHU0kr/5


推荐阅读