首页 > 解决方案 > 从不易分离的文本中提取现有单词

问题描述

所以,我有一组“词”,比如:

{'machine learning', 'r', 'python', 'neural networks', 'c', 'c#', 'docker'}

我有一个包含我感兴趣的单词的文本(以粗体显示),例如:

一般而言:在与机器学习/人工智能相关的主题方面为我们提供支持,即算法开发、PythonC或 C++ 中的数据准备和处理、神经网络训练、实时执行神经网络的部署、结果的可视化、生成性能统计等

文本大约 3000-5000 个字符,大约 400-550 个字长。我感兴趣的单词集目前有 3000 个独特的“单词”长度。


我的第一个版本是通过将所有单词转换为小写并删除特殊符号来规范化我的文本,然后用空格分隔并检查文本中的每个单词是否存在于一组有趣的单词中,并记住那些存在于文本。

问题:

解决此任务的合适算法是什么?此外,性能在某种程度上很重要,因为这是 Web 端点的一部分。

标签: pythonalgorithmtextmatchingstring-matching

解决方案


推荐阅读