首页 > 解决方案 > 使用 Python 的 wordsegment 包进行文本分割

问题描述

伙计们,

wordsegment在过去的几个小时里,我正在使用 Grant Jenks 的 python 库。该库适用于任何不完整的单词或分隔组合词,例如e nd ==> endthisisacat ==> this is a cat

我正在处理涉及数字的文本数据,并且在此文本数据上使用此库会产生相反的效果。increased $55 million or 23.8% for转换为非常奇怪的东西的完美文本increased 55millionor238 for(在重新调整的列表上执行连接操作之后)。请注意,对于文本中涉及数字的任何部分,这都是随机发生的(可能会发生也可能不会发生)。

谢谢你。

标签: pythontextnlptext-segmentationwordsegment

解决方案


需要帮助理解这个 Python 维特比算法时,有 Ruby 和 Python 中的实现。

算法(和那些实现)非常简单,复制和粘贴可能比使用库更好,因为(根据我的经验)这个问题几乎总是需要一些自定义以适应手头的数据(即语言/特定主题/自定义实体/日期或货币格式)。


推荐阅读