python - 使用 Python 的 wordsegment 包进行文本分割
问题描述
伙计们,
wordsegment
在过去的几个小时里,我正在使用 Grant Jenks 的 python 库。该库适用于任何不完整的单词或分隔组合词,例如e nd
==> end
和thisisacat
==> this is a cat
。
我正在处理涉及数字的文本数据,并且在此文本数据上使用此库会产生相反的效果。increased $55 million or 23.8% for
转换为非常奇怪的东西的完美文本increased 55millionor238 for
(在重新调整的列表上执行连接操作之后)。请注意,对于文本中涉及数字的任何部分,这都是随机发生的(可能会发生也可能不会发生)。
- 以前有人用过这个库吗?
- 如果是,您是否遇到过类似情况并找到解决方法?
- 如果没有,你知道任何其他为我们做这个技巧的 python 库吗?
谢谢你。
解决方案
在需要帮助理解这个 Python 维特比算法时,有 Ruby 和 Python 中的实现。
算法(和那些实现)非常简单,复制和粘贴可能比使用库更好,因为(根据我的经验)这个问题几乎总是需要一些自定义以适应手头的数据(即语言/特定主题/自定义实体/日期或货币格式)。
推荐阅读
- python - 无法从空序列中选择蝗虫错误
- ios - 使用 Apple 登录:如何将多个应用程序分组到不同的开发者帐户下?
- docker - 如何在 Jenkins Blue Ocean 中运行“sidecar”容器?
- python - 导入这个模块有什么问题?
- vb.net - 有没有办法用用户定义的名称打开一个 IE 窗口。当打开相同的 URL 时,已经打开的 IE 窗口进入前台
- java - 找不到类型 java.sql.Date。您是否缺少对类路径的依赖?当我尝试运行测试时
- angular - 在 Angular 中,如何将我的发布请求的响应作为参数之一传递给另一个发布请求?
- sql-server - 如何使用以下语句创建表
- kubernetes - K3s traefik 入口返回网关超时
- spring - 出现以下错误,有什么解决方法吗?我正在尝试从 OAM 转换为 OKTA 以进行身份验证