python-3.x - 使用python从非结构化文本中提取数字实体
问题描述
我想使用神经模型(如使用 python 的 CRF)提取非结构化文本格式中提到的温度和持续时间等数值实体。我想知道如何进行数字提取,因为互联网上的大多数示例都是针对特定单词或字符串的提取。
输入:“在那里 5 分钟,我感觉就像在华氏 350 度的烤箱中烘烤”输出:温度:350 持续时间:5 分钟
解决方案
到目前为止,我的研究表明您可以将数字视为单词。
这就提出了一个问题:学习 5 可以,但 19684 将很难学习。
一种建议是转换成文字。“一万九千六百八十四”并嵌入每个单词。不方便的是,您现在正在学习一个(最小)6 维向量(每个单词一维)
根据您的使用情况,您还可以嵌入具有不同 id 的 0 到 3000,例如 3001 到 10000 将在您的字典中映射 id 3001,然后在字典中为每 10x 添加一个 id。
推荐阅读
- stenciljs - StencilJs 设置错字
- python - 大熊猫数据框管理
- python - 如何将 numpy 对象转换为常规 python 列表?
- reactjs - 在 React 中的事件处理程序上禁用不稳定的批处理更新()
- python - 如何在从图像中提取文本时进行线分割?
- vba - 周三启用/禁用周四从 6a 到 6a
- react-native - 我在这里的代码做错了什么我迷路了
- jquery - 当(msg=='OK')它唯一的执行else部分。请帮助找到解决方案
- android - how to change max length of linebreak in android studio IDE?
- airflow - 由于无法获取日志文件并且无法读取日志,气流任务间歇性失败