首页 > 解决方案 > 使用python从非结构化文本中提取数字实体

问题描述

我想使用神经模型(如使用 python 的 CRF)提取非结构化文本格式中提到的温度和持续时间等数值实体。我想知道如何进行数字提取,因为互联网上的大多数示例都是针对特定单词或字符串的提取。

输入:“在那里 5 分钟,我感觉就像在华氏 350 度的烤箱中烘烤”输出:温度:350 持续时间:5 分钟

标签: python-3.xnlpnamed-entity-recognition

解决方案


到目前为止,我的研究表明您可以将数字视为单词。

这就提出了一个问题:学习 5 可以,但 19684 将很难学习。

一种建议是转换成文字。“一万九千六百八十四”并嵌入每个单词。不方便的是,您现在正在学习一个(最小)6 维向量(每个单词一维)

根据您的使用情况,您还可以嵌入具有不同 id 的 0 到 3000,例如 3001 到 10000 将在您的字典中映射 id 3001,然后在字典中为每 10x 添加一个 id。


推荐阅读