python - 从非结构化文本中提取产品名称
问题描述
我有这样的非结构化文本
Sample1
From: Gujarat, IN
To: Kerala, IN
Milk and egg, 100kg
Please handle with care.
Sample2
Hello,
(Tooth Brush and Paste)120KG in total
P/U: London, GB
Dest: QC, Canada
Keep the product away from heat
F:111-222 333
demo@gmail.com
http://www.sample123.com
像这些,我有几十万个不同产品的样品
从以上2个样本中,我想提取产品名称
来自样品 1的牛奶、来自样品 2的鸡蛋、牙刷、糊状物。
到目前为止我所做的事情
我在 Custom NER 上工作,使用 Spacy 从样本中提取产品,但效率不高,我观看了一些与 NER 相关的视频,还探索了堆栈溢出中的类似内容,但它并不能很好地解决我的问题。
我该如何进一步解决这个问题?
解决方案
推荐阅读
- python - 模板继承:将数据从父级传递给子级
- javascript - 防止 Html 数据表现得像脚本数据
- javascript - 在引导程序 4 中为表单提交按钮获取 5 秒加载微调器工作
- c# - C# 为什么 PropertyInfo.SetValue 改变源值
- tcl - Tcl 调用编号变量
- java - java中的提升和转换
- docker - 为什么在 docker 文件中添加注释会引发错误
- java - 双击后不启动 .jar 文件
- reactjs - 材料表刷新而不是附加 onRowAdd
- javascript - React js modal 与 ExpansionPanelDetails 和 Checkbox