nlp - 如何查找与命名实体相关的所有维基百科页面?
问题描述
给定一个文本,我希望找到与文本中提到的命名实体相关的所有维基百科页面的链接。有没有可靠的方法来做到这一点?
例如,考虑文本,
Mark Elliot Zuckerberg 是美国互联网企业家和慈善家。
" 鉴于此,我正在查看带有以下链接的输出:
- https://en.wikipedia.org/wiki/Mark_Zuckerberg
- https://en.wikipedia.org/wiki/Americans
- https://en.wikipedia.org/wiki/Internet
- https://en.wikipedia.org/wiki/Entrepreneurship
- https://en.wikipedia.org/wiki/Philanthropy
考虑到 NLP 的当前状态,这可能吗?非常感谢!
解决方案
正如@Jindřich 告诉你的那样,你应该毫无疑问地看看实体链接,有时还有(命名的)实体消歧或“维基化”。学术界在这个主题上做了很多工作(看看 TAC、KBP、NEEL 挑战)。
许多软件都这样做,仅举几例:
请注意,结果高度依赖于您将处理的文本类型,并且您可能需要在使用软件之前评估它们的可靠性。
推荐阅读
- python - 函数返回无效的 int() 字面量,基数为 10:''
- webpack - Webpack 4. ReferenceError: require is not defined
- javascript - 导出 jQuery 自定义插件
- python-3.x - Python yaml 解析错误
- node.js - 添加多个占位符时,快速路由不起作用
- clojure - 如何在 Clojure 中访问表单的各个字段?
- firebase - 如何在 Firebase 函数中使用通知?错误:无法处理请求
- javascript - Ruby on Rails 和 React/Redux, Uncaught TypeError: (0 , _tasks.getTask) is not a function
- angular - 如何从网络摄像头录制视频(使用 Angular 4)并将其发送到后端(Spring-boot)?
- sas - 根据 Proc Sql ,SAS 中的条件将一列拆分为两列