首页 > 解决方案 > 如何从数据库中提取研究论文的文本

问题描述

我想知道我是否可以制作一个算法,从数据库中提取研究论文的文本,比如 PubMed。

可能,查询语言是相关主题。

首先,一个搜索条件匹配的数据库程序,比如论文抄袭检查程序,可以用Python语言编写吗?

我认为论文抄袭检查程序给了我很多提示。

其次,这些程序如何搜索文本以检查与输入论文的相似性?

我发现很多研究论文不是免费的,他们的文本不允许直接搜索。

标签: sqldatabase

解决方案


我制作了一个名为Findpapers的工具,它对你很有用。它根据来自多个数据库(包括 PubMed)的关键字收集论文。

收集完论文的 PDF 后,我建议您使用Tesseract提取文本并进行任何您喜欢的处理。


推荐阅读