python - 在 pdf 中搜索特定单词并仅返回找到单词的 pdf 链接(Python)
问题描述
我正在尝试在许多 PDF 中搜索多个单词。这些 PDF 的链接保存在数据框中。目标是让 python 返回一个文本,说明“单词位于pdf 链接中”)。这是我到目前为止的代码:(仅供参考 g7 是保存链接的数据框的名称)。这里的问题是每次找到单词时代码都会多次返回相同的链接。
数据框(名为 g7)如下所示:
URL
0 https://westafricatradehub.com/wp-content/uploads/2021/07/RFA-WATIH-1295_Senegal-RMNCAH-Activity_English-Version.pdf
1 https://westafricatradehub.com/wp-content/uploads/2021/07/RFA-WATIH-1295_Activit%C3%A9-RMNCAH-S%C3%A9n%C3%A9gal_Version-Fran%C3%A7aise.pdf
2 https://westafricatradehub.com/wp-content/uploads/2021/08/Senegal-Health-RFA-Webinar-QA.pdf
3 https://westafricatradehub.com/wp-content/uploads/2021/02/APS-WATIH-1021_Catalytic-Business-Concepts-Round-2.pdf
4 https://westafricatradehub.com/wp-content/uploads/2021/02/APS-WATIH-1021_Concepts-d%E2%80%99Affaires-Catalytiques-2ieme-Tour.pdf
5 https://westafricatradehub.com/wp-content/uploads/2021/06/APS-WATIH-1247_Research-Development-Round-2.pdf
代码如下:
import glob
import pathlib
import PyPDF2
import re
import os
for i in range(g7.shape[0]):
pdf_link=g7.iloc[i,0]
download_file(pdf_link, f"pdf_{i}")
text = textract.process(f"/Users/fze/pdf_{i}.PDF")
# open the pdf file
object = PyPDF2.PdfFileReader(f"/Users/fze/pdf_{i}.PDF")
all_files = glob.glob('/Users/fze/*.pdf') #User input: give path to your downloads folder file path
latest_pdf_path = max(all_files, key=os.path.getctime)
path = pathlib.PurePath(latest_pdf_path)
latest_pdf_name=path.name
print(latest_pdf_name)
# get number of pages
NumPages = object.getNumPages()
# define keyterms
search_word = 'organization'
# extract text and do the search
for i in range(0, NumPages):
page = object.getPage(i)
text = page.extractText()
search_text = text.lower().split()
for word in search_text:
if search_word in word:
print("The word '{}' was found in '{}'".format(search_word,pdf_link))
谢谢 !
解决方案
推荐阅读
- xamarin - Xamarin 表单无法更改 Listview SelectedItem 上的图像
- django - 将 Sentry/Raven 与 Django 和 PythonAnywhere 一起使用时,“警告:我们检测到 uwsgi 与禁用线程的使用”
- javascript - 多重导入 ES6
- unit-testing - RXJava 2.0 深度嵌套链无法执行部分
- angular - Angular 6:将子项中的单击事件发送给父项
- php - Zend / PHP / Apache2 - 我运行我的apache服务器时出现问题
- office-js - 将用于获取 Excel 表格数据作为元数据的 API url 存储在哪里?
- apache - 在 drupal root .htaccess 中创建重定向
- regex - 使用emacs中的replace-regexp匹配正则表达式中的符号+和*
- python - 在 df 上运行我的 python 循环并在 df 中打印响应