首页 > 解决方案 > 无法从文件夹中保存的所有 pdf 的第一页中提取值

问题描述

我在文件夹中保存了一些 22 个 pdf 文件。pdf 是法文的,第一页包含一行文本,开头有日期。我正在尝试从第一页的每一页中提取日期并将其放入数据框中。但是当我运行代码时,它产生的日期值行数比 22 多。

这是我写的代码

chk_files = os.listdir("C:\\Users")
new_pdf_files = [fil for fil in chk_files if ".pdf" in fil]
for fil in new_pdf_files:
    object = PyPDF2.PdfFileReader(fil)
    NumPage = object.getNumPages()
    for i in range(0, NumPage):
        pdfFileObj = open(fil, 'rb')
        pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
        pageObj = pdfReader.getPage(0)
        s= (pageObj.extractText())
        partitioned_string = s.partition('B')
        partitioned_string[0]
        translator = google_translator()
        translate_text = translator.translate(partitioned_string[0],lang_src='fr', lang_tgt='en')  
        string_date= str(translate_text)
        upper_string_date=string_date.upper()
        dt = parse(upper_string_date)
        announement_date = print(dt.strftime('%d-%B-%Y').upper())
print(announement_date)

所有第一页都有这样一行文字

“24 mai 2021BULLETIN DES ANNONCES LEGALES OBLIGATOIRESBulletin n°622102172Page 1Avis de convocation / avis de réunion'”我正在尝试提取开头的第一个日期

输出

2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2 月 24 日021 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 5 月 24 日- 2021 年 5 月 24 日 2021 年 24 月2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日 24- 2021 年 5 月 2021 年 5 月 24 日 2021 年 5 月 24 日 2021 年 5 月 24 日

它来了 196 次,但应该是 22

标签: pythontext-extraction

解决方案


推荐阅读