首页 > 解决方案 > 如何对从 pdf 文档中提取的数字列表进行排序?

问题描述

我是python的初学者,现在已经在这个问题上停留了几天。使用 PyPDF2,我提取了我当地的流量统计列表。但是,尝试使用 sorted() 对列表进行排序是行不通的。这是附加列表的程序片段:

    pages = pdfReader.getNumPages()
for i in range(0, pages):
    PageObj = pdfReader.getPage(i)
    Text = PageObj.extractText()
    count = re.compile(r'\d?\d,\d\d\d')
    parsedcounts = count.findall(Text)
    allcounts.append(parsedcounts)

如果它有任何用处,这里是 allcounts 列表:https ://pastebin.com/Tn69QViE

我在列表中发现的一些问题首先是千位分隔符(但我不知道 python 是否可以读取这些分隔符),并且该列表似乎已经为每页创建了一个索引,而不是每个术语都创建了索引。

这也是我的第一篇文章,所以如果您需要任何其他资源或想对格式发表评论,请这样做。

标签: pythonlistpypdf2

解决方案


推荐阅读