python - 如何对从 pdf 文档中提取的数字列表进行排序?
问题描述
我是python的初学者,现在已经在这个问题上停留了几天。使用 PyPDF2,我提取了我当地的流量统计列表。但是,尝试使用 sorted() 对列表进行排序是行不通的。这是附加列表的程序片段:
pages = pdfReader.getNumPages()
for i in range(0, pages):
PageObj = pdfReader.getPage(i)
Text = PageObj.extractText()
count = re.compile(r'\d?\d,\d\d\d')
parsedcounts = count.findall(Text)
allcounts.append(parsedcounts)
如果它有任何用处,这里是 allcounts 列表:https ://pastebin.com/Tn69QViE
我在列表中发现的一些问题首先是千位分隔符(但我不知道 python 是否可以读取这些分隔符),并且该列表似乎已经为每页创建了一个索引,而不是每个术语都创建了索引。
这也是我的第一篇文章,所以如果您需要任何其他资源或想对格式发表评论,请这样做。
解决方案
推荐阅读
- html - 角度 4+ 水平调整 div 大小
- mysql - 是否值得使用 ORM
- blockchain - 是否可以在 genesis.json 中预定义智能合约?
- html - 嵌入在iframe中的html5 pdf文件无法在ios中滚动
- javascript - 关闭父窗口/停止传播
- node.js - 如何使用 Express 将 powershell 命令结果推送到 NodeJs 中的 json 响应?
- entity-framework-6 - 如何从具有实体框架的 DbDataReader 加载每个层次结构类型的表?
- apache-flink - 来自目录的 Apache Flink 流式处理文件
- r - 无法在 R 版本 3.5 - Windows 10 上安装 R 的 data.table
- c# - 使用 TextInfo.ListSeparator 追加字符串数组