首页 > 解决方案 > 使用 file.readline(size) 后忽略读取的其余行

问题描述

一个问题

我有一个 Python 应用程序,它将部署在不同的地方。因此,Nasty 先生很可能会修改该应用程序。

所以问题与安全有关。该应用程序将接收从远程源接收的文件(纯文本)。该设备的 RAM (Raspberry Pi) 数量非常有限。

很有可能向脚本提供非常大的输入,这将是一个大麻烦。
我想避免“按原样”读取文件的每一行,而是只读取该行的第一部分,例如。44 字节,忽略其余部分。

因此,为了这个案例,一个非常粗略的样本:

lines = []
with open("path/to/file.txt", "r") as fh:
    while True:
        line = fh.readline(44)
        if not line:
            break
        lines.append(line)

这是可行的,但如果一行超过 44 个字符,下一次读取将是该行的其余部分,甚至是同一行的多个 44 字节长的部分。演示:

print(lines)
['aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa',
 'aaaaaaaaaaaaaaaaaaaaaaaaa \n', 
 '11111111111111111111111111111111111111111111', 
 '111111111111111111111111111111111111111\n', 
 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb', 
 'bbbbbbbbbbbbbbb\n', 
 '22222222222222222222222222222222222222222\n',
 'cccccccccccccccccccccccccccccccccccccccccccc', 
 'cccccccccccccccccccccccccccccccccccccccccccc', 
 'cccc\n', 
 '333333333333\n', 
 'dddddddddddddddddddd\n']

这不会使我免于将整个内容读取到变量并可能导致整洁的DOS

我认为也许 usingfile.next()会跳到下一行。

lines = []
with open("path/to/file.txt", "r") as fh:
    while True:
        line = fh.readline(44)
        if not line:
            break   
        if line != "":
            lines.append(line.strip())
            fh.next()

但这会引发错误:

Traceback (most recent call last):
  File "./test.py", line 7, in <module>
    line = fh.readline(44)
ValueError: Mixing iteration and read methods would lose data

...我对此无能为力。我已经阅读过,file.seek()但它确实没有任何能力(由文档)。

同时,我正在写这篇文章,实际上我自己已经弄清楚了。它是如此简单,几乎令人尴尬。但我想我会完成这篇文章并将其留给可能有同样问题的其他人。

所以我的解决方案:

lines = []
with open("path/to/file.txt", "r") as fh:
    while True:
        line = fh.readline(44)
        if not line:
            break
        lines.append(line)
        if '\n' not in line:
            fh.readline()

所以输出现在看起来像这样:

print(lines)
['aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa',
'11111111111111111111111111111111111111111111',
'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
'22222222222222222222222222222222222222222\n',
'cccccccccccccccccccccccccccccccccccccccccccc',
'333333333333\n',
'dddddddddddddddddddd\n']

哪个足够接近。

我不敢说这是最好的或好的解决方案,但它似乎可以完成这项工作,而且我根本没有将行的冗余部分存储在变量中。

但只是出于好奇,我实际上有一个问题。 如上:

fh.readline()

当您调用这样的方法而不将其输出重定向到变量时,它在哪里存储输入,它的生命周期是多少(我的意思是如果它被存储,它什么时候会被销毁)?

谢谢大家的投入。我学到了一些有用的东西。

我真的不喜欢这种工作方式file.read(n),尽管大多数解决方案都依赖它。

感谢你们,我想出了一个改进的解决方案,仅使用file.readline(n)

limit = 10
lineList = []
with open("linesfortest.txt", "rb") as fh:
    while True:

        line = fh.readline(limit)
        if not line:
            break

        if line.strip() != "":
            lineList.append(line.strip())
        while '\n' not in line:
            line = fh.readline(limit)

print(lineList)

如果我的想法是正确的,内部 while 循环将读取行的相同块,直到它读取 EOL 字符,同时,它会一次又一次地只使用一个大小的变量。这提供了一个输出:

['"Alright,"', 
 '"You\'re re', 
 '"Tell us!"', 
 '"Alright,"', 
 'Question .', 
 '"The Answe', 
 '"Yes ...!"', 
 '"Of Life,', 
 '"Yes ...!"', 
 '"Yes ...!"', 
 '"Is ..."', 
 '"Yes ...!!', 
 '"Forty-two'] 

从内容来看

"Alright," said the computer and settled into silence again. The two men fidgeted. The tension was unbearable.
"You're really not going to like it," observed Deep Thought.
"Tell us!"
"Alright," said Deep Thought.
Question ..."
"The Answer to the Great
"Yes ...!"
"Of Life, the Universe and Everything ..." said Deep Thought
"Yes ...!" "Is ..." said Deep Thought, and paused.
"Yes ...!"
"Is ..."
"Yes ...!!!...?"
"Forty-two," said Deep Thought, with infinite majesty and calm.

标签: pythonsecurity

解决方案


当你这样做时:

f.readline()

从文件中读取一行,分配一个字符串,返回,然后丢弃。

f.readline()如果您有非常大的行,即使您不存储该值,您也可以通过调用(在某些文件损坏时发生)耗尽内存(在分配/重新分配阶段) 。

限制线路的大小是可行的,但如果你f.readline()再次调用,你会得到线路的其余部分。诀窍是跳过剩余的字符,直到找到行终止字符。我将如何做的一个简单的独立示例:

max_size = 20
with open("test.txt") as f:
    while True:
        l = f.readline(max_size)
        if not l:
            break   # we reached the end of the file
        if l[-1] != '\n':
            # skip the rest of the line
            while True:
                c = f.read(1)
                if not c or c == "\n":  # end of file or end of line
                    break
        print(l.rstrip())

该示例读取一行的开头,如果该行已被截断(即当它没有以行终止结尾时),我读取该行的其余部分,将其丢弃。即使线路很长,也不会消耗内存。简直太慢了

关于组合next()and readline():这些是并发机制(手动迭代与经典行读取),它们不能混合,因为一种方法的缓冲可能会被另一种方法忽略。但是你可以混合read()readline()for循环和next()


推荐阅读