首页 > 解决方案 > 如何遍历包含 HTML 文件的目录并识别字符串前后的行,然后打印到 CSV?

问题描述

我想在 Python 中实现以下目标:我希望能够从充满 HTML 文件的目录(带有子目录)中提取单词“apple”之后的 10 行。我想将这些行打印到 CSV 文件中。理想情况下,CSV 文件将包含两个变量:1)HTML 文件名和 2)单词“apple”前后的 10 行。

更新:我能够提取。

import collections
import itertools
import sys
import csv
import glob

for filepath in glob.glob('**/*.html', recursive=True):
    with open(filepath) as f:
        before = collections.deque(maxlen=10)
        for line in f:
            if 'peer' in line:
                sys.stdout.writelines(before)
                sys.stdout.write(line)
                sys.stdout.writelines(itertools.islice(f, 10))
                break
            results=before.append(line)
            print(results)

我将研究 CSV 步骤,但我们将不胜感激

标签: pythonhtmlcsv

解决方案


推荐阅读