python - 如何遍历包含 HTML 文件的目录并识别字符串前后的行,然后打印到 CSV?
问题描述
我想在 Python 中实现以下目标:我希望能够从充满 HTML 文件的目录(带有子目录)中提取单词“apple”之后的 10 行。我想将这些行打印到 CSV 文件中。理想情况下,CSV 文件将包含两个变量:1)HTML 文件名和 2)单词“apple”前后的 10 行。
更新:我能够提取。
import collections
import itertools
import sys
import csv
import glob
for filepath in glob.glob('**/*.html', recursive=True):
with open(filepath) as f:
before = collections.deque(maxlen=10)
for line in f:
if 'peer' in line:
sys.stdout.writelines(before)
sys.stdout.write(line)
sys.stdout.writelines(itertools.islice(f, 10))
break
results=before.append(line)
print(results)
我将研究 CSV 步骤,但我们将不胜感激
解决方案
推荐阅读
- jquery - 如何获取 data-id Laravel 的值
- java - WebView:继承/获取默认浏览器的功能(Android)
- swift - 在 RxSwift/MVVM 中使用“ViewState”
- c# - C#读取另一个进程内存
- css - 如何使用具有绝对位置的内容使 div 背景颜色具有一定大小?
- c++ - LNK2019 使用 libcurl 时出错
- c - 对链表进行排序时出现分段错误
- apache-spark - 分析的逻辑计划中的 SubqueryAlias 节点是什么?
- java - Android textview id by string
- weblogic - JDeveloper 服务器实例域无效