python - BS4:我将如何删除不必要的 html 标签并只保留
和标签?
问题描述
我很可能通过使用正则表达式来实现这一点,但我觉得必须有一种更简单的方法来实现这一点。可悲的是,我倾向于使一切变得比应有的更难。
<p><span class="colorL"><ruby>三重県<rt>みえけん</rt></ruby></span>の<span class="colorL"><ruby>伊賀市<rt>いがし</rt></ruby></span>は、<a class="dicWin" href="javascript:void(0)" id="id-0000"><ruby><span class="under">忍者</span><rt>にんじゃ</rt></ruby></a>の<a class="dicWin" href="javascript:void(0)" id="id-0001"><span class="under">ふるさと</span></a>だと<ruby>言<rt>い</rt></ruby>われています。</p>
解决方案
像这样:
data = BeautifulSoup(your_html, 'html.parser')
clean_data = (data.find_all('p'),data.find_all('ruby'))
print(clean_data)
要获取这些标签中的内容/文本:
p_text = clean_data.find_all('p').get_text()
让我知道这个是否奏效。
推荐阅读
- java - 如何在 Java 中获取泛型类型类的类
- css - react-scripts build 打包时忽略 css 文件
- javascript - 如何使用 JavaScript 使 Css 类消失和出现
- powershell - New-PSSession 冻结脚本
- python - 读取 csv 文件中的特定单元格
- windows - for循环在Windows .bat文件中不起作用
- javascript - 如何使线框像方形网格但不是连接节点的类型?
- javascript - 如何从多个元素复制属性值并将每个元素复制到不同的元素?
- pandas - 乳胶不能解析“_”下划线符号吗?
- node.js - 上传到应用程序时压缩和减小图像大小的最佳方法是什么?