python - 使用python清理文本中具有特定类型垃圾的字符串
问题描述
我想从这个字符串中提取出有意义的文本。如何清理这种特定类型的字符串。
'<div dir="auto">I booked a flight ticket from Trivandrum to Mumbai<div
dir="auto"><br></div><div dir="auto">Amount debited from my
account.</div><div dir="auto"><br></div><div dir="auto">But
ticket not received yet.</div><div dir="auto"><br></div><div
dir="auto">Please check</div></div> '
预期输出:
I booked a flight from Trivandrum to Mumbai Amount debited from my account. But
ticket not received yet. Please check
import re
def cleanhtml(raw_html):
cleanr = re.compile('<.*?>')
cleantext = re.sub(cleanr, '', raw_html)
return cleantext
cleanhtml(cleanr)
'<div dir="auto">I booked a flight ticket from Trivandrum to
Mumbai<div dir="auto"><br></div><div
dir="auto">Amount debited from my account.</div><div
dir="auto"><br></div><div dir="auto">But
ticket not received yet.</div><div
dir="auto"><br></div><div dir="auto">Please
check</div></div> '
字符串没有清理,请提出一些解决方案
解决方案
推荐阅读
- c# - 以 xamarin 形式将对象放置在 TabbedPage 上的绝对位置
- python - 将列表的字典转换为字典中列表中元素的所有梳的字典列表的最pythonic方法?
- xcode - 无法初始化可可豆荚
- python-3.x - 将数字限制为特定的小数位
- javascript - 根据另一个排序数组
- javascript - 需要在 Antd Datepicker 中编辑 Moment 以显示月份的全名
- google-app-maker - 离开人员的用户选择器行为是什么?
- python - 如何正确按字母顺序对混合大小写的字符进行排序?
- javascript - 在不同元素的不同事件上触发相同的功能
- sql - Oracle 仅显示已更改的列