python-3.x - 如何根据内容删除不相关的数据
问题描述
我创建了一个程序来抓取比特币和以太坊等加密货币的各种新闻来源,并将文章存储在 mongodb 中。刮板刮掉的不仅仅是与加密有关的文章,现在我正在尝试删除不相关的文章。
我将数据下载到 .csv 并使用 pandas 来检查和清理数据。列如下:
Index(['_id', 'author', 'title', 'description', 'url', 'urlToImage',
'publishedAt', 'content', 'summarization', 'source_id']
我专注于内容栏以尝试提取不相关的文章。我的困境是确定查找和删除不相关文章的最佳方法。
我的思考过程是找到所有不包含以下字符串的文章并删除它们:
(['cryptocurrency', 'cryptocurrencies', 'bitcoin', 'ethereum']
但是,我不确定这是否是最有效的方法。任何人都可以推荐解决这个问题的方法吗?
解决方案
你可以这样做。由于您没有提供数据示例。输入假设如下(仅使用 2 列进行演示)
输入
content Cost
cryptocurrency 1
cryptocurrencies 2
bitcoin 3
ethereum 4
tesla 5
something 6
else 7
cryptocurrency xyz 8
代码
not_relevant=['cryptocurrency', 'cryptocurrencies', 'bitcoin', 'ethereum']
df[~df.content.str.contains('|'.join(not_relevant), regex=True,case=False)]
输出
content Cost
tesla 5
something 6
else 7
推荐阅读
- xamarin - Xamarin.Forms.Visual.Material 大纲文本字段
- android - 如何在 Flutter 中制作推送通知设置页面?
- machine-learning - 在 Keras 工作流程中使用 NLTK 分词器
- firebase - Firebase 数据库触发器返回 null
- swift - 使用 Swift,我如何为 NSSplitView 的 .setPosition() 方法设置动画,而不会在视觉上拉伸其内容?
- c# - .NET 中是否有 DateTime 设置,它会根据文化自动将格式设置为 12 或 24 小时制?
- java - 无法编写 JSON:没有找到类 FileDescriptor 的序列化程序,也没有发现用于创建 BeanSerializer 的属性,从静止状态返回 PDF
- c# - 尝试读取 XMLfile 并仅使用 c# 从一个子节点中获取数据
- python - 对数据框中的值进行排序,但将具有相同值的项目的顺序随机化
- azure-logic-apps - Azure Logic App Recurrence Trigger - 是否可以在周末跳过触发?