首页 > 解决方案 > 清理抓取的数据 Python

问题描述

我试图学习如何抓取网站,但在将输出导入 Excel 时无法弄清楚如何“清理”数据。这是我使用的代码:

在此处输入图像描述

但是,当打开 Excel 文件时,需要对输出进行一些清理:

在此处输入图像描述

我认为我应该把“.text”放在我不知道在哪里的地方。我尝试添加 .text 如下所示,但它导致“AttributeError:'NoneType'对象没有属性'text'”

for i in links:
    index.append([i.attrs['title']]).text
    summary.append([i.attrs["aria-label"]]).text

标签: python-3.xexcel

解决方案


您是在告诉 Python通过使用额外的括号将列表附加到indexand列表中。 试试这个:summary

for i in links:
    index.append(i.attrs['title'])
    summary.append(i.attrs["aria-label"])

您仍然会在摘要列中看到一些丑陋的信息。您可以使用replaceRegEx来清理它。如果您提供所需的输出,我可以对其进行编辑以包含用于替换字符的适当代码。

另外,index是 Python 中方法的名称,所以我会为此选择不同的列表名称。


推荐阅读