首页 > 解决方案 > 熊猫数据框列和行中的拆分列表

问题描述

我为一个网站编写了一个小爬虫,并获得了以下结构的列表:

'DRAFT ACT: OPEN\nSome Information \nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020', 'DRAFT ACT: OPEN\Some other Information\nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020,...

现在我想把这个文本列表分成一个熊猫数据框,将列\n和行分开,。不幸的是,我不知道如何接近他。有人可以帮我吗?有没有一种简单的方法可以使用 pandas 或其他包来拆分这个列表?

结果应如下所示:

     Column1          Column2                Column3 Column4  Column5 Columns6     Column7  Column8
Row1 DRAFT ACT: OPEN  Some Information       Topic   Justice  Type    Implementing Period   12.11.2020 - 10.12.2020'
Row2 DRAFT ACT: OPEN  Some other Information Topic   Justice  Type    Implementing Period   12.11.2020 - 10.12.2020'

非常感谢您!

标签: pythonpandaslistsplitweb-crawler

解决方案


假设你得到一个这样的字符串列表。

list1=['DRAFT ACT: OPEN\nSome Information \nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020', 'DRAFT ACT: OPEN\nSome other Information\nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020']

您可以迭代列表并在\n上拆分每个项目

喜欢:

list1=[x.split('\n') for x in list1]

或喜欢:

for idx,item in enumerate(list1):
    list1[idx]=item.split('\n')

现在您可以使用list1创建一个数据框。

import pandas as pd
df=pd.DataFrame(list1,columns=['Column1','Column2','Column3','Column4','Column5','Column6','Column7','Column8'])


推荐阅读