python - 熊猫数据框列和行中的拆分列表
问题描述
我为一个网站编写了一个小爬虫,并获得了以下结构的列表:
'DRAFT ACT: OPEN\nSome Information \nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020', 'DRAFT ACT: OPEN\Some other Information\nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020,...
现在我想把这个文本列表分成一个熊猫数据框,将列\n
和行分开,
。不幸的是,我不知道如何接近他。有人可以帮我吗?有没有一种简单的方法可以使用 pandas 或其他包来拆分这个列表?
结果应如下所示:
Column1 Column2 Column3 Column4 Column5 Columns6 Column7 Column8
Row1 DRAFT ACT: OPEN Some Information Topic Justice Type Implementing Period 12.11.2020 - 10.12.2020'
Row2 DRAFT ACT: OPEN Some other Information Topic Justice Type Implementing Period 12.11.2020 - 10.12.2020'
非常感谢您!
解决方案
假设你得到一个这样的字符串列表。
list1=['DRAFT ACT: OPEN\nSome Information \nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020', 'DRAFT ACT: OPEN\nSome other Information\nTopic\nJustice\nType\nImplementing\nPeriod\n12.11.2020 - 10.12.2020']
您可以迭代列表并在\n上拆分每个项目
喜欢:
list1=[x.split('\n') for x in list1]
或喜欢:
for idx,item in enumerate(list1):
list1[idx]=item.split('\n')
现在您可以使用list1创建一个数据框。
import pandas as pd
df=pd.DataFrame(list1,columns=['Column1','Column2','Column3','Column4','Column5','Column6','Column7','Column8'])
推荐阅读
- python - django 更新时传递必填字段
- docker - 在 docker linux 容器中运行 Telerik 报告 pdf 生成
- python - 在内存中用 Python 查询现有/下载的 SQLite 数据库,而无需先将其写入磁盘
- volume - 如何找到一个点的 3 个切片索引?
- spring - aws elastic beanstalk / S3 该页面是通过 HTTPS 加载的,但请求了一个不安全的 XMLHttpRequest 端点
- python - django模型对象重用而不擦除数据
- android-jetpack-compose - 如何将作为参数传递的修饰符添加到修饰符的末尾?
- php - 如何在 php 中显示数据库中的登录数据而不显示其他数据库中的数据?
- rest-assured - RestAssured LogConfig.blacklistedHeaders 错误
- python - 通过 Python 连接电报机器人的问题