python - 使用正则表达式根据单引号拆分熊猫行中的列表
问题描述
我在熊猫数据框中有一列,其中包含字符串列表。每个字符串用逗号分隔。
一行中的列表如下所示:
list = ['banana bread is yummy', 'i hate to have some more bread, can't we eat apples?', 'apples are not good for you, they make you hungry']
我一直在尝试根据正则表达式在列的每一行中拆分列表以获得以下输出:
banana bread is yummy
i hate to have some more bread, can't we eat apples?
apples are not good for you, they make you hungry
但是当我使用
s = df.assign(conversation=df['conversation'].str.split(',')).explode('conversation')
整个列表用逗号分隔,无论它们是否在同一个字符串中。给我这个输出:
banana bread is yummy
i hate to have some more bread
can't we eat apples?
apples are not good for you
they make you hungry
关于如何使用正则表达式的任何建议?我尝试了几件事,但得到的结果非常随机。
编辑:
我尝试的另一种方法是:
df['conversation'] = df['conversation'].str.strip('[]')
我首先从每一行中删除方括号,然后拆分所有内容。虽然这种方法有效,但它给我留下了随机的空行。
解决方案
我只能根据这里的回复回答我自己的问题:-)
s = df.assign(conversation =df['conversation'].str.split(",(?=(?:[^\']*\'[^\']*\')*[^\']*$)")).explode('conversation')
推荐阅读
- c# - 我有将日期转换为二进制然后转换为十六进制的 SQL 查询?我如何在 c# 上编写相同的逻辑?
- c# - 使用 DefaultRequestHeaders 发送请求两次?
- git - git merge 命令以 1 退出,如果它已经是最新的
- azure - PowerShell Azure 存储模拟器
- android - Android 应用程序是否可以忽略所有物理用户输入?
- android - ImageButton 自动旋转选中的图片
- ios - 如何在容器视图中显示 WKWebView 内容
- c# - 使用 .NET Core 和 Angular 6 启用 CORS
- protocol-buffers - 解码 protobuf 二进制文件——得到“无法解析输入”
- maven - 在 Maven (pom.xml) 和 Gradle (build.gradle) 之间共享依赖版本