python - 如何从 Pandas Dataframe 中分离日文和英文文本?
问题描述
我有一个包含英文和日文文本的数据框列。像以下方式:
----IDs-------Texts ---------
132 | 復旧完了。よろしく頼む!
623 | This is an English text
2364 | "<@UD3JFBREV> 収集した日本語のツイートデータはどこにありますでしょうか"
... | .....
现在,我想从Texts
列中将英文文本与日文文本分开。我的新数据框应该只返回英文文本而忽略日文文本。我该怎么做?
解决方案
好吧,感谢上述可能的解决方案。不幸的是,这些并没有解决我的问题。它适用于我的数据集的方式是这样的:
df['Texts'] = df[~df.Texts.str.contains(r'[^\x00-\x7F]', na=False)]
这将删除包含任何非 ASCII 字符的所有行,使这些行成为 NaN。所以,我删除了 NaN 值,这些值从数据框中给了我所有的英文句子。
推荐阅读
- linux - 在 Ubunto Linux 中使用缓冲区文件运行命令时出错
- c - C中的对齐和填充
- php - 在线访问 xampp 服务器而不会被黑客入侵
- reactjs - 反应加载状态不显示
- reactjs - 通知用户新版本的 React App 可用的最佳实践?
- reactjs - 从 redux-thunk 获取租金时未定义租金?
- python - 使用窗口函数后无法理解时间的输出值?
- boost - Boost:named_mutex 是否需要磁盘 IO?
- spring - 使用 Spring Security 进行身份验证后,如何处理用户按下后退按钮?
- .net - 我们可以在 .NET Framework ASP.NET Web API 中使用 Entity Framework Core 吗?如果有怎么办?