首页 > 解决方案 > 如何从 Pandas Dataframe 中分离日文和英文文本?

问题描述

我有一个包含英文和日文文本的数据框列。像以下方式:

----IDs-------Texts ---------
    132   |  復旧完了。よろしく頼む! 
    623   |  This is an English text 
    2364  |  "<@UD3JFBREV> 収集した日本語のツイートデータはどこにありますでしょうか" 
    ...   |  .....

现在,我想从Texts列中将英文文本与日文文本分开。我的新数据框应该只返回英文文本而忽略日文文本。我该怎么做?

标签: pythonpandasnlpdata-processing

解决方案


好吧,感谢上述可能的解决方案。不幸的是,这些并没有解决我的问题。它适用于我的数据集的方式是这样的:

df['Texts'] = df[~df.Texts.str.contains(r'[^\x00-\x7F]', na=False)]

这将删除包含任何非 ASCII 字符的所有行,使这些行成为 NaN。所以,我删除了 NaN 值,这些值从数据框中给了我所有的英文句子。


推荐阅读