首页 > 解决方案 > 双语原始数据的文本分类

问题描述

我有一个超过 10000 行的 CSV 文件。

我试图根据自然语言将文本隔离在一个特定的列('short_desctiption')中。

大多数文本具有标准格式,例如(德语文本//英语文本),但有时缺少一种语言或格式不正确。

请建议一种为每种语言对两列进行分类的方法

print(data_sel[['number','short_description']].head(5))

输出如下:

       number                                  short_description
0  INC37263694 Internet geht nicht//Internet is not working
1  INC4836555  OUTLOOK Benutzung nicht möglich // unable to user outlook
2  INC3981320  Ich habe Problem emich im Igel anzumelden 
3  INC5579940  forgot password // Hat Kennwort vergessen
4  INC4882640  Agent Desktop doest start, the desktops are changed

标签: python-3.xtext-processingknn

解决方案


推荐阅读