python-3.x - 双语原始数据的文本分类
问题描述
我有一个超过 10000 行的 CSV 文件。
我试图根据自然语言将文本隔离在一个特定的列('short_desctiption')中。
大多数文本具有标准格式,例如(德语文本//英语文本),但有时缺少一种语言或格式不正确。
请建议一种为每种语言对两列进行分类的方法
print(data_sel[['number','short_description']].head(5))
输出如下:
number short_description
0 INC37263694 Internet geht nicht//Internet is not working
1 INC4836555 OUTLOOK Benutzung nicht möglich // unable to user outlook
2 INC3981320 Ich habe Problem emich im Igel anzumelden
3 INC5579940 forgot password // Hat Kennwort vergessen
4 INC4882640 Agent Desktop doest start, the desktops are changed
解决方案
推荐阅读
- d3.js - D3 - 有条件地将制造商添加到生产线
- angular - 在 Angular 中绑定数据后,Select 根本不显示
- css - 在 Outlook 中的同一 TD 中垂直对齐图像和文本
- regex - 匹配两个字符之间的字符串
- ios - 如何在 Xcode 模拟器上点击特定点
- ruby-on-rails - 使用 SecureRandom.hex 时出现重复的可能性有多大?
- java - 嵌套的while循环赋值在Java中给出了意想不到的结果
- google-dfp - 如何使用 api (PHP) 获得展示位置的 Google 广告经理印象?
- sql-server - 列出在 mssql 中销售最多的客户
- docusignapi - Docusign 模板文本未通过 api 更新