machine-learning - 如何建立一个不包含“自然语言”的文本分类机器学习模型?
问题描述
我正在为我们的日志注释分析寻找文本分类模型。
挑战在于每个笔记可能不包含“自然语言”文本。例如,一些注释是带有符号的线程回溯输出,一些注释是来自源代码的日志信息。在这些笔记中,一些描述客户如何使用我们产品的笔记是我们想要分类的。
是否有任何机器学习模型或方法可用于此文本分类?
以下是不同注释的一些示例(我更改了一些内容,因此没有显示公司机密材料):
为错误分析粘贴的回溯信息开发人员:
func118 4563453 344 = SYSTEM_FUNC_1 0x00000efa34343 0x0000000009f333a0 0xffe3ebdfd700 <<<<<
Total of 1 API working thread(s)
(gdb) thread find 0x123456
Thread 670 has target id 'Thread 0x123456 (LWP 443)'
(gdb) t 670
[Switching to thread 670 (Thread 0x123456 (LWP 443))]
#0 0x35353453563abcd in __lock_func1_ ()
from /disks/folder1/xxx/xxx_folder1/info_folder/info2_dir/lib64/libpthread.so.0
(gdb) ebt
#0 __lock_func1_()
#1 _LOCK_F_10()
#2 func_mod_4()
#3 func_mod_5()
#4 ModCon::disconnect()
#5 ModCon::abort()
#6 ModServ::disconnect()
#7 ModServManager::disconnect()
#8 mod1::func1()
#9 mod1::func2()
用于问题分析的产品日志:
cpu/MOD/MOD2/log/
start_mod.log:
Thu Dec 24 00:01:12 UTC 2019 FUN: HG: FILE_A: stopping
Thu Dec 24 00:01:12 UTC 2019 FUN: FILE_A: stopping, timeout -22-
Thu Dec 24 00:01:12 UTC 2019 system-state: cleared FILE_A_start_complete
Thu Dec 24 00:01:12 UTC 2019 FUN: FILE_A: run thread still running: con_b.pl FUN_run 0
Thu Dec 24 00:01:12 UTC 2019 FUN: FILE_A: calling con_b.pl FUN_cleanup 0, time left: -160-
Thu Dec 24 00:01:12 2019 cli: con_a.pl: FUN_cleanup for FILE_A
Thu Dec 24 00:01:12 2019 cmd: con_a.pl: sp got xxx error, will try to act_xxx
Thu Dec 24 00:01:13 UTC 2019 FUN: FILE_A: action 1
Thu Dec 24 00:01:13 UTC 2019 FUN: FILE_A: action 1 complete
Thu Dec 24 00:01:13 UTC 2019 FUN: FILE_A: action 2
用于配置的客户相关信息(这将是我想从所有笔记中分类和检索的最感兴趣的笔记):
Customer xxx has created func_xxx to protect their data,
they also perform daily backup of their data by using func_xxx2.
They totally created xxx3 objects in each node...
解决方案
推荐阅读
- html - 通过 main.scss 更改高度
- javascript - 将 Google Tag Manager (gtm) 安装到 Angular 应用程序
- swift - 在日历 Swift 中更改可见月份
- python-3.x - Asyncio 任务同步运行
- redis - 限制/清理 Redis 密钥
- bash - cmake中的bash命令将结果与阈值进行比较
- powerbi - PowerBI 日期过滤未将过滤器应用于报告内的潜在客户表
- angular - 服务功能无法在 Angular 中访问“this”
- python - tensorflow image_dataset_from_directory 中的 class_names 似乎是矩阵而不是向量
- mysql - 外键约束和引用列有什么区别?