machine-learning - 如何为 NLP 分类器使用多个文本特征?
问题描述
我正在尝试构建文本分类器,通常,我们有一个文本列和基本事实。但我正在研究一个数据集包含许多文本特征的问题。我正在探索如何利用不同的文本功能的不同方式。
例如,我的数据集如下所示
Index_no domain comment_by comment research_paper books_name
01 Science Professor Thesis needs Evolution of MOIRCS
more work Quiescent Deep
Galaxies as a Survey
Function of
Stellar Mass
02 Math Professor Doesn't follow Evolution of
Latex format Quiescent nonlinear
Galaxies as a dispersive
Function of equations
Stellar Mass
这只是一个虚拟数据集,这里我的基本事实 (Y) 是域,特征是comment_by
, comment
, research_paper
,books_name
如果我使用任何 NLP 模型(RNN-LSTM、Transformers 等),这些模型通常采用一个 3 个暗向量,因为如果我使用一个有效的文本列,但是文本分类器有多少文本特征?
我试过的:
1)加入所有列并制作一个长字符串
教授论文需要更多的工作静止星系演化作为恒星质量 MOIRCS 深度调查的函数
2)在列之间使用标记
<CB> Professor <C> Thesis needs more work <R> Evolution of Quiescent Galaxies as a Function of Stellar Mass <B> MOIRCS Deep Survey
其中<CB>
comment_by、<C>
comment、<R>
research_paper、<B>
books_name
我应该<CB>
在开始时使用还是这样使用?
Professor <1> Thesis needs more work <2> Evolution of Quiescent Galaxies as a Function of Stellar Mass <3> MOIRCS Deep Survey
3)为每一列使用不同的密集层(或嵌入)并将它们连接起来。
我已经尝试了所有三种方法,还有其他方法可以尝试提高模型的准确性吗?还是提取、组合、加入更好的特征?
提前致谢!
解决方案
以下是您可以尝试的一些事情:
1.)将research_paper
,book_name
和合并comment
成一个字符串。
2.) 将comment_by
其视为分类变量并使用一个热编码器或标签编码器对其进行编码。
3.) 无论您使用什么模型,调整超参数以改善结果。
一定要告诉我你得到的结果!
推荐阅读
- arrays - 是否可以像创建整数数组一样创建字符串数组?
- javascript - 有条件地传播道具并获得有关道具丢失的 TS 错误
- python - 如果键值对与另一个字典中的键值对相同,如何删除整个字典
- bash - 用它包含的唯一常规文件替换每个目录
- xgboost - XGBoost - 帮助解释助推器的行为。为什么第 0 次迭代总是最好的?
- python - 从html中提取图片url
- html - 两个单选按钮组无法使用 html 帮助器
- linux - 如何解决“在 mountinfo 中找不到 cgroup 挂载:未知”错误?
- arm - Valgrind 交叉编译 arm 32 位板 - 橙色 pi
- plot - 如何推送到 Julia 情节中的特定系列?