首页 > 解决方案 > 如何基于 Fine-Tuned BERT 模型从文本中提取特征

问题描述

我正在尝试对一些数据进行二进制预测,这些数据有一列带有文本,而另外一些列带有数值。我的第一个解决方案是在文本上使用 word2vec 来提取 30 个特征并将它们与随机森林中的其他值一起使用。它产生了很好的结果。我有兴趣改进 TEXT to FEATURE 模型。

然后我想通过使用 BERT 来改进特征提取算法。我设法实现了一个预训练的 BERT 模型来进行特征提取,并对 word2vec 进行了一些改进。

现在我想知道,如何根据我的数据微调 BERT 模型——以改进特征提取模型——为我的随机森林算法获得更好的文本到特征。我知道如何为二进制预测器 (BertForSequenceClassification) 微调 BERT,但不知道如何微调它以制作更好的 BERT 文本到特征提取模型。我可以以某种方式使用 BertForSequenceClassification 中的图层吗?我花了 2 天时间试图找到解决方案,但到目前为止还没有成功......

亲切的问候,彼得

标签: tensorflowwordembedding

解决方案


是的,你可以微调 BERT,然后提取特征。我已经做到了,但它确实没有产生很好的改进。通过微调然后提取文本特征,文本特征略微适应您的自定义训练数据。它仍然可以通过两种方式完成。使用微调然后提取特征,或者您可以继续从 BERT 的检查点进行预训练(在您的自定义数据上应用 MLM),然后进行特征提取。


推荐阅读