首页 > 解决方案 > 用于改进推荐系统的多语言自由文本项文本分类

问题描述

为了完善买家物料组的推荐系统,我司愿意使用客户历史消费数据训练一个模型。该模型应在历史“短文本描述”上进行训练,以预测适当的 BMG。该数据集有超过 500.000 行,文本描述是多语言的(最多 40 个字符)。

1.问题:如果我考虑到描述是多种语言的事实,我可以使用监督学习吗?如果是,是否适合多项式朴素贝叶斯或 SVM 等经典方法?

2.问题:如果我想改进第一个模型以防它表现不佳,并使用无监督的多语言嵌入来构建分类器。以后如何在数字标签上训练这个分类器?

如果您有其他想法或方法,请随意:)。(这是一个简单的文本分类问题)

标签: nlpmultilingualtext-classificationunsupervised-learningsupervised-learning

解决方案


如果我考虑到描述是多种语言的事实,我可以使用监督学习吗?

是的,这不是问题,只是它会使您的数据更加稀疏。如果您实际上每个项目只有 40 个字符(那不是 40 个单词吗?),您可能没有足够的数据。此外,监督学习的主要挑战是您是否有数据标签。

如果是,是否适合多项式朴素贝叶斯或 SVM 等经典方法?

它们会像往常一样工作,尽管如今构建矢量表示可能是更好的选择。

如果我想改进第一个模型以防它表现不佳,并使用无监督的多语言嵌入来构建分类器。以后如何在数字标签上训练这个分类器?

假设数字标签是原始数据上的标签,您可以将它们添加为像 LABEL001 这样的标记,如果您想创建一个无监督的推荐器,模型可以学习它们的表示。


老实说,这些天我不会从朴素贝叶斯或经典模型开始,我会直接使用词向量作为聚类的第一个测试。使用 fasttext 或 word2vec 非常简单。主要问题是,如果每个项目真的只有 40 个字符,那可能就没有足够的数据来进行有用的聚类。


推荐阅读