首页 > 解决方案 > 开始情绪分析项目的最佳实践?

问题描述

在我对人工智能和情感分析进行了大量研究后,我发现了两种进行文本分析的方法。

文本预处理完成后,我们必须创建一个分类以获得正面和负面,所以我的问题是最好有例子:

第一种方式:

第二种方式:100条文本记录进行训练,制作词袋词汇,以基于该词袋训练和比较测试记录。

如果我的问题有误,请给我打电话并纠正我的问题。

标签: pythonnltksentiment-analysis

解决方案


我认为您可能会在这里遗漏一些东西,因此要训练情绪分析模型,您将拥有一个训练数据,其中每一行都有标签(正面或负面)和一个原始文本。为了使计算机能够理解或“看到”文本,是通过将文本表示为数字(因为计算机无法理解文本),因此将文本表示为数字的一种方法是使用词袋(还有其他方法可以表示文本,如TF/IDFWORD2VEC等)。因此,当您使用数据训练训练模型时,程序应该预处理原始文本,然后它应该(在这种情况下)制作一个词袋映射,其中每个元素位置代表一个词汇表,如果这个词将变为 1 或更多存在于文本中,如果不存在则为 0。

现在假设训练结束,那么程序产生一个模型,这个模型就是你保存的,所以当你想测试一个数据时,你不需要再次重新训练程序。现在当你想测试时,是的,你将使用训练数据的词袋映射,假设测试数据集中有一个词在训练数据集中从未出现过,那么只需将其映射为 0。

简而言之:

当你想测试时,你必须使用来自数据训练的词袋映射


推荐阅读