python - 开始情绪分析项目的最佳实践?
问题描述
在我对人工智能和情感分析进行了大量研究后,我发现了两种进行文本分析的方法。
文本预处理完成后,我们必须创建一个分类以获得正面和负面,所以我的问题是最好有例子:
第一种方式:
- 要训练的 100 条文本记录,包括 2 个字段文本和 状态字段,指示其是正 1 还是负 0。
第二种方式:100条文本记录进行训练,制作词袋词汇,以基于该词袋训练和比较测试记录。
如果我的问题有误,请给我打电话并纠正我的问题。
解决方案
我认为您可能会在这里遗漏一些东西,因此要训练情绪分析模型,您将拥有一个训练数据,其中每一行都有标签(正面或负面)和一个原始文本。为了使计算机能够理解或“看到”文本,是通过将文本表示为数字(因为计算机无法理解文本),因此将文本表示为数字的一种方法是使用词袋(还有其他方法可以表示文本,如TF/IDF、WORD2VEC等)。因此,当您使用数据训练训练模型时,程序应该预处理原始文本,然后它应该(在这种情况下)制作一个词袋映射,其中每个元素位置代表一个词汇表,如果这个词将变为 1 或更多存在于文本中,如果不存在则为 0。
现在假设训练结束,那么程序产生一个模型,这个模型就是你保存的,所以当你想测试一个数据时,你不需要再次重新训练程序。现在当你想测试时,是的,你将使用训练数据的词袋映射,假设测试数据集中有一个词在训练数据集中从未出现过,那么只需将其映射为 0。
简而言之:
当你想测试时,你必须使用来自数据训练的词袋映射
推荐阅读
- laravel - 对模型关系 laravel 返回的结果进行排序
- node.js - Nest JS DTO 和实体模型 JSON 不匹配问题
- next.js - NextJS, Postcss.config.js - TypeError: Invalid PostCSS Plugin found at: plugins[0]
- blazor - 使用个人用户帐户访问 blazor 服务器端应用程序上的 MS Graph 数据的正确方法
- java - JAVA - 是否可以检测文档是否包含恶意脚本?
- php - 使用 API 密钥策略的 Lumen API 身份验证
- go - git credential.helper 而不是 .netrc 来获取依赖项
- python - 如何在python中重复while循环语句?
- authentication - 当 POST url 不可用时使用 ZAP 进行身份验证扫描
- mysql - 我正在尝试查找具有空值作为外键但所有列均不返回行的行