首页 > 解决方案 > 逻辑回归和词袋

问题描述

据我了解,X 1将是一个单词的出现,而 beta 1将是该单词的权重。我的问题是关于重量是如何计算的?基于什么?

标签: pythonmachine-learningnlpstatisticsdata-science

解决方案


这有点困难,因为我不知道你到底想做什么。但总的来说,您有数据为您提供 Xs。和一个结果。结果应该是伯努利分布。这意味着只有两种结果是可能的。现在你根据你的 X 计算一个概率。例如,您想知道一个文本是否是关于汤姆汉克斯的。如果文本中有“Tom”这个词,你的 x1 就是 1。X 还可以描述“Tom”在文本中出现的频率。您尝试选择一个 beta,以便 beta1*x1 中的sogmoid函数返回文本是关于“Tom Hanks”的正确概率。如果文本中出现“汤姆”一词。为了计算 beta normaly,使用了一些机器学习算法,例如梯度下降。我简化了一点来理解这个想法。解释得很好。最后,您从数据中获得一个模型,该模型可以预测新数据的结果,而您只知道 X。


推荐阅读