是什么
考虑如下文本分类问题:训练集为n条文本特征[1],文本类别对,\(\{(\mathbf{t}^i,c^i)\}_{i=1}^n\)[2]
现给定文本特征\(\mathbf{t}\),要求判定它的类别。
朴素贝叶斯做法就是算使得\(p(\mathbf{t},c)\)最大的\(c^*\)作为\(\mathbf{t}\)的类别:
\[c^*=\arg \max p(\mathbf{t},c)
\]
其中,
\[p(\mathbf{t},c)=p(c)\prod_{j=1}^{m} p(t_j|c)
\]
而右边的\(p(c)\),\(p(t_j|c)\)则是由训练数据估计值代替,则估计值为:
\[p(c=class \quad A)=\frac{\#\{c^i=class \quad A\}}{n}
\]
\[p(t_j|c^i=class \quad A)=\frac{\#\{c^i=class \quad A\quad\text{and}\quad t^i_j=t_j\} }{\#\{c^i=class \quad A\}}
\]
\[p(c)=\frac{\#\{c^i=c\}}{n}
\]
\[p(t_j|c^i=c)=\frac{\#\{c^i=c\quad\text{and}\quad t^i_j=t_j\} }{\#\{c^i=c \}}
\]
考虑如下文本分类问题:训练集为n条文本特征[1:1],文本类别对,\(\{(\mathbf{t}^i,c^i)\}_{i=1}^n\)[2:1]
现给定文本特征\(\mathbf{t}\),要求判定它的类别。
朴素贝叶斯做法就是算使得\(p(\mathbf{t},c)\)最大的\(c^*\)作为\(\mathbf{t}\)的类别:
\[c^*=\arg \max p(\mathbf{t},c)
\]
其中,
\[p(\mathbf{t},c)=p(c)\prod_{j=1}^{m} p(t_j|c)
\]
朴素贝叶斯做法就是算使得\(p(\mathbf{t},c)\)最大的\(c^*\)作为\(\mathbf{t}\)的类别:
\[\begin{align}
c^*=\arg \max p(\mathbf{t},c)
\end{align}
\]
朴素贝叶斯做法就是算使得\(p(\mathbf{t},c)\)最大的\(c^*\)作为\(\mathbf{t}\)的类别:
\[\begin{align}
c^*=\arg \max p(\mathbf{t},c)
\end{align}
\]