首页 > 技术文章 > 贝叶斯笔记

joeat1 2019-11-18 20:23 原文

绪论

  • 贝叶斯学派的最基本的观点是:任一个未知量\(\theta\)都可看作一个随机变量,应该用一个概率分布去描述对\(\theta\)的未知状况。这个概率分布是在抽样前就有的关于\(\theta\)的先验信息的概率称述。
  • 似然函数属于联合密度函数,综合了总体信息和样本信息

\[L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \]

  • 贝叶斯公式的密度函数形式与离散形式,其中\(\theta\)的条件分布称为\(\theta\)的后验分布,集中了总体、样本和先验等三种信息中有关\(\theta\)的一切信息,排除了与之无关的信息。一般先验分布\(\pi(\theta)\)反映人们抽样前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。

\[\pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \]

\[\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta)}{\sum_{j} {p(x|\theta_j)\pi(\theta_j)}} \]

  • 贝叶斯假设,对无信息时,可认为\(\theta\)在区间(0,1)的均匀分布

\[\pi(\theta)=\begin{cases}1, 0<\theta<1 \\ 0,其他场合 \end{cases} \]

  • 重要分布
    • 二项分布: 重复n次独立的伯努利试验,每次试验的成功概率为p,当试验次数为1时,二项分布服从0-1分布,其分布为:\(P(X=k)=C^k_n p^k(1-p)^{n-k}\), 常用于观察单位只能具有相互对立的一种结果的猜测活动。
    • 指数分布: 描述泊松过程中的事件之间的时间的概率分布 ,即事件以恒定平均速率连续且独立地发生的过程, 具有无记忆的关键性质。常用于描述对发生的缺陷数或系统故障数的测量结果,但不能作为机械零件功能参数的分布规律。密度函数为:\(f(x)=\lambda e^{-\lambda x};x>0\)
    • 泊松分布: 适合于描述单位时间内随机事件发生的次数。 概率函数为:\(P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\);k=0,1.... 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。
    • 贝塔分布,也称B分布,定义在(0,1) 区间的连续概率分布,其概率密度函数为:\(f(x;\alpha,\beta)=\frac{Γ(\alpha+\beta)}{Γ(\alpha)Γ(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}\),其中贝塔函数\(B(\alpha,\beta)=\int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{Γ(\alpha)Γ(\beta)}{Γ(\alpha+\beta)}\),Γ为伽马函数\(Γ(x)=\int_0^{+\infty} t^{x-1}e^{-t}dt;(x>0)\),贝塔分布的核为\(\theta^{\alpha-1}(1-\theta)^{\beta-1}\)(注意区分二项分布的核\(\theta^{x}(1-\theta)^{n-x}\)中x为变量,贝塔分布中\(\theta\)是变量)
    • 伽马分布\(Ga(\alpha,\lambda)\),其中\(\alpha\)>0为形状参数,\(\lambda>0\)为尺度参数,其密度函数为\(p(x|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}\),通过此可以得到\(Y=X^{-1}\)的密度函数:\(p(y|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\frac{1}{y}^{\alpha+1}e^{\frac{-\lambda}{y}}\),称为倒伽马分布记为\(IGa(\alpha,\lambda)\)
  • 指数分布簇
    • 形如 \(f_X(x|\theta) = h(x)\ g(\theta) \exp[\ \eta(\theta) \cdot T(x)\ ]\)
    • 包含如正态分布、多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和 Dirichlet 分布等

共轭先验

  • \(\theta\)总体分布中的参数(或参数向量),\(\pi(\theta)\)\(\theta\)的先验密度函数,假如由抽样信息算得的后验密度函数与\(\pi(\theta)\)相同的函数形式,则称\(\pi(\theta)\)\(\theta\)的(自然)共轭先验分布。通过这种方式计算得到的后验分布的一些参数可以很好解释。共轭先验分布的选区是由似然函数所含的\(\theta\)因式所决定,即选与似然函数(\(\theta\)的函数)具有相同核的分布作为先验分布。

    • 正态均值(方差已知)的共轭先验分布是正态分布。可以理解为:后验均值是在先验均值与样本均值间采取折衷方案,在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,则后验分布的精度是样本均值分布的精度与先验分布精度之和增加样本量n或减少先验分布方差都有利于提高后验分布的精度

    \[先验知识\theta \sim N(\mu,\tau^2) 总体分布x \sim N(\theta,\sigma^2)样本 \overline{x}, \sigma_0^2=\frac{\sigma^2}{n}\\ 后验知识\pi(\theta|\pmb{x}) \sim N(\mu_1,\tau_1^2) \\ \]

    \[\mu_1=\frac{\frac{\mu}{\tau^2}+\frac{\overline{x}}{\sigma_0^2}}{ \frac{1}{\tau^2}+\frac{1}{\sigma_0^2} } \\ \frac{1}{\tau_1^2}=\frac{1}{\tau^2}+\frac{1}{\sigma_0^2} \]

    • 二项分布的成功概率\(\theta\)的共轭先验分布是贝塔分布

    \[先验\theta \sim Be(\alpha,\beta)总体X \sim b(n,\theta)\\ 后验\pi(\theta|\pmb{x}) \sim Be(\alpha+x,\beta+n-x) \]

    \[E(\theta|x)=\frac{\alpha+x}{\alpha+\beta+n}=\frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ Var(\theta|x)\approx \frac1n \frac{x}{n}(1-\frac{x}{n}) \]

    • 常用共轭先验分布

  • 在单参数指数族场合,使用共轭先验分布得后验均值一定值于先验均值与样本均值(或样本方差等)之间。

  • 后验分布的计算:由于\(m(x)\)不依赖于\(\theta\),在计算时仅起到正则化因子的作用,$$\pi(\theta|\pmb{x}) \propto p(\pmb{x}|\theta)\pi(\theta)$$,其中各因子提取出仅与\(\theta\)有关的称为核。计算时可以略去与\(\theta\)无关的因子。

  • 先验分布的选取,应以合理性作为首要原则

确定先验信息

超参数:先验分布中所含的未知参数称为超参数。无信息先验分布一般不含超参数。

  • 确定超参数的估计值

    • 利用先验矩(根据历史若干个估计值,进行加工整理,得到相关值,估计值来源一般为专家经验)
    • 利用先验分位数(确定两个分位数,得到方程式,解得相关值)
    • 利用先验矩和先验分位数
  • 多参数模型(实际问题中常有多个未知参数,而一般不关注的参数称为讨厌参数)

    • 正态均值与正态方差的(联合)共轭先验分布为正态-逆伽马分布记为\(N-IGa(v_n,\mu_n\sigma_n^2)\)
  • 充分统计量

    • x是来自分布函数\(F(x|\theta)\)的一个样本,\(T=T(x)\)是统计量,假如在给定T(x)的条件下,x的条件分布与\(\theta\)无关的话,则称该统计量为\(\theta\)的充分统计量。
    • \(x\)为密度函数\(p(x|\theta)\)的一个样本,\(T(x)\)\(\theta\)的充分统计量的充要条件是,用样本分布\(p(x|\theta)\)算得的后验分布与统计量\(T(x)\)算得的后验分布是相同的。如二维统计量\(T=(\overline{x},Q)\)恰好是量\((\mu,\sigma^2)\)的充分统计量。
    • 使用充分统计量可以简化数据、降低样本维数,从而简化后验分布的计算。

贝叶斯估计

  • 条件方法

    后验分布是在样本x给定下θ的条件分布,基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点“,基于这种观点提出的统计推断方法被称为条件方法

贝叶斯估计

  • 从后验分布中选用某个特征量作为θ的估计。使后验密度达到最大的值\(\theta_{MG}\)称为最大后验估计;后验分布的中位数\(\theta_{Me}\)称为\(\theta\)的后验中位数估计;后验分布的期望值\(\theta_{E}\)称为θ的后验期望估计,这三个估计也都称为θ的贝叶斯估计,记为\(\theta_{B}\),在不引起混乱时也记为\(\theta_{0}\)。实际中,一般采用后验期望估计作为贝叶斯估计。

    • 估计的误差。取后验均值可使后验均方差达到最小。

  • 柯西分布 期望不存在

区间估计

对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法寻求的置信区间常受到批评。

  • 可信区间:

    设参数\(\theta\)的后验分布为\(\pi(\theta|x)\),给定样本x和概率α (0<α<1),若存在这样两个统计量\(\theta_U\) \(\theta_L\),使得\(P(\theta_L \le \theta \le \theta_U | x) > 1-\alpha\),则称区间[\(\theta_U\) ,\(\theta_L\) ]为\(\theta\)的可信水平为\(1-\alpha\)的贝叶斯可信区间,即参数\(\theta\)\(1-\alpha\)的可信区间。仿照经典方法,可以得到\(1-\alpha\)的单侧可信下限和\(1-\alpha\)的单侧可信上限。

    • 贝叶斯方法可信区间的寻求,较经典统计方法更简单。
    • 经典统计求得的是置信区间,而贝叶斯得到的是可信区间,可信区间更符合理解和解释。
  • 最大后验密度(HPD)可信区间

    区间长度最短,并把具有最大后验密度的点都包含在区间内,而区间外的点上的后验密度函数值不超过区间内的后验密度函数值

    • 若后验密度函数是单峰对称的,则\((1-\alpha)HPD\)可信空间为等尾可信区间,单峰不对称需要计算机器辅助计算;多峰则可能出现可信区间不连续的情况。
    • PS: 当后验密度函数出现多峰时,常常是由于先验信息与抽样信息不一致引起的,而共轭先验分布大多是单峰的,这必导致后验分布也是单峰的,它可能会掩盖这种不一致信息,故而要慎重对待和使用共轭先验分布。
  • 假设检验

    获得后验分布后,计算两个假设H0与H1的后验概率,然后比较两者的大小,即观察后验概率比\(\alpha_0/\alpha_1\),从中选择最大概率的一方;但当两者相接近时需要进一步抽样或搜集信息。此种方法可推广到三个及以上的假设状况。

  • 贝叶斯因子,既依赖于样本数据x,还依赖于先验分布\(\pi\),这会减弱先验的影响,突出数据的影响;贝叶斯因子体现了数据支持某假设的程度。贝叶斯因子对样本信息变化的反应是灵敏的,而对先验信息变化的反应是迟钝的。

    \[B^\pi(x)=\frac{\text{后验机会比}}{\text{先验机会比}}=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{\alpha_0\pi_1}{\pi_0\alpha_1} \]

    • 简单对简单(参数假设为特定值)

      \[B^\pi(x)=\frac{\alpha_0\pi_1}{\pi_0\alpha_1}=\frac{p(x|\theta_0)}{p(x|\theta_1)} \]

    • 复杂对复杂(参数假设为特定区间,使用g(θ)约束θ的范围表示θ的分布情况,特别的取两个区间θ的极大似然估计代替g(θ)的加权结果可以得到经典统计的似然比统计量)

  • 简单对复杂(综合前两种情况的思维,将特定值转化为以特定值附近区间)

​ 由于此类情况的贝叶斯因子计算简单,可以使用其计算得到θ的后验分布:

  • 以上的三种可以拓展到多重假设问题,PS: 针对现实问题,需要根据已知的信息和分布特定,设定总体分布和先验函数。

  • 预测(对随机变量未来观察值做出统计推断,一般先获得变量分布,再取期望、中位数、众数、一定区间等作为预测值)预测值的方差一般大于实测值的方差。

    • 如果无样本观察数据,则使用先验分布获得随机变量 x 的边缘分布m(x)。
    • 如果有样本观察数据,则使用先验分布求得后验分布,再计算随机变量 x 的后验预测分布m(x|x)。

  • 如果有样本观察数据,并估计同参数的另一个随机变量,则使用先验分布获得随机变量 z 的后验预测分布m(z|x)。

  • 似然原理 当x的样本值给出时,似然函数为\(L(\theta)=p(x|\theta)=\prod_{i=1}^n p(x_i|\theta)\) 这是一个关于θ的函数,使似然函数在参数空间取最值的\(\hat{\theta}\)称为最大似然估计。

    • 有了观测值后,似然函数L(θ)包含了所有与试验有关的θ的信息;
    • 如果两个似然函数成比例,比例函数与θ无关,则两者包含θ的信息相同

先验分布的确定

  • 主观概率(人们根据经验对一个事件发生可能性的个人信念,对取值范围是离散时更有效)
    • 对立事件比较
    • 专家意见(询问专家时需要设计好问题,并对专家有一定的了解便于修正形成自己的主观概率,或者向多个专家咨询综合修正)
    • 历史资料
  • 利用先验信息(参数空间连续)
    • 等分区间统计各区间的频率,绘制直方图
    • 选定先验密度后再估计超参数
    • 定分度与变分度
  • 利用边缘分布m(x)
    • 边缘分布可以看作是混合分布(多个总体加权平均)的推广,如果p(x|θ)已知,则m(x)可以反映先验函数的合理性;
    • \(m^\pi\)作为先验函数\(\pi\)的似然函数,通过极大似然法选取\(\pi\),这种方法称为二型极大似然先验。如果先验密度函数形式已知,则求解先验函数中的超参数即可。
    • 矩方法(先验函数形式已知时,利用先验矩和边缘分布矩的关系建立方程寻求超参数的估计值)
  • 无信息先验与广义先验分布

贝叶斯决策

  • 决策三要素:状态集合、行动集、收益函数Q
  • 行动的容许性:行动集中只存在容许的行动(有选择地可能,有存在地必要)
  • 决策准则:悲观准则(max min)、乐观准则(max max)、折中准则(乐观系数)
  • 损失函数L = max(Q) - Q "该赚却没赚到的钱"。损失函数包含了较多的信息,使用其做决策将更为合理
  • 先验期望准则:以收益函数在先验信息下得到的先验期望收益,取最大处为最优行动(与收益函数的原点和单位无关);或以损失函数在先验信息下得到的先验损失,取最大处为最优行动。两种方式只用到了先验信息,故只能使用正常的先验分布,而不能使用广义先验分布。
  • 把损失函数引入贝叶斯统计推断,就构成了贝叶斯决策问题。
  • 后验风险准则:损失函数对后验分布的期望称为后验风险R,以后验风险最小处为最优行动(和样本有关,故是一个决策函数),此时的决策函数为贝叶斯解。
  • 决策函数(从样本到决策的映射)与决策函数类

贝叶斯网络

  • 贝叶斯网络是用来表示变量间连接概率的图形模式,能表示复杂联合概率分布的紧凑表示形式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量的依赖关系, 并使用条件概率表(CPT)来描述联合概率分布。

参考书籍:《贝叶斯统计》
参考答案:https://tc5.us/file/22692114-408635452

更多内容,欢迎关注公众号 豆豆的笔记本

推荐阅读