最大似然估计

ryluo 2020-06-14 01:29:22
机器学习

最大似然估计是机器学习中最常用的参数估计方法之一,逻辑回归、深度神经网络等模型都会使用最大似然估计。我们需要一个似然函数来描述真实数据在不同模型参数下发生的概率,似然函数是关于模型参数的函数。最大似然估计就是寻找最优参数,使得观测数据发生的概率最大、统计模型与真实数据最相似。

最大似然估计用一句话来描述就是,就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值!即最大似然估计是一种:给定观测数据,计算产生该数据的模型参数(概率分布)的方法。下面对似然函数与概率进行区分,若有个函数$P(x|\theta)$,其中$x$表示具体的数据,$\theta$表示模型的参数。

概率:

当$\theta$已知,$x$是变量,则此时$P(x|\theta)$表示的是概率函数,描述的是对于不同的样本点$x$,产生的概率是多少

似然函数:

当$x$已知,$\theta$是变量,则此时$P(x|\theta)$表示的是似然函数,描述的是对于不同的模型参数,出现$x$这个样本点的概率


举例理解:

假设硬币有两面,分别为正面反面,假设总共抛了100次硬币,其中有60次正面朝上40次反面朝上。现在有两三个可能的概率模型,如下(抛硬币满足二项分布):

模型一:$P_{正面}=0.6,P_{反面}=(1-0.6)=0.4$

模型二:$P_{正面}=0.5,P_{反面}=(1-0.5)=0.5$

模型三:$P_{正面}=0.7,P_{反面}=(1-0.7)=0.3$

现在通过最大似然估计的方法来确定抛硬币正面朝上和反面朝上的概率分别是多少。假设似然函数用$L$表示,则

对于模型一:

对于模型二:

对于模型三:

由于:

所以:通过最大似然估计的方法在上述的三个模型中可以得到模型参数最可能是模型一。

但是对于似然函数$P(x|\theta)$,得到数据$x$的模型参数$\theta$取值的可能远远不是上面所列举的三种形式,所以本质上需要求解的是函数$L$取得最大值时的参数$\theta $


参考文献:

一文搞懂极大似然估计

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

如何通俗地理解概率论中的「极大似然估计法」?

机器学习 | 最大似然估计:从概率角度理解机器学习