在统计学和机器学习领域中,最大似然估计(Maximum Likelihood Estimation, MLE)是一种常用的参数估计方法。它通过最大化观测数据的概率或概率密度函数来推断模型参数的最佳值。本文将通过一个简单的例子来详细说明最大似然估计的应用过程。
问题背景
假设我们有一组独立同分布的随机变量 \( X_1, X_2, \dots, X_n \),这些变量服从正态分布 \( N(\mu, \sigma^2) \),其中 \( \mu \) 是均值,\( \sigma^2 \) 是方差。我们的目标是利用这组样本估计出 \( \mu \) 和 \( \sigma^2 \) 的值。
数据准备
假设我们有以下样本数据:
\[ x = [1.2, 1.5, 1.8, 2.0, 2.2] \]
我们需要根据这些样本估计 \( \mu \) 和 \( \sigma^2 \)。
构建似然函数
对于正态分布 \( N(\mu, \sigma^2) \),其概率密度函数为:
\[
f(x_i; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)
\]
由于样本是独立同分布的,联合概率密度函数为所有单个样本概率密度函数的乘积:
\[
L(\mu, \sigma^2) = \prod_{i=1}^n f(x_i; \mu, \sigma^2)
\]
取对数后得到对数似然函数:
\[
\ell(\mu, \sigma^2) = \sum_{i=1}^n \ln f(x_i; \mu, \sigma^2)
\]
\[
\ell(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2
\]
求解最优参数
为了找到使对数似然函数最大的参数 \( \mu \) 和 \( \sigma^2 \),我们需要分别对 \( \mu \) 和 \( \sigma^2 \) 求偏导数并令其等于零。
1. 对 \( \mu \) 求偏导:
\[
\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu)
\]
令 \( \frac{\partial \ell}{\partial \mu} = 0 \),解得:
\[
\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i
\]
2. 对 \( \sigma^2 \) 求偏导:
\[
\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2
\]
令 \( \frac{\partial \ell}{\partial \sigma^2} = 0 \),解得:
\[
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2
\]
计算结果
根据上述公式,我们可以计算出样本均值 \( \hat{\mu} \) 和样本方差 \( \hat{\sigma}^2 \):
1. 样本均值:
\[
\hat{\mu} = \frac{1}{5}(1.2 + 1.5 + 1.8 + 2.0 + 2.2) = 1.74
\]
2. 样本方差:
\[
\hat{\sigma}^2 = \frac{1}{5}[(1.2-1.74)^2 + (1.5-1.74)^2 + (1.8-1.74)^2 + (2.0-1.74)^2 + (2.2-1.74)^2]
\]
\[
\hat{\sigma}^2 = \frac{1}{5}[0.3136 + 0.0576 + 0.0036 + 0.0676 + 0.2116] = 0.1308
\]
因此,根据最大似然估计法,我们得出的参数估计值为:
\[
\hat{\mu} = 1.74, \quad \hat{\sigma}^2 = 0.1308
\]
结论
通过以上步骤,我们成功地使用最大似然估计法对正态分布的参数进行了估计。这种方法不仅适用于正态分布,还可以推广到其他类型的分布,是统计推断中的重要工具之一。