AIC和BIC标准

在许多参数估计问题中,似然函数被用作目标函数。当有足够的训练数据时,可以不断提高模型精度,但以增加模型复杂度为代价,也带来了机器学习中一个非常普遍的问题——过拟合。

因此,模型选择问题在模型复杂性和模型描述数据集的能力(即似然函数)之间寻求最佳平衡。

人们提出了许多信息准则,通过增加模型复杂性的惩罚项来避免过拟合。这里我们介绍两种常用的模型选择方法:

1阿凯克信息标准(AIC)

AIC是衡量统计模型拟合优度的一个标准,由日本统计学家赤内浩司在1974中提出。它基于熵的概念,提供了衡量估计模型复杂度和拟合数据优劣的标准。

一般来说,AIC被定义为:

其中k是模型参数的数量,l是似然函数。当从一组可用模型中选择最佳模型时,通常选择具有最小AIC的模型。

当两个模型差异较大时,这种差异主要体现在似然函数项上。当似然函数差异不显著时,上述公式的第一项即模型复杂度起作用,因此参数较少的模型是较好的选择。

一般来说,当模型的复杂度增加(k增加)时,似然函数L也会增加,这会使AIC变小。但是,当k过大时,似然函数的增长速度会变慢,从而导致AIC的增加。如果模型过于复杂,容易导致过拟合。

目标是选择具有最小AIC的模型。AIC不仅提高了模型拟合度(最大似然),还引入了惩罚项使模型参数尽可能少,有助于降低过拟合的可能性。

2贝叶斯信息准则(BIC)

BIC(贝叶斯信息准则)贝叶斯信息准则类似于AIC,用于模型选择。它是由施瓦茨在1978中提出的。在训练模型时,增加参数的数量,即增加模型的复杂度,会增加似然函数,但也会导致过拟合。为了解决这个问题,AIC和BIC都引入了与模型参数个数有关的惩罚项,这个惩罚项比AIC的要大。考虑样本数量,当样本数量过大时,可以有效防止模型复杂度过高。

其中k是模型参数的数量,n是样本的数量,l是似然函数。Kln(n)惩罚项可以有效避免维数过大、训练样本数据相对较少时的维数灾难。

3 AIC和BIC的比较

在AIC和BIC的公式中,前半部分是相同的,后半部分是惩罚项。当n≥8n≥8时,kln(n)≥2kkln(n)≥2k。所以在数据量大的情况下,BIC对模型参数的惩罚比AIC更重,导致BIC选择参数较少的简单模型。

链接:/p /p/058422cccc8d

来源: