首页 文章资讯内容详情

什么是期望最大化?

2026-06-02 3 花语

EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。它可以被认为是k-means范式的扩展,它根据集群均值创建一个与它最相似的集群的对象。

EM根据定义成员概率的权重将每个对象创建到一个集群中。换句话说,集群之间没有严格的界限。因此,基于加权度量来评估新均值。

EM从对组合模型参数(统称为参数向量)的原始估计或“猜测”开始。它可以迭代地重新评分对象,而不是由参数向量产生的混合密度。重新评分的对象用于恢复参数估计。如果每个对象是给定集群的成员,则它创建了一个概率,即它可以拥有一组特定的属性值。该算法表示如下-

它可用于对参数向量进行原始猜测-这包含随机选择k个对象来定义聚类均值或中心(如在k均值分区中),并对新参数进行猜测。

它可以根据以下两个步骤重复优化参数(或集群)-

(a)期望步骤-它可以创建每个对象xi以概率聚类ck

$$P(x_{i}\epsilonC_{k})=p(C_{k}|x_{i})=\frac{p(C_{k})p(x_{i}|C_{k})}{p(x_{i})}$$

其中p(xi|Ck)=N(mk,Ek(xi))遵循均值mk周围的正态(即高斯)分布,期望值Ek。换句话说,这一步计算每个集群的对象xi的集群成员的概率。这些概率是对象xi的“预期”集群成员。

(b)最大化步骤-它可能需要上面的概率估计来重新估计(或改进)模型参数。例如,

$$m_{k}=\frac{1}{n}\sum_{i=1}^{n}\frac{x_{i}P(x_{i}\epsilonC_{k})}{\sum_{j}P(x_{i}\epsilonC_{j})}$$

这个阶段是给定数据的分配可能性的“最大化”。

EM算法简单易懂,易于执行。它收敛很快,但不能达到全局最优。对于特定形式的优化函数,收敛是有保证的。计算复杂度在d(输入特征的数量)、n(项目的数量)和t(冗余的数量)中是线性的。贝叶斯聚类技术的目标是计算类条件概率密度。它们通常用于统计社区。

在工业中,AutoClass是一种著名的贝叶斯聚类技术,它使用了EM算法的修改。给定对象的准确聚类,最佳聚类使预测对象属性的能力最大化。AutoClass还可以估计集群的数量。它已被用于各个领域,并且能够根据红外天文学数据找到一类新的恒星。