0%

PCA、CCA、PLS

Principal Component Analysis(主成分分析)、Canonical Correspondence Analysis(典型相关分析)、Partial Least Square(偏最小二乘)

从多元线性回归说起

•目的:p个自变量x 对1个因变量y的回归

•回归方程为:

•手上有n个观测(相当于训练集),用这n个观测来估计β

根据最小二乘法:

一个小问题:若Y也有多个变量时怎么办?

假如Y有q个变量,给Y添加一个长度为q的维度就可以了,回归公式仍然成立。

但多元线性回归存在缺陷

1.理论假设需要满足自变量x1, x2 ··· xp互相独立(现实中往往具有多重共线性);

2.当X的变量数非常多时,求解β时需要求$(X^TX)^{-1}$,这是一个p*p的高维方阵,求解困难;

3.而且不一定每个x因子都是显著的,包含冗余信息。


PCA(主成分分析)

•目的:提取变量中最能代表其特征的成分

•变量X(已标准化)

有n个观测时X就是n*p的矩阵

•记u是X的一个主成分,a为载荷向量

•要求是a使得u的方差最大(其实就是最小二乘),即令

最大

「为什么要令u的方差最大呢?」下面以简单的X有两个变量的例子说明:

img

Var(u)的几何意义其实是X在主成分载荷向量a上投影点到原点距离平方和,可以从两个角度来理解这个问题。

令Var(u)尽量大,也就是该主成分载荷向量(PC1蓝线)可以把X的样本点分得尽量开,更能反映样本的差异(差异其实就是特征);另外,这其实也是最小二乘思想,令Var(u)最大,就是令各样本点到PC1的距离平方和最小(想想看,各样本点到原点的距离是固定的)。

•求主成分的问题就可以提炼为

最终转化为熟悉的求特征值和特征向量问题,保留k个主成分原来p维的X就降维到了k维。


CCA(典型相关分析)

•目的:提取出因变量和自变量中最相关的成分

•因变量Y和自变量X(都已标准化)

•记典型变量u,v,分别是X各变量和Y各变量的线性组合

•要使得u,v相关性最大,即令相关系数

最大

•求典型相关变量的问题就提炼为

同样最后转化为求特征值和特征向量的问题。


PLSR(偏最小二乘回归)

•目的:用自变量中与因变量最相关的“典型变量”做回归

•因变量Y和自变量X(都已标准化)

•记典型变量u,v,分别是X各变量和Y各变量的线性组合

•要求

  1. u,v的方差最大(PCA思想)
  1. 使得u,v相关性最大(CCA思想)

•问题提炼为

PLS是PCA和CCA的结合的说法是网上看到的(老师也这么讲)。但有个问题是:既然给定了样本,X和Y的协方差矩阵相当于就是固定的,那最后这个求解模型的约束条件不就和CCA是一样的?事实上就是求了个典型相关变量?

•得到了“典型变量”之后,建立Y对u1的回归,X对u1的回归

•用余项($\beta_1u_1$和$\alpha_1u_1$解释后的残余信息)再建立对u2的回归

•如此重复只要达到满意的精度就可以停止,得到

•代入u的定义式

就可以得到最终的偏最小二乘回归方程




参考

知乎 学弱猹 回归分析笔记

StatQuest with Josh Starmer @YouTube

主成分分析的原理和简单推导 江安神犬 @Bilibili

知乎 文琪 典型相关分析

JerryLead 典型相关分析

A Simple Explanation of Partial Least Squares-Kee Siong Ng

JerryLead 偏最小二乘回归

Partial least squares regression and projection on latent structure regression (PLS Regression) -Herve ́ Abdi∗