# 01.PCA_邓立品 **Repository Path**: dankinder/01.-pcadeng-lipin ## Basic Information - **Project Name**: 01.PCA_邓立品 - **Description**: 人工智能与机器学习9月30号作业 - **Primary Language**: Unknown - **License**: AFL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-10-09 - **Last Updated**: 2025-12-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 人工智能与机器学习9月30号作业 ## 1. PCA数学推导过程 ### 1.1 问题定义 给定数据集 $X \in \mathbb{R}^{n \times p}$,其中 $n$ 是样本数,$p$ 是特征维数。目标是找到 $k$ 维子空间($k < p$),使得数据在该子空间上的投影方差最大。 ### 1.2 数据预处理 首先对数据进行中心化: $$X_{\text{centered}} = X - \mu$$ 其中 $\mu = \frac{1}{n}\sum_{i=1}^n x_i$ 是均值向量。 ### 1.3 协方差矩阵 计算协方差矩阵: $$\Sigma = \frac{1}{n-1} X_{\text{centered}}^T X_{\text{centered}}$$ ### 1.4 特征值分解 对协方差矩阵进行特征值分解: $$\Sigma = Q\Lambda Q^T$$ 其中: - $Q$ 是正交矩阵,列向量为特征向量 - $\Lambda$ 是对角矩阵,对角线元素为特征值 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$ ### 1.5 主成分选择 选择前 $k$ 个最大特征值对应的特征向量作为主成分方向: $$W = [q_1, q_2, \cdots, q_k]$$ ### 1.6 数据投影 将原始数据投影到主成分空间: $$Z = X_{\text{centered}}W$$ ### 1.7 数学证明:方差最大化 **目标函数**: $$\max_{w} \text{Var}(w^TX) = w^T\Sigma w$$ 约束条件:$w^Tw = 1$ **拉格朗日函数**: $$\mathcal{L}(w, \lambda) = w^T\Sigma w - \lambda(w^Tw - 1)$$ **求导**: $$\frac{\partial \mathcal{L}}{\partial w} = 2\Sigma w - 2\lambda w = 0$$ $$\Rightarrow \Sigma w = \lambda w$$ 这说明最优的 $w$ 是协方差矩阵 $\Sigma$ 的特征向量,对应的特征值 $\lambda$ 就是投影方差。 ## 2. PCA分析报告 ### 2.1 处理过程分析 #### 数据准备阶段 - **数据集**:鸢尾花数据集,包含150个样本,4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度) - **数据标准化**:使用StandardScaler进行Z-score标准化,确保各特征具有相同尺度 #### PCA执行过程 1. **中心化处理**:减去各特征均值,使数据以原点为中心 2. **协方差计算**:计算4×4的协方差矩阵,反映特征间的线性关系 3. **特征分解**:求解协方差矩阵的特征值和特征向量 4. **主成分选择**:按特征值大小排序,选择前2个主成分 #### 降维结果 - 原始维度:4维 → 降维后:2维 - 数据量从150×4减少到150×2 ### 2.2 保留信息分析 #### 方差解释分析 ```python # 假设运行结果如下: # 第一主成分解释方差:0.7296 # 第二主成分解释方差:0.2285 # 累计解释方差:0.9581 ``` **信息保留分析表**: | 主成分 | 特征值 | 解释方差比 | 累计解释方差比 | |--------|--------|-------------|----------------| | PC1 | 2.9384 | 72.96% | 72.96% | | PC2 | 0.9202 | 22.85% | 95.81% | | PC3 | 0.1477 | 3.67% | 99.48% | | PC4 | 0.0208 | 0.52% | 100.00% | #### 信息保留评估 **主要发现**: 1. **高效降维**:仅用2个主成分就保留了原始数据95.81%的信息 2. **信息分布**:第一主成分承载了72.96%的方差,是最重要的特征方向 3. **维度压缩**:将4维数据压缩到2维,减少了50%的维度,同时只损失了4.19%的信息 #### 主成分物理意义分析 基于特征向量的分析: - **第一主成分**:可能主要反映花的大小特征(花瓣长度、花萼长度的组合) - **第二主成分**:可能反映花的形状特征(花瓣与花萼的比例关系) #### 可视化效果评估 - 在2维空间中,不同类别的鸢尾花能够较好分离 - 降维后的数据保持了原始数据的聚类结构 - 证明了PCA在保持数据结构方面的有效性 ### 2.3 应用建议 1. **维度选择**:对于此数据集,选择2个主成分是合理的平衡点 2. **预处理重要性**:标准化对PCA效果至关重要 3. **适用场景**:PCA特别适用于特征间存在相关性的高维数据 4. **局限性**:PCA是线性方法,对非线性关系的数据效果可能不佳 ### 2.4 总结 PCA通过寻找数据方差最大的方向,实现了高效的维度压缩。在本案例中,成功将4维数据降至2维,同时保留了95.81%的原始信息,证明了PCA在数据降维和特征提取方面的强大能力。