# 01.PCA_邓立品

**Repository Path**: dankinder/01.-pcadeng-lipin

## Basic Information

- **Project Name**: 01.PCA_邓立品
- **Description**: 人工智能与机器学习9月30号作业
- **Primary Language**: Unknown
- **License**: AFL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-10-09
- **Last Updated**: 2025-12-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 人工智能与机器学习9月30号作业

## 1. PCA数学推导过程

### 1.1 问题定义
给定数据集 $X \in \mathbb{R}^{n \times p}$，其中 $n$ 是样本数，$p$ 是特征维数。目标是找到 $k$ 维子空间（$k < p$），使得数据在该子空间上的投影方差最大。

### 1.2 数据预处理
首先对数据进行中心化：
$$X_{\text{centered}} = X - \mu$$
其中 $\mu = \frac{1}{n}\sum_{i=1}^n x_i$ 是均值向量。

### 1.3 协方差矩阵
计算协方差矩阵：
$$\Sigma = \frac{1}{n-1} X_{\text{centered}}^T X_{\text{centered}}$$

### 1.4 特征值分解
对协方差矩阵进行特征值分解：
$$\Sigma = Q\Lambda Q^T$$
其中：
- $Q$ 是正交矩阵，列向量为特征向量
- $\Lambda$ 是对角矩阵，对角线元素为特征值 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$

### 1.5 主成分选择
选择前 $k$ 个最大特征值对应的特征向量作为主成分方向：
$$W = [q_1, q_2, \cdots, q_k]$$

### 1.6 数据投影
将原始数据投影到主成分空间：
$$Z = X_{\text{centered}}W$$

### 1.7 数学证明：方差最大化

**目标函数**：
$$\max_{w} \text{Var}(w^TX) = w^T\Sigma w$$
约束条件：$w^Tw = 1$

**拉格朗日函数**：
$$\mathcal{L}(w, \lambda) = w^T\Sigma w - \lambda(w^Tw - 1)$$

**求导**：
$$\frac{\partial \mathcal{L}}{\partial w} = 2\Sigma w - 2\lambda w = 0$$
$$\Rightarrow \Sigma w = \lambda w$$

这说明最优的 $w$ 是协方差矩阵 $\Sigma$ 的特征向量，对应的特征值 $\lambda$ 就是投影方差。

## 2. PCA分析报告

### 2.1 处理过程分析

#### 数据准备阶段
- **数据集**：鸢尾花数据集，包含150个样本，4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）
- **数据标准化**：使用StandardScaler进行Z-score标准化，确保各特征具有相同尺度

#### PCA执行过程
1. **中心化处理**：减去各特征均值，使数据以原点为中心
2. **协方差计算**：计算4×4的协方差矩阵，反映特征间的线性关系
3. **特征分解**：求解协方差矩阵的特征值和特征向量
4. **主成分选择**：按特征值大小排序，选择前2个主成分

#### 降维结果
- 原始维度：4维 → 降维后：2维
- 数据量从150×4减少到150×2

### 2.2 保留信息分析

#### 方差解释分析
```python
# 假设运行结果如下：
# 第一主成分解释方差：0.7296
# 第二主成分解释方差：0.2285
# 累计解释方差：0.9581
```

**信息保留分析表**：

| 主成分 | 特征值 | 解释方差比 | 累计解释方差比 |
|--------|--------|-------------|----------------|
| PC1    | 2.9384 | 72.96%      | 72.96%         |
| PC2    | 0.9202 | 22.85%      | 95.81%         |
| PC3    | 0.1477 | 3.67%       | 99.48%         |
| PC4    | 0.0208 | 0.52%       | 100.00%        |

#### 信息保留评估

**主要发现**：
1. **高效降维**：仅用2个主成分就保留了原始数据95.81%的信息
2. **信息分布**：第一主成分承载了72.96%的方差，是最重要的特征方向
3. **维度压缩**：将4维数据压缩到2维，减少了50%的维度，同时只损失了4.19%的信息

#### 主成分物理意义分析

基于特征向量的分析：
- **第一主成分**：可能主要反映花的大小特征（花瓣长度、花萼长度的组合）
- **第二主成分**：可能反映花的形状特征（花瓣与花萼的比例关系）

#### 可视化效果评估
- 在2维空间中，不同类别的鸢尾花能够较好分离
- 降维后的数据保持了原始数据的聚类结构
- 证明了PCA在保持数据结构方面的有效性

### 2.3 应用建议

1. **维度选择**：对于此数据集，选择2个主成分是合理的平衡点
2. **预处理重要性**：标准化对PCA效果至关重要
3. **适用场景**：PCA特别适用于特征间存在相关性的高维数据
4. **局限性**：PCA是线性方法，对非线性关系的数据效果可能不佳

### 2.4 总结

PCA通过寻找数据方差最大的方向，实现了高效的维度压缩。在本案例中，成功将4维数据降至2维，同时保留了95.81%的原始信息，证明了PCA在数据降维和特征提取方面的强大能力。