Giả sử dữ liệu ban đầu là ma trận
\[X \in \mathbb{R}^{n \times p}\]
với n là số mẫu và p là số biến.
Tính trung bình của từng biến:
\[\mu_j = \frac{1}{n}\sum_{i=1}^{n} x_{ij}, \quad j = 1,\dots,p\]
Chuẩn hoá (center) dữ liệu:
\[\tilde{x}_{ij} = x_{ij} - \mu_j\]
Viết dưới dạng ma trận:
\[\tilde{X} = X - \mathbf{1}\mu^{T}\]
(Nếu cần chuẩn hoá phương sai thì chia thêm cho độ lệch chuẩn.)
\[S = \frac{1}{n-1}\tilde{X}^{T}\tilde{X}\]
trong đó
\[S \in \mathbb{R}^{p \times p}.\]
Giải bài toán trị riêng:
\[S v_k = \lambda_k v_k\]
với:\[\lambda_1 \ge \lambda_2 \ge \cdots \ge \lambda_p \ge 0.\]
Chọn K vector riêng đầu tiên:
\[V_K = [v_1, v_2, \dots, v_K]\]
với\[V_K \in \mathbb{R}^{p \times K}.\]
\[Z = \tilde{X} V_K\]
trong đó:\[Z \in \mathbb{R}^{n \times K}\]
là dữ liệu sau khi giảm chiều.
\[\text{Explained Variance Ratio}_k=\frac{\lambda_k}{\sum_{j=1}^{p} \lambda_j}.\]
Tổng phương sai giải thích của K thành phần:
\[\sum_{k=1}^{K}\frac{\lambda_k}{\sum_{j=1}^{p} \lambda_j}.\]