特征降维

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

两种方式:

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益 分析特征的重要性
- 正则化：L1、L2 y=w1xx1+…+wnxxn+b线性回归使用
- 深度学习：卷积等

1.1 低方差特征过滤:

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

api：

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)

删除所有低方差特征
Variance.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
- 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

1.2相关系数：

相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

$r=\frac{n \sum x y-\sum x \sum y}{\sqrt{n \sum x^{2}-\left(\sum x\right)^{2}} \sqrt{n \sum y^{2}-\left(\sum y\right)^{2}}}$

api:

from scipy.stats import pearsonr
- x : (N,) array_like
- y : (N,) array_like Returns: (Pearson’s correlation coefficient, p-value)
斯皮尔曼相关系数 反应变量之间相关关系密切程度的统计指标
$$
\operatorname{RankIC}=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}
$$
斯皮尔曼相关系数表明 X (自变量) 和 Y (因变量)的相关方向。如果当X增加时， Y 趋向于增加, 斯皮尔曼相关系数则为正
与之前的皮尔逊相关系数大小性质一样，取值 [-1, 1]之间

api：

斯皮尔曼相关系数比皮尔逊相关系数应用更加广泛

相关系数数据分析使用多 pca正常工作使用多

api:

sklearn.decomposition.PCA(n_components=None)