机器学习 - 降维
机器学习中的降维是将数据集中的特征或变量数量减少,同时尽可能保留原始信息的过程。换句话说,它是一种通过降低数据复杂性来简化数据的方法。
当数据集具有大量特征或变量时,就需要进行降维。特征过多可能导致过拟合并增加模型的复杂性。它还会使数据可视化变得困难,并减慢训练过程。
降维主要有两种方法 —
特征选择
这涉及根据某些标准(如重要性或与目标变量的相关性)从原始特征中选择一个子集。
以下是一些常用的特征选择技术 —
- 过滤方法
- 包装方法
- 嵌入方法
特征提取
特征提取是将原始数据转换为一组有意义的特征的过程,这些特征可用于机器学习模型。它通过选择、组合或转换特征来减少输入数据的维度,从而创建一组对机器学习模型更有用的新特征。
降维可以提高机器学习模型的准确性和速度,减少过拟合,并简化数据可视化。