机器学习中的多元线性回归
机器学习中的多元线性回归是一种监督学习算法,用于建模因变量与多个自变量之间的关系。这种关系用于预测因变量的结果。
多元线性回归是机器学习中线性回归的一种类型。线性回归算法主要有两种类型 —
- simple linear regression − 它处理两个特征(一个因变量和一个自变量)。
- multiple linear regression − 处理两个以上特征(一个因变量和多个自变量)。
让我们详细讨论多元线性回归 —
什么是多元线性回归?
在机器学习中,多元线性回归 (MLR) 是一种统计技术,用于根据多个自变量的值预测因变量的结果。该算法在数据上训练,以学习一种关系(称为回归线),该关系最能拟合数据。这种关系描述了各种因素如何影响结果。该关系用于根据自变量的值预测因变量的值。
在线性回归(简单和多元)中,因变量是连续的(数值),自变量可以是连续的或离散的(数值)。自变量也可以是分类的(性别、职业),但需要先转换为数值。
多元线性回归基本上是简单线性回归的扩展,使用两个或更多特征来预测响应。数学上,我们可以将多元线性回归表示如下 —
考虑一个具有 n 个观测值、p 个特征即自变量和 y 作为一个响应即因变量的数据集,对于 p 个特征的回归线可以计算如下 —
$$h\left ( x_{i} \right )=w_{0}+w_{1}x_{i1}+w_{2}x_{i2}+\cdot \cdot \cdot +w_{p}x_{ip}$$
这里,$h\left ( x_{i} \right )$ 是预测的响应值,$w_{0},w_{1},w_{2}....w_{p}$ 是回归系数。
多元线性回归模型总是包含数据中的误差,即残差误差,这会改变计算如下 —
$$y_{i}=w_{0}+w_{1}x_{i1}+w_{2}x_{i2}+\cdot \cdot \cdot +w_{p}x_{ip}+e_{i}$$
我们也可以将上述方程写成如下形式 —
$$y_{i}=h\left ( x_{i} \right )+e_{i}\:\: or \:\: e_{i}=y_{i}-h\left ( x_{i} \right )$$
多元线性回归的假设
多元线性回归模型对数据集做出的假设如下 —
1. 线性
因变量(目标)和自变量(预测变量)之间的关系是线性的。
2. 独立性
每个观测值与其他观测值独立。一个观测值的因变量值独立于另一个的值。
3. 同方差性
对于所有观测值,残差误差的方差在每个自变量的值上相似。
4. 误差的正态性
残差(误差)呈正态分布。残差是实际值与预测值之间的差。
5. 无多重共线性
自变量之间没有高度相关。线性回归模型假设数据中几乎没有或没有多重共线性。
6. 无自相关
残差之间没有相关性。这确保残差(误差)彼此独立。
7. 固定自变量
自变量的值在所有重复样本中是固定的。
违反这些假设可能导致估计偏差或低效。验证这些假设对于确保模型准确性至关重要。
在 Python 中实现多元线性回归
要在 Python 中使用 Scikit-Learn 实现多元线性回归,我们可以使用与简单线性回归相同的 LinearRegression class,但这次需要提供多个自变量作为输入。
步骤 1:数据准备
我们使用名为 data.csv 的数据集,包含 50 个样本。它包含四个预测变量(自变量)和一个目标变量(因变量)。下表表示 data.csv 文件中的数据。
data.csv
| R&D Spend | Administration | Marketing Spend | State | Profit | |||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 165349.2 | 136897.8 | 471784.1 | New York | 192261.8 | |||||||||||||||||||||||||||||||||||||||||||||
| 162597.7 | 151377.6 | 443898.5 | California | 191792.1 | |||||||||||||||||||||||||||||||||||||||||||||
| 153441.5 | 101145.6 | 407934.5 | Florida | 191050.4 | |||||||||||||||||||||||||||||||||||||||||||||
| 144372.4 | 118671.9 | 383199.6 | New York | 182902 | |||||||||||||||||||||||||||||||||||||||||||||
| 142107.3 | 91391.77 | 366168.4 | Florida | 166187.9 | |||||||||||||||||||||||||||||||||||||||||||||
| 131876.9 | 99814.71 | 362861.4 | New多元线性回归的应用以下是多元线性回归的一些常用应用 −
多元线性回归的挑战以下是机器学习中多元线性回归面临的一些常见挑战 −
简单线性回归与多元线性回归的区别下表突出了简单线性回归与多元线性回归的主要区别 −
|