机器学习中 Multiple Linear Regression 怎么实现?

文章导读
Previous Quiz Next 机器学习中的多元线性回归是一种监督学习算法,用于建模因变量与多个自变量之间的关系。这种关系用于预测因变量的结果。
📋 目录
  1. 什么是多元线性回归?
  2. 多元线性回归的假设
  3. 在 Python 中实现多元线性回归
  4. 多元线性回归的应用
  5. 多元线性回归的挑战
  6. 简单线性回归与多元线性回归的区别
A A

机器学习中的多元线性回归



Previous
Quiz
Next

机器学习中的多元线性回归是一种监督学习算法,用于建模因变量与多个自变量之间的关系。这种关系用于预测因变量的结果。

多元线性回归是机器学习中线性回归的一种类型。线性回归算法主要有两种类型 —

  • simple linear regression − 它处理两个特征(一个因变量和一个自变量)。
  • multiple linear regression − 处理两个以上特征(一个因变量和多个自变量)。

让我们详细讨论多元线性回归 —

什么是多元线性回归?

在机器学习中,多元线性回归 (MLR) 是一种统计技术,用于根据多个自变量的值预测因变量的结果。该算法在数据上训练,以学习一种关系(称为回归线),该关系最能拟合数据。这种关系描述了各种因素如何影响结果。该关系用于根据自变量的值预测因变量的值。

在线性回归(简单和多元)中,因变量是连续的(数值),自变量可以是连续的或离散的(数值)。自变量也可以是分类的(性别、职业),但需要先转换为数值。

多元线性回归基本上是简单线性回归的扩展,使用两个或更多特征来预测响应。数学上,我们可以将多元线性回归表示如下 —

考虑一个具有 n 个观测值、p 个特征即自变量和 y 作为一个响应即因变量的数据集,对于 p 个特征的回归线可以计算如下 —

$$h\left ( x_{i} \right )=w_{0}+w_{1}x_{i1}+w_{2}x_{i2}+\cdot \cdot \cdot +w_{p}x_{ip}$$

这里,$h\left ( x_{i} \right )$ 是预测的响应值,$w_{0},w_{1},w_{2}....w_{p}$ 是回归系数。

多元线性回归模型总是包含数据中的误差,即残差误差,这会改变计算如下 —

$$y_{i}=w_{0}+w_{1}x_{i1}+w_{2}x_{i2}+\cdot \cdot \cdot +w_{p}x_{ip}+e_{i}$$

我们也可以将上述方程写成如下形式 —

$$y_{i}=h\left ( x_{i} \right )+e_{i}\:\: or \:\: e_{i}=y_{i}-h\left ( x_{i} \right )$$

多元线性回归的假设

多元线性回归模型对数据集做出的假设如下 —

1. 线性

因变量(目标)和自变量(预测变量)之间的关系是线性的。

2. 独立性

每个观测值与其他观测值独立。一个观测值的因变量值独立于另一个的值。

3. 同方差性

对于所有观测值,残差误差的方差在每个自变量的值上相似。

4. 误差的正态性

残差(误差)呈正态分布。残差是实际值与预测值之间的差。

5. 无多重共线性

自变量之间没有高度相关。线性回归模型假设数据中几乎没有或没有多重共线性。

6. 无自相关

残差之间没有相关性。这确保残差(误差)彼此独立。

7. 固定自变量

自变量的值在所有重复样本中是固定的。

违反这些假设可能导致估计偏差或低效。验证这些假设对于确保模型准确性至关重要。

在 Python 中实现多元线性回归

要在 Python 中使用 Scikit-Learn 实现多元线性回归,我们可以使用与简单线性回归相同的 LinearRegression class,但这次需要提供多个自变量作为输入。

步骤 1:数据准备

我们使用名为 data.csv 的数据集,包含 50 个样本。它包含四个预测变量(自变量)和一个目标变量(因变量)。下表表示 data.csv 文件中的数据。

data.csv

R&D Spend Administration Marketing Spend State Profit
165349.2 136897.8 471784.1 New York 192261.8
162597.7 151377.6 443898.5 California 191792.1
153441.5 101145.6 407934.5 Florida 191050.4
144372.4 118671.9 383199.6 New York 182902
142107.3 91391.77 366168.4 Florida 166187.9
131876.9 99814.71 362861.4 New

多元线性回归的应用

以下是多元线性回归的一些常用应用 −

应用 描述
Finance 预测股票价格、预测汇率、评估信用风险。
Marketing 预测销售量、客户流失以及营销活动效果。
Real Estate 根据面积、位置和卧室数量等因素预测房价。
Healthcare 预测患者预后、分析治疗影响以及识别疾病风险因素。
Economics 预测经济增长、分析政策影响以及预测通货膨胀率。
Social Sciences 建模社会现象、预测选举结果以及理解人类行为。

多元线性回归的挑战

以下是机器学习中多元线性回归面临的一些常见挑战 −

挑战 描述
Multicollinearity 自变量之间高度相关,导致模型系数不稳定且难以解释单个变量的影响。
Overfitting 模型过于贴合训练数据,导致在新未见过的数据上表现不佳。
Underfitting 模型无法捕捉数据中的潜在模式,导致在训练数据和测试数据上表现均不佳。
Non-linearity 多元线性回归假设自变量与因变量之间存在线性关系。非线性关系可能导致预测不准确。
Outliers 异常值可能显著影响模型性能,尤其是在小数据集上。
Missing Data 缺失数据可能导致结果偏差和不准确。

简单线性回归与多元线性回归的区别

下表突出了简单线性回归与多元线性回归的主要区别 −

特征 简单线性回归 多元线性回归
自变量数量 一个 两个或更多
模型方程 y = w1x + w0 y=w0+w1x1+w2x2+ ... +wpxp
复杂度 复杂度较低 由于多个变量,复杂度较高
现实世界应用 根据面积预测房价、根据广告支出预测销售量 根据广告支出、价格和竞争对手活动预测销售量,根据学习时间、出勤率和IQ预测学生表现
模型解释 更容易解释系数 由于多个变量,解释起来更复杂