机器学习 - 分位数
分位数是机器学习中用于描述数据集分布的统计概念。分位数是一种度量,表示观测组中给定百分比的观测值低于该值的比例。
例如,25th percentile(也称为第一四分位数)是数据集中有25%的观测值低于该值,而75th percentile(也称为第三四分位数)是数据集中有75%的观测值低于该值。
分位数可用于总结数据集的分布并识别异常值。在机器学习中,分位数常用于数据预处理和探索性数据分析,以深入了解数据。
Python 提供了多个库来计算分位数,包括 NumPy 和 Pandas。
使用 NumPy 计算分位数
下面是一个使用 NumPy 计算分位数的示例 −
Example
import numpy as np
data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)
在这个示例中,我们使用 NumPy 创建一个样本数据集,然后使用 np.percentile() 函数计算 25th 和 75th 分位数。
Output
输出显示了数据集的分位数值。
25th percentile: 2.0 75th percentile: 4.0
使用 Pandas 计算分位数
下面是一个使用 Pandas 计算分位数的示例 −
Example
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)
print('25th percentile:', p25)
print('75th percentile:', p75)
在这个示例中,我们创建一个 Pandas series 对象,然后使用该对象的 quantile() 方法计算 25th 和 75th 分位数。
Output
输出显示了数据集的分位数值。
25th percentile: 2.0 75th percentile: 4.0