机器学习中 Percentiles 怎么计算和使用?

文章导读
Previous Quiz Next 分位数是机器学习中用于描述数据集分布的统计概念。分位数是一种度量,表示观测组中给定百分比的观测值低于该值的比例。
📋 目录
  1. 使用 NumPy 计算分位数
  2. 使用 Pandas 计算分位数
A A

机器学习 - 分位数



Previous
Quiz
Next

分位数是机器学习中用于描述数据集分布的统计概念。分位数是一种度量,表示观测组中给定百分比的观测值低于该值的比例。

例如,25th percentile(也称为第一四分位数)是数据集中有25%的观测值低于该值,而75th percentile(也称为第三四分位数)是数据集中有75%的观测值低于该值。

分位数可用于总结数据集的分布并识别异常值。在机器学习中,分位数常用于数据预处理和探索性数据分析,以深入了解数据。

Python 提供了多个库来计算分位数,包括 NumPy 和 Pandas。

使用 NumPy 计算分位数

下面是一个使用 NumPy 计算分位数的示例 −

Example

import numpy as np

data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)

在这个示例中,我们使用 NumPy 创建一个样本数据集,然后使用 np.percentile() 函数计算 25th 和 75th 分位数。

Output

输出显示了数据集的分位数值。

25th percentile: 2.0
75th percentile: 4.0

使用 Pandas 计算分位数

下面是一个使用 Pandas 计算分位数的示例 −

Example

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)

print('25th percentile:', p25)
print('75th percentile:', p75)

在这个示例中,我们创建一个 Pandas series 对象,然后使用该对象的 quantile() 方法计算 25th 和 75th 分位数。

Output

输出显示了数据集的分位数值。

25th percentile: 2.0
75th percentile: 4.0