R语言 Data Frames 怎么用?

文章导读
上一个 测验 下一个 data frame 是一种表格或二维数组-like 结构,其中每列包含一个变量的值,每行包含来自各列的一组值。
📋 目录
  1. 创建 Data Frame
  2. 获取 Data Frame 的结构
  3. Data Frame 中数据的摘要
  4. 从 Data Frame 中提取数据
  5. 扩展数据框
A A

R - 数据框



上一个
测验
下一个

data frame 是一种表格或二维数组-like 结构,其中每列包含一个变量的值,每行包含来自各列的一组值。

以下是 data frame 的特性。

  • 列名不能为空。
  • 行名应该是唯一的。
  • 存储在 data frame 中的数据可以是 numeric、factor 或 character 类型。
  • 每列应包含相同数量的数据项。

创建 Data Frame

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# 打印 data frame。			
print(emp.data) 

执行上述代码时,会产生以下结果 −

 emp_id    emp_name     salary     start_date
1     1     Rick        623.30     2012-01-01
2     2     Dan         515.20     2013-09-23
3     3     Michelle    611.00     2014-11-15
4     4     Ryan        729.00     2014-05-11
5     5     Gary        843.25     2015-03-27

获取 Data Frame 的结构

可以使用 str() function 查看 data frame 的结构。

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# 获取 data frame 的结构。
str(emp.data)

执行上述代码时,会产生以下结果 −

'data.frame':   5 obs. of  4 variables:
 $ emp_id    : int  1 2 3 4 5
 $ emp_name  : chr  "Rick" "Dan" "Michelle" "Ryan" ...
 $ salary    : num  623 515 611 729 843
 $ start_date: Date, format: "2012-01-01" "2013-09-23" "2014-11-15" "2014-05-11" ...

Data Frame 中数据的摘要

可以通过应用 summary() function 获取数据的统计摘要和性质。

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# 打印摘要。
print(summary(emp.data))  

执行上述代码时,会产生以下结果 −

     emp_id    emp_name             salary        start_date        
 Min.   :1   Length:5           Min.   :515.2   Min.   :2012-01-01  
 1st Qu.:2   Class :character   1st Qu.:611.0   1st Qu.:2013-09-23  
 Median :3   Mode  :character   Median :623.3   Median :2014-05-11  
 Mean   :3                      Mean   :664.4   Mean   :2014-01-14  
 3rd Qu.:4                      3rd Qu.:729.0   3rd Qu.:2014-11-15  
 Max.   :5                      Max.   :843.2   Max.   :2015-03-27 

从 Data Frame 中提取数据

使用列名从 data frame 中提取特定列。

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5),
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25),
   
   start_date = as.Date(c("2012-01-01","2013-09-23","2014-11-15","2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# 提取特定列。
result <- data.frame(emp.data$emp_name,emp.data$salary)
print(result)

执行上述代码时,会产生以下结果 −

  emp.data.emp_name emp.data.salary
1              Rick          623.30
2               Dan          515.20
3          Michelle          611.00
4              Ryan          729.00
5              Gary          843.25

提取前两行,然后提取所有列

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5),
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25),
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)
# 提取前两行。
result <- emp.data[1:2,]
print(result)

执行上述代码时,会产生以下结果 −

  emp_id    emp_name   salary    start_date
1      1     Rick      623.3     2012-01-01
2      2     Dan       515.2     2013-09-23

提取第 3rd 和第 5th 行,以及第 2nd 和第 4th

# 创建 data frame。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
	start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)

# 提取第 3 行和第 5 行,以及第 2 列和第 4 列。
result <- emp.data[c(3,5),c(2,4)]
print(result)

执行上述代码时,会产生以下结果 −

  emp_name start_date
3 Michelle 2014-11-15
5     Gary 2015-03-27

扩展数据框

数据框可以通过添加列和行来扩展。

添加列

只需使用新列名添加列向量即可。

# 创建数据框。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE
)

# 添加“dept”列。
emp.data$dept <- c("IT","Operations","IT","HR","Finance")
v <- emp.data
print(v)

执行上述代码时,会产生以下结果 −

  emp_id   emp_name    salary    start_date       dept
1     1    Rick        623.30    2012-01-01       IT
2     2    Dan         515.20    2013-09-23       Operations
3     3    Michelle    611.00    2014-11-15       IT
4     4    Ryan        729.00    2014-05-11       HR
5     5    Gary        843.25    2015-03-27       Finance

添加行

要永久向现有数据框添加更多行,需要以与现有数据框相同的结构引入新行,并使用 rbind() function。

在下面的示例中,我们创建一个包含新行数据的数据框,并将其与现有数据框合并,创建最终数据框。

# 创建第一个数据框。
emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   dept = c("IT","Operations","IT","HR","Finance"),
   stringsAsFactors = FALSE
)

# 创建第二个数据框
emp.newdata <- 	data.frame(
   emp_id = c (6:8), 
   emp_name = c("Rasmi","Pranab","Tusar"),
   salary = c(578.0,722.5,632.8), 
   start_date = as.Date(c("2013-05-21","2013-07-30","2014-06-17")),
   dept = c("IT","Operations","Fianance"),
   stringsAsFactors = FALSE
)

# 绑定两个数据框。
emp.finaldata <- rbind(emp.data,emp.newdata)
print(emp.finaldata)

执行上述代码时,会产生以下结果 −

  emp_id     emp_name    salary     start_date       dept
1      1     Rick        623.30     2012-01-01       IT
2      2     Dan         515.20     2013-09-23       Operations
3      3     Michelle    611.00     2014-11-15       IT
4      4     Ryan        729.00     2014-05-11       HR
5      5     Gary        843.25     2015-03-27       Finance
6      6     Rasmi       578.00     2013-05-21       IT
7      7     Pranab      722.50     2013-07-30       Operations
8      8     Tusar       632.80     2014-06-17       Fianance