R语言实战：基本统计分析

January 07, 2021 (最后修改: January 14, 2021)

本文内容来自《R 语言实战》(R in Action, 2nd)，有部分修改

描述性统计分析

mtcars 数据集中的三个连续变量

mpg：每加仑汽油行驶英里数

hp：马力

wt：车重

selected_variables <- c("mpg", "hp", "wt")
head(mtcars[selected_variables])

                   mpg  hp    wt
Mazda RX4         21.0 110 2.620
Mazda RX4 Wag     21.0 110 2.875
Datsun 710        22.8  93 2.320
Hornet 4 Drive    21.4 110 3.215
Hornet Sportabout 18.7 175 3.440
Valiant           18.1 105 3.460

两个分类变量

am：变速箱类型

cyl：汽缸数

方法云集

summary(mtcars[selected_variables])

      mpg              hp              wt       
 Min.   :10.40   Min.   : 52.0   Min.   :1.513  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
 Median :19.20   Median :123.0   Median :3.325  
 Mean   :20.09   Mean   :146.7   Mean   :3.217  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
 Max.   :33.90   Max.   :335.0   Max.   :5.424

sapply() 函数格式

sapply(x, FUN, options)

fivenum() 返回图基五数总括 (Tukey’s five-number summary)

sapply(
  mtcars[selected_variables],
  fivenum
)

       mpg  hp     wt
[1,] 10.40  52 1.5130
[2,] 15.35  96 2.5425
[3,] 19.20 123 3.3250
[4,] 22.80 180 3.6500
[5,] 33.90 335 5.4240

自定义统计函数

在统计学中，峰度（Kurtosis）衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
– wiki

在概率论和统计学中，偏度衡量实数随机变量概率分布的不对称性。
– wiki

my_stats <- function(x, na.omit=TRUE) {
  if(na.omit) {
    x <- x[!is.na(x)]
  }
  m <- mean(x)
  n <- length(x)
  s <- sd(x)
  skew <- sum((x-m)^3/s^3)/n # 偏度 Skewness
  kurt <- sum((x-m)^4/s^4)/n - 3 # 峰度 Kurtosis
  return (
    c(
      n=n,
      mean=m,
      stdev=s,
      skew=skew,
      kurtosis=kurt
    )
  )
}

sapply(mtcars[selected_variables], my_stats)

               mpg          hp          wt
n        32.000000  32.0000000 32.00000000
mean     20.090625 146.6875000  3.21725000
stdev     6.026948  68.5628685  0.97845744
skew      0.610655   0.7260237  0.42314646
kurtosis -0.372766  -0.1355511 -0.02271075

分组计算描述性统计量

aggregate() 函数 by 参数

aggregate(
  mtcars[selected_variables],
  by=list(am=mtcars$am),
  mean
)

  am      mpg       hp       wt
1  0 17.14737 160.2632 3.768895
2  1 24.39231 126.8462 2.411000

aggregate(
  mtcars[selected_variables],
  by=list(am=mtcars$am),
  sd
)

  am      mpg       hp        wt
1  0 3.833966 53.90820 0.7774001
2  1 6.166504 84.06232 0.6169816

by() 函数

dstats <- function(x) {
  return (sapply(x, my_stats))
}

by(
  mtcars[selected_variables],
  mtcars$am,
  dstats
)

mtcars$am: 0
                 mpg           hp         wt
n        19.00000000  19.00000000 19.0000000
mean     17.14736842 160.26315789  3.7688947
stdev     3.83396639  53.90819573  0.7774001
skew      0.01395038  -0.01422519  0.9759294
kurtosis -0.80317826  -1.20969733  0.1415676
------------------------------------------------------------------------------ 
mtcars$am: 1
                 mpg          hp         wt
n        13.00000000  13.0000000 13.0000000
mean     24.39230769 126.8461538  2.4110000
stdev     6.16650381  84.0623243  0.6169816
skew      0.05256118   1.3598859  0.2103128
kurtosis -1.45535200   0.5634635 -1.1737358

分组计算的扩展

doBy 包中的 summaryBy() 函数

var1 + var2 + var3 + … + varN ~ groupvar1 + groupvar2 + … + groupvarN

library(doBy)

summaryBy(
  mpg + hp + wt ~ am,
  data=mtcars,
  FUN=my_stats
)

  am mpg.n mpg.mean mpg.stdev   mpg.skew mpg.kurtosis hp.n  hp.mean hp.stdev     hp.skew hp.kurtosis
1  0    19 17.14737  3.833966 0.01395038   -0.8031783   19 160.2632 53.90820 -0.01422519  -1.2096973
2  1    13 24.39231  6.166504 0.05256118   -1.4553520   13 126.8462 84.06232  1.35988586   0.5634635
  wt.n  wt.mean  wt.stdev   wt.skew wt.kurtosis
1   19 3.768895 0.7774001 0.9759294   0.1415676
2   13 2.411000 0.6169816 0.2103128  -1.1737358

psych 包中的 describeBy() 函数

describeBy(
  mtcars[selected_variables],
  list(am=mtcars$am)
)

 Descriptive statistics by group 
am: 0
    vars  n   mean    sd median trimmed   mad   min    max  range  skew kurtosis    se
mpg    1 19  17.15  3.83  17.30   17.12  3.11 10.40  24.40  14.00  0.01    -0.80  0.88
hp     2 19 160.26 53.91 175.00  161.06 77.10 62.00 245.00 183.00 -0.01    -1.21 12.37
wt     3 19   3.77  0.78   3.52    3.75  0.45  2.46   5.42   2.96  0.98     0.14  0.18
------------------------------------------------------------------------------ 
am: 1
    vars  n   mean    sd median trimmed   mad   min    max  range skew kurtosis    se
mpg    1 13  24.39  6.17  22.80   24.38  6.67 15.00  33.90  18.90 0.05    -1.46  1.71
hp     2 13 126.85 84.06 109.00  114.73 63.75 52.00 335.00 283.00 1.36     0.56 23.31
wt     3 13   2.41  0.62   2.32    2.39  0.68  1.51   3.57   2.06 0.21    -1.17  0.17

结果的可视化

直方图

密度图

箱线图

点图

频数表和列联表

使用 vcd 包中的 Arthritis 数据集

library(vcd)

head(Arthritis)

  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked

生成频数表

一维列联表

table() 生成频数统计表

one_d_table <- with(
  Arthritis,
  table(Improved)
)
one_d_table

Improved
  None   Some Marked 
    42     14     28

prop.table() 将频数统计表转为比例值

prop.table(my_table)

Improved
     None      Some    Marked 
0.5000000 0.1666667 0.3333333

prop.table(my_table) * 100

Improved
    None     Some   Marked 
50.00000 16.66667 33.33333

二维列联表

table(
  Arthritis$Treatment, # 行
  Arthritis$Improved   # 列
)

          None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

xtabs() 函数

my_table <- xtabs(
  ~ Treatment + Improved,
  data=Arthritis
)
my_table

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

margin.table() 生成边际频数

1 表示每行生成一个边际值，即为第 1 个维度生成边际值

margin.table(my_table, 1)

Treatment
Placebo Treated 
     43      41

margin.table(my_table, 2)

Improved
  None   Some Marked 
    42     14     28

prop.table() 生成比例

1 表示沿行生成比例，即沿第一个维度计算比例

prop.table(my_table, 1)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6744186 0.1627907 0.1627907
  Treated 0.3170732 0.1707317 0.5121951

prop.table(my_table, 2)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6744186 0.1627907 0.1627907
  Treated 0.3170732 0.1707317 0.5121951

addmargins() 添加边际和

addmargins(my_table)

         Improved
Treatment None Some Marked Sum
  Placebo   29    7      7  43
  Treated   13    7     21  41
  Sum       42   14     28  84

1 表示行，2 表示列。

下面代码中的 1 表示按行求比例，即每行所有数值加和为 1

2 表示添加列方向的累加和，也就是为每行添加一个累加值

addmargins(
  prop.table(
    my_table, 
    1
  ),
  2
)

         Improved
Treatment      None      Some    Marked       Sum
  Placebo 0.6744186 0.1627907 0.1627907 1.0000000
  Treated 0.3170732 0.1707317 0.5121951 1.0000000

addmargins(
  prop.table(
    my_table, 
    2
  ), 
  1
)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6904762 0.5000000 0.2500000
  Treated 0.3095238 0.5000000 0.7500000
  Sum     1.0000000 1.0000000 1.0000000

gmodels 包中的 CrossTable() 函数

library(gmodels)

CrossTable(
  Arthritis$Treatment, 
  Arthritis$Improved
)

   Cell Contents
|-------------------------|
|                       N |
| Chi-square contribution |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  84 

 
                    | Arthritis$Improved 
Arthritis$Treatment |      None |      Some |    Marked | Row Total | 
--------------------|-----------|-----------|-----------|-----------|
            Placebo |        29 |         7 |         7 |        43 | 
                    |     2.616 |     0.004 |     3.752 |           | 
                    |     0.674 |     0.163 |     0.163 |     0.512 | 
                    |     0.690 |     0.500 |     0.250 |           | 
                    |     0.345 |     0.083 |     0.083 |           | 
--------------------|-----------|-----------|-----------|-----------|
            Treated |        13 |         7 |        21 |        41 | 
                    |     2.744 |     0.004 |     3.935 |           | 
                    |     0.317 |     0.171 |     0.512 |     0.488 | 
                    |     0.310 |     0.500 |     0.750 |           | 
                    |     0.155 |     0.083 |     0.250 |           | 
--------------------|-----------|-----------|-----------|-----------|
       Column Total |        42 |        14 |        28 |        84 | 
                    |     0.500 |     0.167 |     0.333 |           | 
--------------------|-----------|-----------|-----------|-----------|

多维列联表

my_table <- xtabs(
  ~ Treatment + Sex + Improved,
  data=Arthritis
)
my_table

, , Improved = None

         Sex
Treatment Female Male
  Placebo     19   10
  Treated      6    7

, , Improved = Some

         Sex
Treatment Female Male
  Placebo      7    0
  Treated      5    2

, , Improved = Marked

         Sex
Treatment Female Male
  Placebo      6    1
  Treated     16    5

ftable() 以一种更紧凑的形式输出多维列联表

ftable(my_table)

                 Improved None Some Marked
Treatment Sex                             
Placebo   Female            19    7      6
          Male              10    0      1
Treated   Female             6    5     16
          Male               7    2      5

边际频数

margin.table(
  my_table,
  1
)

Treatment
Placebo Treated 
     43      41

margin.table(
  my_table,
  2
)

Sex
Female   Male 
    59     25

margin.table(
  my_table,
  3
)

Improved
  None   Some Marked 
    42     14     28

多维边际频数

margin.table(
  my_table, 
  c(1, 3)
)

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

比例

ftable(
  prop.table(
    my_table, 
    c(1, 2)
  )
)

                 Improved       None       Some     Marked
Treatment Sex                                             
Placebo   Female          0.59375000 0.21875000 0.18750000
          Male            0.90909091 0.00000000 0.09090909
Treated   Female          0.22222222 0.18518519 0.59259259
          Male            0.50000000 0.14285714 0.35714286

ftable(
  addmargins(
    prop.table(
      my_table, 
      c(1, 2)
    ),
    3  # 为第三维 (Improved) 增加列加和
  )
) * 100

                 Improved       None       Some     Marked        Sum
Treatment Sex                                                        
Placebo   Female           59.375000  21.875000  18.750000 100.000000
          Male             90.909091   0.000000   9.090909 100.000000
Treated   Female           22.222222  18.518519  59.259259 100.000000
          Male             50.000000  14.285714  35.714286 100.000000

独立性检验

卡方独立检验

卡方检验适用于计数数据，可以检验数据与预期分布的拟合程度。在统计实践中，卡方统计量的最常见用法是与 r x c 列联表一起使用，以评估对变量间独立性的零假设是否合理。

引自 [1]

chisq.test()

下面示例显示治疗情况和改善情况不独立 (p值太小)

my_table <- xtabs(
  ~ Treatment + Improved,
  data=Arthritis
)
my_table

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

chisq.test(my_table)

	Pearson's Chi-squared test

data:  my_table
X-squared = 13.055, df = 2, p-value = 0.001463

p 值表示从总体中抽取的样本行变量与列变量是相互独立的概率。

下面示例显示性别和改善情况独立

my_table <- xtabs(
  ~ Improved + Sex,
  data=Arthritis
)
my_table

        Sex
Improved Female Male
  None       25   17
  Some       12    2
  Marked     22    6

chisq.test(my_table)

Chi-squared approximation may be incorrect
	Pearson's Chi-squared test

data:  my_table
X-squared = 4.8407, df = 2, p-value = 0.08889

Fisher 精确检验

可以实际列出所有可能出现的重排 (置换) 情况及其频数，进而确定观测结果的极端程度。这一操作被称为费舍尔精确检验 (Fisher’s exact test)。

引自 [1]

my_table <- xtabs(
  ~ Treatment + Improved,
  data=Arthritis
)
my_table

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

fisher.test(my_table)

	Fisher's Exact Test for Count Data

data:  my_table
p-value = 0.001393
alternative hypothesis: two.sided

Cochran-Mantel-Haenszel 卡方检验

假设两个名义变量在第三个变量的每一层中都是条件独立的。

下面代码假设不存在三阶交互作用 (治疗情况 x 改善情况 x 性别)

my_table <- xtabs(
  ~ Treatment + Improved + Sex,
  data=Arthritis
)
ftable(my_table)

                   Sex Female Male
Treatment Improved                
Placebo   None             19   10
          Some              7    0
          Marked            6    1
Treated   None              6    7
          Some              5    2
          Marked           16    5

结果表明，治疗与得到的改善在性别的每一水平下并不独立

mantelhaen.test(my_table)

	Cochran-Mantel-Haenszel test

data:  my_table
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647

结果的可视化

条形图

马赛克图

关联图

…

相关

多于两组的比较

单向设计 one-way design

各组独立：Kruskal-Wallis 检验

各组不独立：Friedman 检验

states <- data.frame(
  state.region,
  state.x77
)
head(states)

           state.region Population Income Illiteracy Life.Exp Murder HS.Grad Frost   Area
Alabama           South       3615   3624        2.1    69.05   15.1    41.3    20  50708
Alaska             West        365   6315        1.5    69.31   11.3    66.7   152 566432
Arizona            West       2212   4530        1.8    70.55    7.8    58.1    15 113417
Arkansas          South       2110   3378        1.9    70.66   10.1    39.9    65  51945
California         West      21198   5114        1.1    71.71   10.3    62.6    20 156361
Colorado           West       2541   4884        0.7    72.06    6.8    63.9   166 103766

kruskal.test(
  Illiteracy ~ state.region,
  data=states
)

	Kruskal-Wallis rank sum test

data:  Illiteracy by state.region
Kruskal-Wallis chi-squared = 22.672, df = 3, p-value = 4.726e-05

组件差异的可视化

箱线图

核密度图

第 9 章和第 19 章介绍的图形

参考

参考文献

[1] 面向数据科学家的实用统计学

R 语言实战

《图形初阶》

《基本数据管理》

《高级数据管理》

《基本图形》

R语言实战：基本统计分析

描述性统计分析

方法云集

更多方法

分组计算描述性统计量

分组计算的扩展

结果的可视化

频数表和列联表

生成频数表

一维列联表

二维列联表

多维列联表

独立性检验

卡方独立检验

Fisher 精确检验

Cochran-Mantel-Haenszel 卡方检验

相关性的度量

结果的可视化

相关

相关的类型

相关系数

偏相关

其他类型的相关

相关性的显著性检验

相关关系的可视化

t 检验

独立样本的 t 检验

非独立样本的 t 检验

多于两组的情况

组间差异的非参数检验

两组的比较

多于两组的比较

组件差异的可视化

参考