블로그

통계 분석 기법을 이용한 가설 검정(1) 본문

Computer engineering/R

통계 분석 기법을 이용한 가설 검정(1)

JuNM0418 2019. 6. 3. 22:52

통계 분석 기법을 이용한 가설 검정(1)

T검정

't 검정(t-test)'은 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법입니다.

compact 자동차와 suv 자동차의 도시 연비 t검정

먼저 mpg데이터를 불러와 class,cty변수만 남긴 뒤 class변수가 "compact"인 자동차와 "suv"인 자동차를 추출하겠습니다.

mpg <- as.data.frame(ggplot2::mpg)

library(dplyr)
mpg_diff <- mpg %>%
        select(class, cty) %>%
        filter(class %in% c("compact", "suv"))

t.test()를 이용해 t검정을 하겠습니다. 앞에서 추출한 mpg_diffl데이터를 지정하고, ~기호를 이용해 비교할 값인 cty(도시 연비)변수와 비교할 집단인 class(자동차 종류)변수를 지정합니다.

t.test(data = mpg_diff, cty ~ class, var.equal = T)


    Two Sample t-test

data:  cty by class
t = 11.917, df = 107, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 5.525180 7.730139
sample estimates:
mean in group compact     mean in group suv 
             20.12766              13.50000 

출력된 t검정 결과에서 p-value가 유의 확률을 의미합니다.

일반적으로 유의확률 5%를 판단 기준으로 삼고, p-value 가 0.05미만이면

'집단 간 차이가 통계적으로 유의하다' 고 해석합니다.

따라서 'compact와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다' 고 해석할 수 있습니다.

일반 휘발유와 고급 휘발유의 도시 연비 t 검정

이번에는 일반 휘발유(Regular)를 사용하는 자동차와 고급 휘발유를(Premium)를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의한지 알아보겠습니다.

mpg_diff2 <- mpg %>%
        select(fl, cty) %>%
        filter(fl %in% c("r", "p"))

t.test(data = mpg_diff2, cty ~ fl, var.equal = T)


    Two Sample t-test

data:  cty by fl
t = 1.0662, df = 218, p-value = 0.2875
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.5322946  1.7868733
sample estimates:
mean in group p mean in group r 
       17.36538        16.73810 

분석 결과를 보면 p-value가 0.05보다 큰 0.2875입니다. 실제로는 차이가 없는데 우연에 의해 이런 차이가 관찰될 확률이 28.75%라는 의미 입니다.

따라서 '일반 휘발유와 고급 휘발유를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의하지 않다'고 결론을 내릴 수 있습니다.

출처

김영우, 쉽게 배우는 R 데이터 분석, 이지퍼블리싱, 2019

Comments