일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- CodeEngn
- 데이터베이스
- r
- Programming
- Database
- 스키마 생성
- ADB
- RPS
- 릴레이션 생성
- Python
- Pay1oad
- rps.apk
- select
- android
- ZIP
- sys
- main
- SECCON
- db
- __name__
- 데이터 무결성
- enumerate
- SQL
- Android 서명
- Android 디컴파일
- 무결성 제약조건
- 인자 전달
- __main__
Archives
- Today
- Total
블로그
통계 분석 기법을 이용한 가설 검정(1) 본문
통계 분석 기법을 이용한 가설 검정(1)
T검정
't 검정(t-test)'은 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법입니다.
compact 자동차와 suv 자동차의 도시 연비 t검정
먼저 mpg
데이터를 불러와 class
,cty
변수만 남긴 뒤 class
변수가 "compact"
인 자동차와 "suv"
인 자동차를 추출하겠습니다.
mpg <- as.data.frame(ggplot2::mpg)
library(dplyr)
mpg_diff <- mpg %>%
select(class, cty) %>%
filter(class %in% c("compact", "suv"))
t.test()
를 이용해 t검정을 하겠습니다. 앞에서 추출한 mpg_diffl
데이터를 지정하고, ~
기호를 이용해 비교할 값인 cty(도시 연비)
변수와 비교할 집단인 class(자동차 종류)
변수를 지정합니다.
t.test(data = mpg_diff, cty ~ class, var.equal = T)
Two Sample t-test
data: cty by class
t = 11.917, df = 107, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
5.525180 7.730139
sample estimates:
mean in group compact mean in group suv
20.12766 13.50000
출력된 t검정 결과에서 p-value
가 유의 확률을 의미합니다.
일반적으로 유의확률 5%를 판단 기준으로 삼고, p-value
가 0.05미만이면
'집단 간 차이가 통계적으로 유의하다' 고 해석합니다.
따라서 'compact와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다' 고 해석할 수 있습니다.
일반 휘발유와 고급 휘발유의 도시 연비 t 검정
이번에는 일반 휘발유(Regular)를 사용하는 자동차와 고급 휘발유를(Premium)를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의한지 알아보겠습니다.
mpg_diff2 <- mpg %>%
select(fl, cty) %>%
filter(fl %in% c("r", "p"))
t.test(data = mpg_diff2, cty ~ fl, var.equal = T)
Two Sample t-test
data: cty by fl
t = 1.0662, df = 218, p-value = 0.2875
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5322946 1.7868733
sample estimates:
mean in group p mean in group r
17.36538 16.73810
분석 결과를 보면 p-value가 0.05보다 큰 0.2875입니다. 실제로는 차이가 없는데 우연에 의해 이런 차이가 관찰될 확률이 28.75%라는 의미 입니다.
따라서 '일반 휘발유와 고급 휘발유를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의하지 않다'고 결론을 내릴 수 있습니다.
출처
김영우, 쉽게 배우는 R 데이터 분석, 이지퍼블리싱, 2019
'Computer engineering > R' 카테고리의 다른 글
인터랙티브 그래프 (0) | 2019.05.27 |
---|---|
지도 시각화와 단계 구분도 만들기 (0) | 2019.05.17 |
텍스트 마이닝과 워드 클라우드 (5) | 2019.05.17 |
'한국복지패널데이터' 를 가지고 분석해보기! (0) | 2019.05.07 |
데이터 시각화 -ggplot2 package (0) | 2019.04.18 |
Comments