데이터 사이언스 기초

가설 검정

skbaek1223 2024. 10. 4. 21:02

* 가설 검정

 

모집단의 특성에 대한 가설을 세운 후 표본의 정보로 가설을 판정하는 과정

 

귀무 가설 (null hypothesis): 기각하려고 하는 가설 

 

대립 가설 (alternative hypothesis): 증명하려고 하는 가설

 

제 1종 오류: 귀무가설이 맞는데 틀렸다고 결정하는 오류 

 

제 2종 오류: 귀무가설이 틀렸는데 맞다고 결정하는 오류

 

신뢰수준: 귀무가설이 맞고 맞다고 결정할 확률

 

검정력: 귀무가설이 틀렸고 틀렸다고 결정할 확률

 

검정 통계량 (test statistic): 귀무가설의 옳고 그름을 판단할 수 있는 값

 

기각역: 귀무 가설을 기각하게 될 검정통계량의 영역

 

→ 경계: 임계값(critical value)

 

유의 수준 (significance level): 1종 오류를 범할 확률의 최대 허용 한계

 

유의 확률 (p-value): 귀무가설을 지지하는 정도의 확률

 

= 귀무가설이 맞을 때, 현재 관측 결과만큼 극단적인 관측 결과를 얻을 확률

 

= 귀무가설이 맞을 때 현재 관측 결과가 우연히 발생했을 확률

 

유의 수준과 비교하여 귀무 가설의 기각 여부 결정

 

 

* t- 검정: 두 집단 간 평균의 차이가 유의미한지 검정

 

→ t-value = 평균의 차이 / 평균의 불확실성

 

 

* 분산 분석 (ANOVA) : 셋 이상의 모집단에서 집단 간 평균을 비교하는 검정

 

가정: 정규성(각 집단의 표본: 정규분포), 등분산성(각 집단: 동일한 분산), 독립성

 

 

오차항 가정: 정규성, 독립성, 비편향성, 등분산성

 

 

(y- 전체 평균)의 제곱합 = (y- 수준의 평균)의 제곱합 + (수준의 평균 - 전체 평균)의 제곱합

 

→  총 변동 (SST) = 급내 변동 (= 잔차제곱합, SSE) + 급간 변동 (= 처리제곱합, SStr)

 

 

F-Value

 

= (잔차 제곱합 / 자유도 (k-1)) / (처리제곱합 / 자유도 (k(n-1))

 

= 급내 변동의 카이 제곱 통계량 / 급간 변동의 카이 제곱 통계량

 

→ 임계값과 비교하여 귀무 가설 기각 여부 결정

 

cf) 전체 자유도: k-1 + k(n-1) = kn-1

'데이터 사이언스 기초' 카테고리의 다른 글

측정과 척도  (0) 2024.10.10
표본 추출 방법  (1) 2024.10.08
기술 통계  (0) 2024.10.02
데이터, 데이터 사이언티스트란?  (1) 2024.09.30
데이터 분석 히스토리 및 향후 목표  (0) 2024.09.25