* 가설 검정
모집단의 특성에 대한 가설을 세운 후 표본의 정보로 가설을 판정하는 과정
귀무 가설 (null hypothesis): 기각하려고 하는 가설
대립 가설 (alternative hypothesis): 증명하려고 하는 가설
제 1종 오류: 귀무가설이 맞는데 틀렸다고 결정하는 오류
제 2종 오류: 귀무가설이 틀렸는데 맞다고 결정하는 오류
신뢰수준: 귀무가설이 맞고 맞다고 결정할 확률
검정력: 귀무가설이 틀렸고 틀렸다고 결정할 확률
검정 통계량 (test statistic): 귀무가설의 옳고 그름을 판단할 수 있는 값
기각역: 귀무 가설을 기각하게 될 검정통계량의 영역
→ 경계: 임계값(critical value)
유의 수준 (significance level): 1종 오류를 범할 확률의 최대 허용 한계
유의 확률 (p-value): 귀무가설을 지지하는 정도의 확률
= 귀무가설이 맞을 때, 현재 관측 결과만큼 극단적인 관측 결과를 얻을 확률
= 귀무가설이 맞을 때 현재 관측 결과가 우연히 발생했을 확률
→ 유의 수준과 비교하여 귀무 가설의 기각 여부 결정
* t- 검정: 두 집단 간 평균의 차이가 유의미한지 검정
→ t-value = 평균의 차이 / 평균의 불확실성
* 분산 분석 (ANOVA) : 셋 이상의 모집단에서 집단 간 평균을 비교하는 검정
가정: 정규성(각 집단의 표본: 정규분포), 등분산성(각 집단: 동일한 분산), 독립성
오차항 가정: 정규성, 독립성, 비편향성, 등분산성
(y- 전체 평균)의 제곱합 = (y- 수준의 평균)의 제곱합 + (수준의 평균 - 전체 평균)의 제곱합
→ 총 변동 (SST) = 급내 변동 (= 잔차제곱합, SSE) + 급간 변동 (= 처리제곱합, SStr)
F-Value
= (잔차 제곱합 / 자유도 (k-1)) / (처리제곱합 / 자유도 (k(n-1))
= 급내 변동의 카이 제곱 통계량 / 급간 변동의 카이 제곱 통계량
→ 임계값과 비교하여 귀무 가설 기각 여부 결정
cf) 전체 자유도: k-1 + k(n-1) = kn-1
'데이터 사이언스 기초' 카테고리의 다른 글
측정과 척도 (0) | 2024.10.10 |
---|---|
표본 추출 방법 (1) | 2024.10.08 |
기술 통계 (0) | 2024.10.02 |
데이터, 데이터 사이언티스트란? (1) | 2024.09.30 |
데이터 분석 히스토리 및 향후 목표 (0) | 2024.09.25 |