파이썬으로 t 검정을 수행하는 방법에 대해 정리해보려고 합니다.
t-검정은 집단의 평균 값을 추정하거나 집단 간 차이를 검정할 때 사용하는 검정 방법으로, 대표적으로 3가지의 경우 ( 일 표본, 대응표본, 독립표본) 가 있습니다.
1. 일 표본의 경우
일 표본의 경우 모평균의 기준값인 mu 를 설정한 후, '모평균의 값은 mu이다' 라는 귀무가설의 기각 여부를 검정합니다.
일표본의 경우 '정규분포를 이룬다는 가정' 의 충족 여부에 따라 검정 방법이 달라지므로, 먼저 '정규성을 가진다' 라는 귀무가설의 기각 여부를 검정하기 위해 Shapiro test 를 수행합니다.
p value(유의 확률) 이 0.05 보다 작을 경우에는 정규성이 없으므로, 윌콕슨 부호 순위 검정을 수행하고, 클 경우에는 정규성이 있으므로, 일표본 t-검정을 수행합니다.
윌콕슨 검정과 일표본 t-검정에서는 alternative= 'greater' / 'less' / 'two-sided' 을 설정할 수 있습니다. default 는 양측 검정으로, '모평균의 값은 mu이다' 라는 귀무가설을 검정하는 것이지만, '전자가 후자보다 크다, 작다' 를 귀무가설로 하는 단측 검정을 수행할 수도 있습니다.
2. 대응 표본의 경우
대응표본의 경우 모집단에 대한 처리 전후에 따른 평균의 차이를 비교할 때, '두 모평균 사이에 차이는 없다' 라는 귀무가설의 기각 여부를 검정합니다.
대응표본의 경우에 '정규분포를 이룬다는 가정' 의 충족 여부에 따라 검정 방법이 달라지므로, 먼저 '정규성을 가진다' 라는 귀무가설의 기각 여부를 검정하기 위해 Shapiro test 를 수행합니다.
p value(유의 확률) 이 0.05 보다 작을 경우에는 정규성이 없으므로, 윌콕슨 부호 순위 검정을 수행하고, 클 경우에는 정규성이 있으므로, 대응표본 t-검정을 수행합니다.
p value(유의 확률) 이 0.05 보다 작으므로, 실험 이후의 결과가 이전보다 크다는 결론을 낼 수 있습니다.
3. 독립 표본의 경우
독립 표본의 경우 두 모집단의 평균을 비교할 때, '두 모평균의 차이는 없다' 라는 귀무 가설의 기각 여부를 검정합니다. 두 모집단으로 검정하는 경우에는 정규성과 등분산성 두 가지에 따라 검정 방법이 달라집니다.
정규성이 없는 경우에는 윌콕슨 부호 순위 검정, 등분산성이 없는 경우에는 equal_var=False, 등분산성이 충족된 경우에는 equal_var=True 로 독립 표본 t-검정을 수행합니다.
Shapiro test 결과 정규성이 충족된 경우, '등분산성을 가진다' 라는 귀무가설의 기각 여부를 검정하기 위해 levene- test 를 수행합니다.
.
p value(유의 확률) 이 0.05 보다 작으면 등분산성이 충족되지 않아 equal_var=False 로 독립 t-test 를 수행하고, 크면 등분산성이 충족되어 equal_var=True 로 독립 t-test 를 수행합니다.
검정 결과 p value (유의 확률)이 0.05 보다 작으므로 두 모평균 (암컷, 수컷) 의 차이는 존재한다는 결론을 낼 수 있습니다.
< 참고 자료 >
데싸라면 , 빨간색 물고기 , 자투리코드 , (2023), 파이썬 한권으로 끝내기: 데이터분석전문가(ADP) + 빅데이터분석기사 실기대비, 시대고시기획
'데이터 사이언스 기초' 카테고리의 다른 글
회귀 분석 (머신 러닝) (0) | 2024.11.27 |
---|---|
분산분석 with 파이썬 (1) | 2024.11.15 |
웹 스크래핑의 기본 (0) | 2024.11.13 |
파이썬 기초 프로젝트 리뷰 (3) | 2024.11.09 |
Leet-Code pandas 버전 리뷰 (1) | 2024.11.08 |