통계 9

분산분석 with 파이썬

파이썬으로 분산 분석 (ANOVA) 을 수행하는 방법을 정리해보려고 합니다. ◎ 일원배치 분산분석 (One-way ANOVA) 일원배치 분산분석 (One-way ANOVA) 은 하나의 범주형 변수의 영향에 따른 둘 이상의 집단 간 평균이 같은지를 검증하기 위한 방법입니다. 1. 데이터 분포, 변수 설정 'Iris 의 3 가지 종(setosa, versicolor, virginica) 에서 sepal width 의 평균이 같다' 라는 귀무 가설을 검정하려고 합니다. 데이터는 3 가지 종의 데이터가 고르게 분포되어 있습니다.  setosa, versicolor, virginica 에 각각의 sepal width 값들의 데이터를 저장하였습니다. 2. 기본 가정을 충족하지 못한 경우 일원 배치 분산분석의 가정은..

t 검정 with 파이썬

파이썬으로 t 검정을 수행하는 방법에 대해 정리해보려고 합니다. t-검정은 집단의 평균 값을 추정하거나 집단 간 차이를 검정할 때 사용하는 검정 방법으로, 대표적으로 3가지의 경우 ( 일 표본, 대응표본, 독립표본) 가 있습니다. 1. 일 표본의 경우 일 표본의 경우 모평균의 기준값인 mu 를 설정한 후, '모평균의 값은 mu이다' 라는 귀무가설의 기각 여부를 검정합니다. 일표본의 경우 '정규분포를 이룬다는 가정' 의 충족 여부에 따라 검정 방법이 달라지므로, 먼저  '정규성을 가진다' 라는 귀무가설의 기각 여부를 검정하기 위해 Shapiro test 를 수행합니다.   p value(유의 확률) 이 0.05 보다 작을 경우에는 정규성이 없으므로, 윌콕슨 부호 순위 검정을 수행하고, 클 경우에는 정규성이..

시계열 분석

● 시계열 분석 시계열 분석은 일정 시간 간격으로 기록된 자료들의 특성을 파악하고 미래를 예측하는 분석 방법이다. ● 자기 상관성  이웃하는 자료들 간의 상관 관계 1. 자기 상관 계수 (ACF) 시간의 흐름에 따른 자기 상관 관계의 변화를 나타낸 지표 = 시차 l 에 따른 시점 t 의 값과 t+l 의 값 간의 상관 계수 의 변화를 나타낸 지표 시계열 자료가 시간에 의존하지 않고 무작위성을 띠는지 확인할 때 사용한다. 2. 부분 자기 상관 계수 (PACF) 다른 시점의 확률변수 영향력을 통제한 상관관계를 나타낸 지표 = 시점 t 와 t+l 사이의 l-1개 자료의 영향을 제거한 상관 계수 ● 시계열 자료의 정상성 조건 시계열의 정상성은 시계열의 통계적 특성이 시간에 대해 일정하다는 것을 의미하며, 정상성은..

거리 측도

통계학에서 자주 사용하는 거리 측도 들에 대해서 정리해 보았습니다. ● 유클리디안 거리 두 점 사이의 가장 짧은 거리 ● 맨하튼 거리 변수들의 차이의 단순합 ● 체비셰프 거리 변수 간 거리 차이 중 최댓값 ● 표준화 거리 유클리디안 거리에서 표준편차로 나눈 거리  ● 마할라노비스 거리 표준화 거리에 변수 간 상관성을 고려한 거리 S: 변수의 공분산을 성분으로 하는 대각 행렬   ● 민코프스키 거리 유클리디안 거리와 맨하튼 거리를 한 번에 표현한 거리 ● 코사인 유사도주로 텍스트의 유사도 측정에 활용되며, 크기가 아닌 방향성을 측정하는 지표 완전히 일치하면 1, 완전히 다른 방향이면 -1 입니다.

확률 이론 및 확률 분포

통계에서 기본이 되는 확률 이론과 확률 분포들에 대해 정리해 보았습니다. * 표본 공간 실험으로 가능한 모든 결과들의 집합 (ex: {앞면, 뒷면}) * 확률 변수 표본 공간의 결과들을 수치적 값으로 표현한 변수 * 확률 분포 확률 변수에 대응하는 확률이 어떻게 분포하고 있는지 나타낸 것 * 확률 함수 확률 변수를 확률에 대응시키는 함수 * 이산 확률 분포 확률 변수의 수를 셀 수 있는 경우의 분포 → 확률 함수: 확률 질량 함수 * 연속 확률 분포 확률 변수가 특정 구간 전체에 해당하므로 셀 수 없는 경우의 분포 → 확률 함수: 확률 밀도 함수 * 이산 확률 분포들 → 확률 변수 1. 베르누이 분포 → 성공 (1) or 실패(0) 2. 이항 분포 → n 번의 베르누이 시행 중 성공의 횟수 3. 초기하 ..

측정과 척도

통계학에서 기본이 되는 측정과 척도 개념에 관하여 정리해 보았습니다. 측정 수준 명목 수준: 단순 분류 (ex: 남성, 여성) 서열 수준: 서열 관계 (ex: 장관, 차관, 실장 ~) 등간 수준: 절댓값 0 이 없고, 가감만 가능합니다. (ex: ~ 지수, 온도, 날짜) 비율 수준: 절댓값 0 이 있고, 가감승제가 모두 가능합니다. (ex: 근무연수, 몸무게, 나이, 실업률) 명목 → 서열 → 등간 → 비율 수준은 포함관계입니다. 타당성과 신뢰성 타당성 = 정확성 , 신뢰성 = 일관성 타당성 → 신뢰성 은 포함관계입니다. 척도 지수는 변수의 속성인 지표들의 단순 합이고, 척도는 여기에 강도를 고려한 개념입니다. 예: 서스톤 척도, 보가더스 척도, 거트만 척도, 의미분화 척도, 리커트 척도 (=총화평정법)..

표본 추출 방법

확률 vs 비 확률 표본 추출법 확률 표본 추출법은 조사 대상이 표본으로 추출될 확률이 알려지는 경우로, 무작위적 추출과 같습니다. 비확률 표본 추출법은 조사 대상이 표본으로 추출될 확률을 모르는 경우로, 작위적 추출과 같습니다. 확률 표본 추출법 1. 단순 무작위 표본 추출 은 모집단의 구성 요소가 표본으로 뽑힐 확률이 동등한 경우입니다. 2. 체계적 / 계통적 표본 추출 은 일정한 표본 추출 간격에 따라 요소를 추출하는 경우입니다. 표본 추출 간격은 모집단의 수 / 추출하려는 표본의 수로 구합니다. 최초의 표집 간격 내에서 하나를 무작위 추출한 후, 표집 간격을 더하면서 표본을 추출합니다. 3. 층화 표본 추출 은 모집단을 내부의 요소가 동질적이지만 계층 간에는 이질적이도록 계층에서 표본을 무작위로 ..

가설 검정

* 가설 검정 모집단의 특성에 대한 가설을 세운 후 표본의 정보로 가설을 판정하는 과정 귀무 가설 (null hypothesis): 기각하려고 하는 가설  대립 가설 (alternative hypothesis): 증명하려고 하는 가설 제 1종 오류: 귀무가설이 맞는데 틀렸다고 결정하는 오류  제 2종 오류: 귀무가설이 틀렸는데 맞다고 결정하는 오류 신뢰수준: 귀무가설이 맞고 맞다고 결정할 확률 검정력: 귀무가설이 틀렸고 틀렸다고 결정할 확률 검정 통계량 (test statistic): 귀무가설의 옳고 그름을 판단할 수 있는 값 기각역: 귀무 가설을 기각하게 될 검정통계량의 영역 → 경계: 임계값(critical value) 유의 수준 (significance level): 1종 오류를 범할 확률의 최대 ..

기술 통계

● 공분산 두 확률 변수의 선형 관계, 두 확률 변수의 흩어진 정도를 나타낸 지표  = E(XY) - E(X) * E(Y)  ● 상관계수 두 확률 변수의 선형 관계인 공분산을 정규화하여 강도, 방향을 나타낸 지표   ● 기하 평균 곱셈으로 계산하는 값에서의 평균을 계산하려고 할 때 활용하는 평균특이값의 영향을 산술평균 보다 덜 받는다.    ● 조화 평균 변량의 역수의 평균 의 역수. 변하는 속도 등의 평균으로 활용  cf) 산술 평균 ≥ 기하 평균 ≥ 조화 평균  ● 사분범위(IQR) Q3(3사분위수: 75%) - Q1(1사분위수: 25%) 일반적으로 사분 범위의 1.5분위수를 벗어나는 경우 이상치로 판단한다. → Q1- 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 경우 ● 변동 ..