● 공분산
두 확률 변수의 선형 관계, 두 확률 변수의 흩어진 정도를 나타낸 지표
= E(XY) - E(X) * E(Y)
● 상관계수
두 확률 변수의 선형 관계인 공분산을 정규화하여 강도, 방향을 나타낸 지표
● 기하 평균
곱셈으로 계산하는 값에서의 평균을 계산하려고 할 때 활용하는 평균
특이값의 영향을 산술평균 보다 덜 받는다.
● 조화 평균
변량의 역수의 평균 의 역수.
변하는 속도 등의 평균으로 활용
cf) 산술 평균 ≥ 기하 평균 ≥ 조화 평균
● 사분범위(IQR)
Q3(3사분위수: 75%) - Q1(1사분위수: 25%)
일반적으로 사분 범위의 1.5분위수를 벗어나는 경우 이상치로 판단한다.
→ Q1- 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 경우
● 변동 계수 (Coefficient of Variation)
표준 편차 / 평균
측정 단위와 관계 없이 상대적 산포도를 구하려고 할 때 활용한다.
● 왜도
확률분포의 비대칭 정도.
→ 적률 계수(α3)
좌우 대칭 (정규 분포) → α3 = 0
좌측으로 치우친 모양 → α3 > 0 (큰 값 영향) : 최빈값 < 중앙값 < 평균
우측으로 치우친 모양 → α3 < 0 (작은 값 영향) : 평균< 중앙값 < 최빈값
● 첨도
뾰족하고 꼬리가 긴 정도
→ 적률 계수(α4)
α4 =3 → 정규 분포
α4 >3 → 정규 분포 보다 뾰족하고 꼬리가 긴 모양
α4 <3 → 정규 분포 보다 완만하고 꼬리가 짧은 모양
'데이터 사이언스 기초' 카테고리의 다른 글
측정과 척도 (0) | 2024.10.10 |
---|---|
표본 추출 방법 (1) | 2024.10.08 |
가설 검정 (1) | 2024.10.04 |
데이터, 데이터 사이언티스트란? (1) | 2024.09.30 |
데이터 분석 히스토리 및 향후 목표 (0) | 2024.09.25 |