데이터 사이언스 기초

기술 통계

skbaek1223 2024. 10. 2. 20:58

● 공분산

 
두 확률 변수의 선형 관계, 두 확률 변수의 흩어진 정도를 나타낸 지표

 

 
= E(XY) - E(X) * E(Y)
 

 

상관계수

 

두 확률 변수의 선형 관계인 공분산을 정규화하여 강도, 방향을 나타낸 지표

 

 

 

기하 평균

 

곱셈으로 계산하는 값에서의 평균을 계산하려고 할 때 활용하는 평균


특이값의 영향을 산술평균 보다 덜 받는다.

 


 

 

 

조화 평균

 
변량의 역수의 평균 의 역수.

 

변하는 속도 등의 평균으로 활용

 


 
cf) 산술 평균 ≥ 기하 평균 ≥ 조화 평균
 

 

사분범위(IQR)

 
Q3(3사분위수: 75%) - Q1(1사분위수: 25%)

 

일반적으로 사분 범위의 1.5분위수를 벗어나는 경우 이상치로 판단한다.

 

→ Q1- 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 경우

 

변동 계수 (Coefficient of Variation)

 
표준 편차 / 평균

 

측정 단위와 관계 없이 상대적 산포도를 구하려고 할 때 활용한다.
 

 왜도

 
확률분포의 비대칭 정도.


 

 

 

 

 

→  적률 계수(α3)


 
좌우 대칭 (정규 분포) → α3 = 0


좌측으로 치우친 모양 α3 > 0 (큰 값 영향) : 최빈값 < 중앙값 < 평균


우측으로 치우친 모양  → α3 < 0 (작은 값 영향) : 평균< 중앙값 < 최빈값
 

 

첨도

 
뾰족하고 꼬리가 긴 정도

 

 

 

 

 

 

→  적률 계수(α4)


 
α4 =3 → 정규 분포


α4 >3 → 정규 분포 보다 뾰족하고 꼬리가 긴 모양


α4 <3 → 정규 분포 보다 완만하고 꼬리가 짧은 모양

'데이터 사이언스 기초' 카테고리의 다른 글

측정과 척도  (0) 2024.10.10
표본 추출 방법  (1) 2024.10.08
가설 검정  (1) 2024.10.04
데이터, 데이터 사이언티스트란?  (1) 2024.09.30
데이터 분석 히스토리 및 향후 목표  (0) 2024.09.25