데이터 사이언스 기초

확률 이론 및 확률 분포

skbaek1223 2024. 10. 11. 10:25

통계에서 기본이 되는 확률 이론과 확률 분포들에 대해 정리해 보았습니다.

 

* 표본 공간

 

실험으로 가능한 모든 결과들의 집합 (ex: {앞면, 뒷면})

 

* 확률 변수

 

표본 공간의 결과들을 수치적 값으로 표현한 변수

 

* 확률 분포

 

확률 변수에 대응하는 확률이 어떻게 분포하고 있는지 나타낸 것

 

* 확률 함수

 

확률 변수를 확률에 대응시키는 함수

 

* 이산 확률 분포

 

확률 변수의 수를 셀 수 있는 경우의 분포

 

→ 확률 함수: 확률 질량 함수

 

* 연속 확률 분포

 

확률 변수가 특정 구간 전체에 해당하므로 셀 수 없는 경우의 분포

 

→ 확률 함수: 확률 밀도 함수

 

* 이산 확률 분포들 → 확률 변수

 

1. 베르누이 분포 → 성공 (1) or 실패(0)

 

2. 이항 분포 → n 번의 베르누이 시행 중 성공의 횟수

 

3. 초기하 분포 → 비복원 추출의 경우 원하는 것이 추출된 개수

 

4. 기하 분포 → 처음으로 성공이 나올 때까지의 실패(시행) 횟수

 

5. 음이항 분포 → 처음으로 r번 성공이 나올 때까지의 실패(시행) 횟수

 

6. 다항 분포 → 3개 이상의 결과

 

7. 포아송 분포 → 단위 시간/ 공간 내 발생 가능한 사건 발생 횟수

 

(단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우: λ )

 

* 기하 분포: 무기억성 (memoryless) 성질 보유

 

→ 지금까지의 시행횟수가 향후 시행횟수에 영향을 주지 않는다.

 

* 연속 확률 분포들

 

1. 균일 분포 (Uniform distribution)

 

구간 내 모든 값에 대해 확률이 같은 경우

 

2. 정규 분포 (Normal distribution)

 

평균, 표준편차가 주어져 있고, 종 모양으로 분포가 퍼져 있는 경우

 

→ 표준정규분포: 평균=0, 표준 편차=1 

 

3. t-분포

 

모분산을 모르거나 표본이 적은 경우

 

→ 표준정규분포보다는 꼬리가 두꺼운 형태로 퍼져 있다. (평균=0, 좌우 대칭)

 

자유도가 클 수록 표준 정규분포에 근접한다.

 

cf) 자유도: 독립적인 자료의 개수

 

기준 값은 -2, 2로 주로 본다.

 

4. 카이 제곱 분포

 

독립인 표준 정규분포 확률 변수들(Z) 의 제곱의 합의 분포

 

= 표준정규분포의 분산 의 분포

 

자유도= 더한 표준정규분포 확률변수의 수

 

기준 값은 1로 주로 본다.

 

5. F 분포

 

독립인 두 카이제곱 분포 / 각각의 자유도 의 분포

 

→ 두 집단 간 분산의 동일성 검정에 활용

 

기준 값은 1로 주로 본다.

 

 

6. 지수 분포

 

단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우(λ)

 

→  사건 발생 사이의 시간 간격의 분포

 

무기억성 (memoryless) 성질 보유

 

7. 감마 분포

 

단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우(λ) 

 

→ 사건이 r 회 발생하는 시간 간격의 분포

 

'데이터 사이언스 기초' 카테고리의 다른 글

유용한 리스트, 딕셔너리 코드  (0) 2024.10.17
유용한 파이썬 코드  (2) 2024.10.16
측정과 척도  (0) 2024.10.10
표본 추출 방법  (1) 2024.10.08
가설 검정  (1) 2024.10.04