통계에서 기본이 되는 확률 이론과 확률 분포들에 대해 정리해 보았습니다.
* 표본 공간
실험으로 가능한 모든 결과들의 집합 (ex: {앞면, 뒷면})
* 확률 변수
표본 공간의 결과들을 수치적 값으로 표현한 변수
* 확률 분포
확률 변수에 대응하는 확률이 어떻게 분포하고 있는지 나타낸 것
* 확률 함수
확률 변수를 확률에 대응시키는 함수
* 이산 확률 분포
확률 변수의 수를 셀 수 있는 경우의 분포
→ 확률 함수: 확률 질량 함수
* 연속 확률 분포
확률 변수가 특정 구간 전체에 해당하므로 셀 수 없는 경우의 분포
→ 확률 함수: 확률 밀도 함수
* 이산 확률 분포들 → 확률 변수
1. 베르누이 분포 → 성공 (1) or 실패(0)
2. 이항 분포 → n 번의 베르누이 시행 중 성공의 횟수
3. 초기하 분포 → 비복원 추출의 경우 원하는 것이 추출된 개수
4. 기하 분포 → 처음으로 성공이 나올 때까지의 실패(시행) 횟수
5. 음이항 분포 → 처음으로 r번 성공이 나올 때까지의 실패(시행) 횟수
6. 다항 분포 → 3개 이상의 결과
7. 포아송 분포 → 단위 시간/ 공간 내 발생 가능한 사건 발생 횟수
(단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우: λ )
* 기하 분포: 무기억성 (memoryless) 성질 보유
→ 지금까지의 시행횟수가 향후 시행횟수에 영향을 주지 않는다.
* 연속 확률 분포들
1. 균일 분포 (Uniform distribution)
구간 내 모든 값에 대해 확률이 같은 경우
2. 정규 분포 (Normal distribution)
평균, 표준편차가 주어져 있고, 종 모양으로 분포가 퍼져 있는 경우
→ 표준정규분포: 평균=0, 표준 편차=1
3. t-분포
모분산을 모르거나 표본이 적은 경우
→ 표준정규분포보다는 꼬리가 두꺼운 형태로 퍼져 있다. (평균=0, 좌우 대칭)
자유도가 클 수록 표준 정규분포에 근접한다.
cf) 자유도: 독립적인 자료의 개수
기준 값은 -2, 2로 주로 본다.
4. 카이 제곱 분포
독립인 표준 정규분포 확률 변수들(Z) 의 제곱의 합의 분포
= 표준정규분포의 분산 의 분포
자유도= 더한 표준정규분포 확률변수의 수
기준 값은 1로 주로 본다.
5. F 분포
독립인 두 카이제곱 분포 / 각각의 자유도 의 분포
→ 두 집단 간 분산의 동일성 검정에 활용
기준 값은 1로 주로 본다.
6. 지수 분포
단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우(λ)
→ 사건 발생 사이의 시간 간격의 분포
무기억성 (memoryless) 성질 보유
7. 감마 분포
단위 시간/ 공간 당 평균 발생 횟수가 낮고 알 수 있는 경우(λ)
→ 사건이 r 회 발생하는 시간 간격의 분포
'데이터 사이언스 기초' 카테고리의 다른 글
유용한 리스트, 딕셔너리 코드 (0) | 2024.10.17 |
---|---|
유용한 파이썬 코드 (2) | 2024.10.16 |
측정과 척도 (0) | 2024.10.10 |
표본 추출 방법 (1) | 2024.10.08 |
가설 검정 (1) | 2024.10.04 |