데이터 사이언스 기초 24

가설 검정

* 가설 검정 모집단의 특성에 대한 가설을 세운 후 표본의 정보로 가설을 판정하는 과정 귀무 가설 (null hypothesis): 기각하려고 하는 가설  대립 가설 (alternative hypothesis): 증명하려고 하는 가설 제 1종 오류: 귀무가설이 맞는데 틀렸다고 결정하는 오류  제 2종 오류: 귀무가설이 틀렸는데 맞다고 결정하는 오류 신뢰수준: 귀무가설이 맞고 맞다고 결정할 확률 검정력: 귀무가설이 틀렸고 틀렸다고 결정할 확률 검정 통계량 (test statistic): 귀무가설의 옳고 그름을 판단할 수 있는 값 기각역: 귀무 가설을 기각하게 될 검정통계량의 영역 → 경계: 임계값(critical value) 유의 수준 (significance level): 1종 오류를 범할 확률의 최대 ..

기술 통계

● 공분산 두 확률 변수의 선형 관계, 두 확률 변수의 흩어진 정도를 나타낸 지표  = E(XY) - E(X) * E(Y)  ● 상관계수 두 확률 변수의 선형 관계인 공분산을 정규화하여 강도, 방향을 나타낸 지표   ● 기하 평균 곱셈으로 계산하는 값에서의 평균을 계산하려고 할 때 활용하는 평균특이값의 영향을 산술평균 보다 덜 받는다.    ● 조화 평균 변량의 역수의 평균 의 역수. 변하는 속도 등의 평균으로 활용  cf) 산술 평균 ≥ 기하 평균 ≥ 조화 평균  ● 사분범위(IQR) Q3(3사분위수: 75%) - Q1(1사분위수: 25%) 일반적으로 사분 범위의 1.5분위수를 벗어나는 경우 이상치로 판단한다. → Q1- 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 경우 ● 변동 ..

데이터, 데이터 사이언티스트란?

데이터: 객관적 사실이면서 동시에 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 매개체  ● 정형(structured) 데이터 고정된 틀이 있으며 연산이 가능 (ex. CSV, 엑셀, 스프레드시트, 관계형 데이터베이스 등)  ● 비정형(unstructured) 데이터 고정된 틀이 없으며 연산이 불가능 (ex. NoSQL, 영상, 음성, 텍스트 데이터 등)  ● 반정형(semi-structured) 데이터 고정된 틀을 가지고 있지만 연산이 불가능 (ex. HTML, JSON, XML 등)   ● 데이터의 단위 각 단위 간 1,024 (2^10) 차이가 나지만 10진수를 많이 사용하므로 10^3 단위로 끊어서 표현하기도 한다.Bit : 데이터 구성의 최소 단위, 0과 1 두가지 값을 나타낸다.1 B..

데이터 분석 히스토리 및 향후 목표

1, 데이터 분석트랙에 참여하게 된 히스토리 저는 고려대학교 정치외교학과 졸업생으로, 정치 현상을 분석하는 과정에서 데이터의 중요성을 실감하게 되어 데이터 분석에 관심을 가지게 되었습니다. 2024년 1월부터 주로 Coursera 플랫폼으로 다음의 강의들을 들으며 공부했습니다. 1. 통계, 수학 Introduction to Statistics(Stanford University) Mathematics for Machine Learning(Imperial College London) Introduction to Probability (Harvard, Stats 110, Joe Blitzstein, Youtube) Machine Learning (Stanford, CS229,Andrew Ng, Youtube..