ADsP 5

시계열 분석

● 시계열 분석 시계열 분석은 일정 시간 간격으로 기록된 자료들의 특성을 파악하고 미래를 예측하는 분석 방법이다. ● 자기 상관성  이웃하는 자료들 간의 상관 관계 1. 자기 상관 계수 (ACF) 시간의 흐름에 따른 자기 상관 관계의 변화를 나타낸 지표 = 시차 l 에 따른 시점 t 의 값과 t+l 의 값 간의 상관 계수 의 변화를 나타낸 지표 시계열 자료가 시간에 의존하지 않고 무작위성을 띠는지 확인할 때 사용한다. 2. 부분 자기 상관 계수 (PACF) 다른 시점의 확률변수 영향력을 통제한 상관관계를 나타낸 지표 = 시점 t 와 t+l 사이의 l-1개 자료의 영향을 제거한 상관 계수 ● 시계열 자료의 정상성 조건 시계열의 정상성은 시계열의 통계적 특성이 시간에 대해 일정하다는 것을 의미하며, 정상성은..

거리 측도

통계학에서 자주 사용하는 거리 측도 들에 대해서 정리해 보았습니다. ● 유클리디안 거리 두 점 사이의 가장 짧은 거리 ● 맨하튼 거리 변수들의 차이의 단순합 ● 체비셰프 거리 변수 간 거리 차이 중 최댓값 ● 표준화 거리 유클리디안 거리에서 표준편차로 나눈 거리  ● 마할라노비스 거리 표준화 거리에 변수 간 상관성을 고려한 거리 S: 변수의 공분산을 성분으로 하는 대각 행렬   ● 민코프스키 거리 유클리디안 거리와 맨하튼 거리를 한 번에 표현한 거리 ● 코사인 유사도주로 텍스트의 유사도 측정에 활용되며, 크기가 아닌 방향성을 측정하는 지표 완전히 일치하면 1, 완전히 다른 방향이면 -1 입니다.

ML 분류 모형 평가 지표

머신 러닝(Machine Learning) 의 분류 모형(Classification Model) 을 평가하는 지표들에는 여러 가지가 있는데 혼동되기가 쉽기 때문에 정리하여 소개하려고 합니다. 용어는 예측에 대한 참/거짓으로 정의합니다. ● TP(True Positive): 예측한 값이 Positive 이고 실제 값도 Positive 인 경우 ● FP(False Positive): 예측한 값이 Positive 이고 실제 값은 Negative 인 경우 ● TN(True Negative): 예측한 값이 Nagative 이고 실제 값도 Negative 인 경우 ● FN(False Negative): 예측한 값이 Negative 이고 실제 값은 Positive 인 경우 1. 정확도 (Accuracy) 전체 중 올..

데이터 분석 관련 개념

ADSP 시험에 나오는 데이터 분석 관련 개념들은 상당히 생소한 경우가 많습니다. 다음에서는 ADSP 시험에 나오는 데이터 분석 개념들을 모아서 정리 해봤습니다. ◎ 분석 주제 잡기 분석의 대상을 아는데 분석 방법도 알면 최적화 (Optimization)를 주제로 선정합니다. 분석의 대상을 아는데 분석 방법은 모르면 솔루션 (Solution)을 주제로 선정합니다. 분석의 대상을 모르는데 분석의 방법은 알면 통찰 (Insight)을 주제로 선정합니다. 분석의 대상을 모르는데 분석 방법도 모르면 발견 (Discovery)을 주제로 선정합니다.◎ 빅데이터 분석 단계 1단계: 분석 기획 ○ 비즈니스 이해 ○ 프로젝트 범위 설정 - 프로젝트 범위 정의서 (SOW, Statement of Work) ○ 프로젝트 정..

데이터, 데이터 사이언티스트란?

데이터: 객관적 사실이면서 동시에 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 매개체  ● 정형(structured) 데이터 고정된 틀이 있으며 연산이 가능 (ex. CSV, 엑셀, 스프레드시트, 관계형 데이터베이스 등)  ● 비정형(unstructured) 데이터 고정된 틀이 없으며 연산이 불가능 (ex. NoSQL, 영상, 음성, 텍스트 데이터 등)  ● 반정형(semi-structured) 데이터 고정된 틀을 가지고 있지만 연산이 불가능 (ex. HTML, JSON, XML 등)   ● 데이터의 단위 각 단위 간 1,024 (2^10) 차이가 나지만 10진수를 많이 사용하므로 10^3 단위로 끊어서 표현하기도 한다.Bit : 데이터 구성의 최소 단위, 0과 1 두가지 값을 나타낸다.1 B..