데이터 사이언스 기초

데이터, 데이터 사이언티스트란?

skbaek1223 2024. 9. 30. 19:44

데이터: 객관적 사실이면서 동시에 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 매개체

 

정형(structured) 데이터

 

고정된 틀이 있으며 연산이 가능 (ex. CSV, 엑셀, 스프레드시트, 관계형 데이터베이스 등)

 

비정형(unstructured) 데이터

 

고정된 틀이 없으며 연산이 불가능 (ex. NoSQL, 영상, 음성, 텍스트 데이터 등)

 

반정형(semi-structured) 데이터

 

고정된 틀을 가지고 있지만 연산이 불가능 (ex. HTML, JSON, XML 등)

 

 

데이터의 단위

 

각 단위 간 1,024 (2^10) 차이가 나지만 10진수를 많이 사용하므로 10^3 단위로 끊어서 표현하기도 한다.

  • Bit : 데이터 구성의 최소 단위, 0과 1 두가지 값을 나타낸다.
  • 1 Byte == 8 Bit
  • 1 Kilo == 1000 Byte
  • 1 Mega == 1000 Kilo
  • 1 Giga == 1000 Mega
  • 1 Tera == 1000 Giga
  • 1 Peta == 1000 Tera
  • 1 Exa == 1000 Peta
  • 1 Zeta == 1000 Exa 
  • 1 Yota == 1000 Zeta

 

데이터 사이언티스트

 

데이터를 수집하고 분석하여 비즈니스 문제를 해결하고 의사 결정을 내리는 전문가

 

데이터 사이언티스트에게 요구되는 역량

 

하드 스킬: 빅데이터 관련 이론적 지식 및 분석 기술에 대한 숙련 

 

소프트 스킬 : 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 시각화), 커뮤니케이션

 

비즈니스 분석 능력: 사업 성과를 좌우하는 핵심적인 문제에 대답할 수 있는 수준의 인사이트를 제시

 

→ 인문학자들처럼 모델의 능력에 대해 항상 의구심을 가지고, 가정과 현실의 불일치에 대해 끊임없이 고찰하고, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 주시하는 태도를 가져야 한다.

'데이터 사이언스 기초' 카테고리의 다른 글

측정과 척도  (0) 2024.10.10
표본 추출 방법  (1) 2024.10.08
가설 검정  (1) 2024.10.04
기술 통계  (0) 2024.10.02
데이터 분석 히스토리 및 향후 목표  (0) 2024.09.25