데이터: 객관적 사실이면서 동시에 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 매개체
● 정형(structured) 데이터
고정된 틀이 있으며 연산이 가능 (ex. CSV, 엑셀, 스프레드시트, 관계형 데이터베이스 등)
● 비정형(unstructured) 데이터
고정된 틀이 없으며 연산이 불가능 (ex. NoSQL, 영상, 음성, 텍스트 데이터 등)
● 반정형(semi-structured) 데이터
고정된 틀을 가지고 있지만 연산이 불가능 (ex. HTML, JSON, XML 등)
● 데이터의 단위
각 단위 간 1,024 (2^10) 차이가 나지만 10진수를 많이 사용하므로 10^3 단위로 끊어서 표현하기도 한다.
- Bit : 데이터 구성의 최소 단위, 0과 1 두가지 값을 나타낸다.
- 1 Byte == 8 Bit
- 1 Kilo == 1000 Byte
- 1 Mega == 1000 Kilo
- 1 Giga == 1000 Mega
- 1 Tera == 1000 Giga
- 1 Peta == 1000 Tera
- 1 Exa == 1000 Peta
- 1 Zeta == 1000 Exa
- 1 Yota == 1000 Zeta
● 데이터 사이언티스트
데이터를 수집하고 분석하여 비즈니스 문제를 해결하고 의사 결정을 내리는 전문가
● 데이터 사이언티스트에게 요구되는 역량
○ 하드 스킬: 빅데이터 관련 이론적 지식 및 분석 기술에 대한 숙련
○ 소프트 스킬 : 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 시각화), 커뮤니케이션
○ 비즈니스 분석 능력: 사업 성과를 좌우하는 핵심적인 문제에 대답할 수 있는 수준의 인사이트를 제시
→ 인문학자들처럼 모델의 능력에 대해 항상 의구심을 가지고, 가정과 현실의 불일치에 대해 끊임없이 고찰하고, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 주시하는 태도를 가져야 한다.
'데이터 사이언스 기초' 카테고리의 다른 글
측정과 척도 (0) | 2024.10.10 |
---|---|
표본 추출 방법 (1) | 2024.10.08 |
가설 검정 (1) | 2024.10.04 |
기술 통계 (0) | 2024.10.02 |
데이터 분석 히스토리 및 향후 목표 (0) | 2024.09.25 |