3장. 머신러닝을 위한 데이터 이해하기
Updated:
머신러닝 핵심개념
Data
- 현실세계의 어떤 현상을 관찰하여 기록한 것
- Facts (객관화된 자료)
- No meaning (의미가 없다)
- Representation of real world (실재 세상 표현/ 표상)
Feature
- 요인, 변수
- 데이터를 컴퓨터가 이해할 수 있도록 수치(numeric) 또는 디지털(digitized)로 표현/표상(representation)한 것
Target
- 예측하려는 목표
Model
- 실제 무엇을 더 작게 추상화된 형태로 표현한 것
- 모형 또는 본보기
Machine learning Model
- 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것
Algorithm
- 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것
- 순서도의 형태로 표현됨
Machine Learning Algorithm
- Model이 어떠한 문제를 해결하기 위한 함수식이라면 Algorithm은 그 함수식을 만들어내는 일련의 절차, 규칙
Loss, Cost, Error
- 예측 목표로부터 예측 결과의 오차
Learning
- 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정
머신러닝을 위한 데이터 준비
- 실제 그 문제가 해결될 수 있는지
- 우리가 준비가 효용이 있는지 연결되는지
- Data -> Data Acquisition -> Data Preprocessing -> Feature Engineering -> Feature
- 대다수의 Data Preprocessing과 Feature Engineering 기법은 도메인에 많은 영향을 받는다(Domain Specific)
Data Preprocessing
- 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업
- Vectorization
- Normalization
- Handling Missing Values
Feature Engineering
- feature 생성 or feature 변환
- 머신러닝 알고리즘학습이 잘 되도록 만드는 작업
- 도메인 지식을 활용하여 메신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed Data를 변환하는 작업
- Numerical(숫자)
- 나이, 키, 주식가격
- Categorical(범주)
- 성별, 학급, 직업
Leave a comment