3장. 머신러닝을 위한 데이터 이해하기

Updated:

머신러닝 핵심개념

Data

  • 현실세계의 어떤 현상을 관찰하여 기록한 것
  • Facts (객관화된 자료)
  • No meaning (의미가 없다)
  • Representation of real world (실재 세상 표현/ 표상)

Feature

  • 요인, 변수
  • 데이터를 컴퓨터가 이해할 수 있도록 수치(numeric) 또는 디지털(digitized)로 표현/표상(representation)한 것

Target

  • 예측하려는 목표

Model

  • 실제 무엇을 더 작게 추상화된 형태로 표현한 것
  • 모형 또는 본보기

Machine learning Model

  • 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것

Algorithm

  • 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것
  • 순서도의 형태로 표현됨

Machine Learning Algorithm

  • Model이 어떠한 문제를 해결하기 위한 함수식이라면 Algorithm은 그 함수식을 만들어내는 일련의 절차, 규칙

Loss, Cost, Error

  • 예측 목표로부터 예측 결과의 오차

Learning

  • 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정

머신러닝을 위한 데이터 준비

  • 실제 그 문제가 해결될 수 있는지
  • 우리가 준비가 효용이 있는지 연결되는지
  • Data -> Data Acquisition -> Data Preprocessing -> Feature Engineering -> Feature
  • 대다수의 Data Preprocessing과 Feature Engineering 기법은 도메인에 많은 영향을 받는다(Domain Specific)

Data Preprocessing

  • 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업
  • Vectorization
  • Normalization
  • Handling Missing Values

Feature Engineering

  • feature 생성 or feature 변환
  • 머신러닝 알고리즘학습이 잘 되도록 만드는 작업
  • 도메인 지식을 활용하여 메신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed Data를 변환하는 작업
  • Numerical(숫자)
    • 나이, 키, 주식가격
  • Categorical(범주)
    • 성별, 학급, 직업

Tags:

Categories:

Updated:

Leave a comment