4장. 머신러닝 실무 체험

Updated:

머신러닝 업무 익히기

  • 데이터 과학의 목표
    • 의사결정지원 -> 수익화
    • 예측, 패턴 분석
  • 머신러닝 업무 프로세스
    1. 문제 파악 문제정의
    2. 데이터 준비
    3. 모델구축, 평가
    4. 결과 공유
    5. 모니터링

Define the Problem

  • 비즈니스 문제를 파악한 후에 이를 해결하기 위한 데이터 과학과 머신러닝 문제로 전환
  • 머신러닝 프로젝트를 시작할 때 해결해야 하는 비즈니스 문제를 명확하게 먼저 정의
  • 문제정의/문제파악을 위한 세부 프로세스
    1. 비즈니스 문제 파악
    • 비즈니스 실무
    • 요건사항 2. 머신러닝 문제로 전환 3. 머신러닝 도입 가능성/필요성 검토
    • 프로젝트 환경 4. 효과검증 설계
    • KPI(Key Performance Indicator, 핵심성과지표)

Types of Machine Learning

Supervised Learning(지도학습)

  • Develop Predictive Model based on Input & Output Data
  • 예측
  • labeling이 중요
  • 함수식을 만들어서 예측
  • 정답이 이미 있다

Classification

  • 분류 범주를 예측
  • ex) 고객이 서비스를 이탈할 것인가, 범주 : 이탈여부
  • Algorithm
    • Logistic Regression
    • Decision Tree
    • Support Vector Machine

Regression

  • 회귀 숫자를 예측
  • ex) 내년도 서비스 예상 매출액은 얼마인가, 숫자: 매출액
  • Algorithm
    • Linear Regression
    • Ridge Regression
    • Lasso Regression

Unsupervised Learning(비지도학습)

  • Group and Interpret Data based on only Input Data
  • 패턴분석
  • 군집
  • 정답이 없다
  • Algorithm
    • K-means
    • DBscan

Clustering

  • 유사한 특징끼리 군집화
  • ex) 사용자 정보와 구매이력 기반 고객 세분화

기타 머신러닝 문제

  • Recommender(추천)
  • Anomaly Detection(이상탐지)
  • Network Analysis(네트워크)
  • Dimensionality Reduction(차원축소)
  • Profiling(프로파일링)
  • Time series Forecastion(시계열 예측 분석)

효과검증 설계

  • 머신러닝 도입에 따른 효과 검증 프레임워크
    1. 문제정의 ex) 사용자의 서비스 재방문율(Retention)을 높이고 싶다
    2. 가설검정 ex) 사용자가 서비스를 이탈할 것 같은 시점에 프로모션/혜택을 제공하여 재방문하게 한다
    3. 해결방안 ex) 서비스 이탈 예측 모델을 개발한다
    4. 효과검증 ex) 사용자의 재방문율(Retention)이 증가했는지 확인한다

Build Model & Evaluation

  • 머신러닝 문제로 전환하고 데이터 준비를 마친 이후에는 적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가
  • 모델 구축 & 평가를 위한 세부 프로세스
    • 모델 & 알고리즘 선택
    • 실무적 제약사항 고려한 모델 적합
    • 하이퍼파라미터 설정
    • 모델 학습
    • 모델 평가

머신러닝 관점 모델 평가

Regression

  • Regression은 실제값(y)과 예측값(y^)의 차이오차(Loss/Cost/Error)를 통해 모델의 성능 평가
  • 평가지표
    평가지표

Classification

  • Classification은 실제범주(actual)와 예측한 범주(predicted)의 일치하는 정도(Loss/Cost/Error)를 통해 모델의 성능 평가
  • 평가지표
    평가지표2

비즈니스 관점의 모델 평가

  • 경우에 따라서는 모델 도입을 통해 기대되는 손익이 더 중요할 수 있음
    기대손익
  • 기대손익(Expected Value)은 어떤 이벤트가 발생할 확률P(x)과 그로 인해 발생하는 손익V을 계산하여 평가

혼동행렬(Confusion Matrix)과 비용편익 분석(Cost-Benefit Matrix)

--------------------------------------
|                 |                  |
|  true_positive  |  false_negative  |
|                 |                  |
--------------------------------------
|                 |                  |
|  false_positive |  true_negative   |
|                 |                  |
--------------------------------------

--------------------------------------
|                 |                  |
|  Benefit Value  |    Cost Value    |
|                 |                  |
--------------------------------------
|                 |                  |
|  Cost Value     |  Benefit Value   |
|                 |                  |
--------------------------------------


기대수익 EV

최종 모델 평가

  • 머신러닝 관점에서 정확도가 높고 비즈니스 관점에서 기대손익이 좋은 모델을 최종 선택
    ROC

Tags:

Categories:

Updated:

Leave a comment