4장. 머신러닝 실무 체험
Updated:
머신러닝 업무 익히기
- 데이터 과학의 목표
- 의사결정지원 -> 수익화
- 예측, 패턴 분석
- 머신러닝 업무 프로세스
- 문제 파악 문제정의
- 데이터 준비
- 모델구축, 평가
- 결과 공유
- 모니터링
Define the Problem
- 비즈니스 문제를 파악한 후에 이를 해결하기 위한 데이터 과학과 머신러닝 문제로 전환
- 머신러닝 프로젝트를 시작할 때 해결해야 하는 비즈니스 문제를 명확하게 먼저 정의
- 문제정의/문제파악을 위한 세부 프로세스
- 비즈니스 문제 파악
- 비즈니스 실무
- 요건사항 2. 머신러닝 문제로 전환 3. 머신러닝 도입 가능성/필요성 검토
- 프로젝트 환경 4. 효과검증 설계
- KPI(Key Performance Indicator, 핵심성과지표)
Types of Machine Learning
Supervised Learning(지도학습)
- Develop Predictive Model based on Input & Output Data
- 예측
- labeling이 중요
- 함수식을 만들어서 예측
- 정답이 이미 있다
Classification
- 분류 범주를 예측
- ex) 고객이 서비스를 이탈할 것인가, 범주 : 이탈여부
- Algorithm
- Logistic Regression
- Decision Tree
- Support Vector Machine
Regression
- 회귀 숫자를 예측
- ex) 내년도 서비스 예상 매출액은 얼마인가, 숫자: 매출액
- Algorithm
- Linear Regression
- Ridge Regression
- Lasso Regression
Unsupervised Learning(비지도학습)
- Group and Interpret Data based on only Input Data
- 패턴분석
- 군집
- 정답이 없다
- Algorithm
- K-means
- DBscan
Clustering
- 유사한 특징끼리 군집화
- ex) 사용자 정보와 구매이력 기반 고객 세분화
기타 머신러닝 문제
- Recommender(추천)
- Anomaly Detection(이상탐지)
- Network Analysis(네트워크)
- Dimensionality Reduction(차원축소)
- Profiling(프로파일링)
- Time series Forecastion(시계열 예측 분석)
효과검증 설계
- 머신러닝 도입에 따른 효과 검증 프레임워크
- 문제정의 ex) 사용자의 서비스 재방문율(Retention)을 높이고 싶다
- 가설검정 ex) 사용자가 서비스를 이탈할 것 같은 시점에 프로모션/혜택을 제공하여 재방문하게 한다
- 해결방안 ex) 서비스 이탈 예측 모델을 개발한다
- 효과검증 ex) 사용자의 재방문율(Retention)이 증가했는지 확인한다
Build Model & Evaluation
- 머신러닝 문제로 전환하고 데이터 준비를 마친 이후에는 적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가
- 모델 구축 & 평가를 위한 세부 프로세스
- 모델 & 알고리즘 선택
- 실무적 제약사항 고려한 모델 적합
- 하이퍼파라미터 설정
- 모델 학습
- 모델 평가
머신러닝 관점 모델 평가
Regression
- Regression은 실제값(y)과 예측값(y^)의 차이오차(Loss/Cost/Error)를 통해 모델의 성능 평가
- 평가지표
Classification
- Classification은 실제범주(actual)와 예측한 범주(predicted)의 일치하는 정도(Loss/Cost/Error)를 통해 모델의 성능 평가
- 평가지표
비즈니스 관점의 모델 평가
- 경우에 따라서는 모델 도입을 통해 기대되는 손익이 더 중요할 수 있음
- 기대손익(Expected Value)은 어떤 이벤트가 발생할 확률P(x)과 그로 인해 발생하는 손익V을 계산하여 평가
혼동행렬(Confusion Matrix)과 비용편익 분석(Cost-Benefit Matrix)
--------------------------------------
| | |
| true_positive | false_negative |
| | |
--------------------------------------
| | |
| false_positive | true_negative |
| | |
--------------------------------------
↓
--------------------------------------
| | |
| Benefit Value | Cost Value |
| | |
--------------------------------------
| | |
| Cost Value | Benefit Value |
| | |
--------------------------------------
↓
기대수익 EV
최종 모델 평가
- 머신러닝 관점에서 정확도가 높고 비즈니스 관점에서 기대손익이 좋은 모델을 최종 선택
Leave a comment