2장. 데이터 과학자 이해하기
Updated:
데이터 과학자
- 데이터 과학은 컴퓨터를 활용해서 데이터를 분석하고 현실적인 문제들을 해결하는 것
- 컴퓨터 활용
- 데이터 분석
- 현실의 문제
- 컴퓨터와 IT기술을 활용하고 프로그래밍을 할 수 있는 능력을 가진 사람이 수학과 통계학 지식을 이용해서 도메인의 문제를 해결하는 사람
- 비즈니스와 기술의 가교 역할
- 협력,
요구되는 능력
- 프로그래밍 스킬
- 수학 & 통계학 지식
- 도메인 전문성 (비즈니스에 대한 이해)
- 머신러닝
- 위험지역
- 전통적 통계분석
Skill Sets
Programming
- 컴퓨터 과학 지식
- 프로그래밍 언어(Python/R)
- 데이터베이스 언어(SQL/NoSQL)
- Realtional Algebra
- 병렬 처리 컴퓨팅
- MapReduce 개념
- Hadoop/Hive/Pig
- AWS 같은 플랫폼 사용 경험
Math & Statistics
- 연구계획(Experiment design)
- Machine Learning
- Statistical modeling
- 베지디안 추론
- 선형대수, 미적분
- Supervised Learning
- Unsupervised Learning
- Optimization
Domain Knowledge
- 비즈니스 이해/지식
- Collaborative
- 데이터에 대한 호기심
- 적략적 사고/시획력
- 문제 해결능력
- Proactive/Creativity
Communication
- 상급자와의 원활한 의사소통 능력
- 스토리텔링 능력
- 데이터 기반 인사이트를 의사결정에 활용하는 능력
- ppt, doc등 문서 작성 능력
- 시각화(Visualization)
- 발표/설득력
데이터 과학자의 업무
- 반복적인 훈련필요
- 무 -> 유
이상적인 머신러닝 업무 프로세스
- 문제파악 및 문제정의
- 데이터 준비
- 모델 구축 & 평가
- 결과 공유
- 모니터링(서비스 도입)
문제파악 및 문제정의
- 비즈니스 문제 파악 RFP, FRD
- 머신러닝 문제로 전환
- 머신러닝 도입 필요성/가능성 체크
- 도입에 따른 효과검증 설계
데이터 준비
- 가능한 다양하고 많은 데이터 확보
- 머신러닝을 도입할 시스템 설계
- 데이터 분석 및 이해 - Understanding
- 데이터 분석 및 이해 - Preprocessing
- 데이터 분석 및 이해 - Exploring
- Feature Engineering
- 학습, 검증, 테스트 데이터셋 생성
머신러닝 모델 구축 & 분석
- 사용할 모델/알고리즘 선택
- 실무적 제약사항 고려
- 하이퍼파라미터 설정
- 모델 학습
- 모델 평가
결과 공유
- 코드 배포 (Projectionize)
- 보고서 작성, 결과정리 및 발표
모니터링
- 모델의 성능을 지속적으로 tracking
- 효과검증 결과 tracking
- 지속적인 유지.보수 계획/실행
데이터 과학자 도구
- Python
- 범용적
- R
Leave a comment