2장. 데이터 과학자 이해하기

Updated:

데이터 과학자

데이터과학자

  • 데이터 과학은 컴퓨터를 활용해서 데이터를 분석하고 현실적인 문제들을 해결하는 것
  • 컴퓨터 활용
  • 데이터 분석
  • 현실의 문제
  • 컴퓨터와 IT기술을 활용하고 프로그래밍을 할 수 있는 능력을 가진 사람이 수학과 통계학 지식을 이용해서 도메인의 문제를 해결하는 사람
  • 비즈니스와 기술의 가교 역할
  • 협력,

요구되는 능력

  • 프로그래밍 스킬
  • 수학 & 통계학 지식
  • 도메인 전문성 (비즈니스에 대한 이해)
  • 머신러닝
  • 위험지역
  • 전통적 통계분석

Skill Sets

Programming

  • 컴퓨터 과학 지식
  • 프로그래밍 언어(Python/R)
  • 데이터베이스 언어(SQL/NoSQL)
  • Realtional Algebra
  • 병렬 처리 컴퓨팅
  • MapReduce 개념
  • Hadoop/Hive/Pig
  • AWS 같은 플랫폼 사용 경험

Math & Statistics

  • 연구계획(Experiment design)
  • Machine Learning
  • Statistical modeling
  • 베지디안 추론
  • 선형대수, 미적분
  • Supervised Learning
  • Unsupervised Learning
  • Optimization

Domain Knowledge

  • 비즈니스 이해/지식
  • Collaborative
  • 데이터에 대한 호기심
  • 적략적 사고/시획력
  • 문제 해결능력
  • Proactive/Creativity

Communication

  • 상급자와의 원활한 의사소통 능력
  • 스토리텔링 능력
  • 데이터 기반 인사이트를 의사결정에 활용하는 능력
  • ppt, doc등 문서 작성 능력
  • 시각화(Visualization)
  • 발표/설득력

데이터 과학자의 업무

  • 반복적인 훈련필요
  • 무 -> 유

이상적인 머신러닝 업무 프로세스

  1. 문제파악 및 문제정의
  2. 데이터 준비
  3. 모델 구축 & 평가
  4. 결과 공유
  5. 모니터링(서비스 도입)

문제파악 및 문제정의

  • 비즈니스 문제 파악 RFP, FRD
  • 머신러닝 문제로 전환
  • 머신러닝 도입 필요성/가능성 체크
  • 도입에 따른 효과검증 설계

데이터 준비

  • 가능한 다양하고 많은 데이터 확보
  • 머신러닝을 도입할 시스템 설계
  • 데이터 분석 및 이해 - Understanding
  • 데이터 분석 및 이해 - Preprocessing
  • 데이터 분석 및 이해 - Exploring
  • Feature Engineering
  • 학습, 검증, 테스트 데이터셋 생성

머신러닝 모델 구축 & 분석

  • 사용할 모델/알고리즘 선택
  • 실무적 제약사항 고려
  • 하이퍼파라미터 설정
  • 모델 학습
  • 모델 평가

결과 공유

  • 코드 배포 (Projectionize)
  • 보고서 작성, 결과정리 및 발표

모니터링

  • 모델의 성능을 지속적으로 tracking
  • 효과검증 결과 tracking
  • 지속적인 유지.보수 계획/실행

데이터 과학자 도구

  • Python
    • 범용적
  • R

Tags:

Categories:

Updated:

Leave a comment