데이터 분석 Flow

Updated:

순서

문제정의

  • 어떤 데이터로 무엇을 하고 싶은지

데이터 수집

  • 필요하다고 생각한 데이터를 모아야한다
  • DB 에서 ETL
  • Crawling

데이터 분석

  • 시각화
  • 상관관계

Feature Engineering

  • 가장 어려움
  • 데이터를 컴퓨터가 학습할 수 있는 형태로 만드는 과정

Modeling

  • 모델을 학습한다

Validation

  • 모델 학습이 잘 되었는지를 확인

Testing

  • 실제 데이터를 사용해서 테스트

데이터 불러오고 파악하기

import pandas as pd

train_data = pd.read_csv("csv 파일 경로")

//데이터의 모양 확인하기
train_data.shape

//앞의 5개의 데이터만 확인해보기
train_data.head()

//data의 datatype, null 여부 확인하기
train_data.info()

//data의 null값 체크
train_data.isnull().sum()
  • null 값은 학습을 할 수 없기 때문에 null값을 삭제하거나 채워야한다

데이터 정보 확인하기

  • Data 정보(ex Titanic)
* Survived:0 = No, 1 = Yes
* pclass: Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
* sibsp: # of siblings / spouses aboard the Titanic
* parch: # of parents / children aboard the Titanic
* ticket: Ticket number
* cabin: Cabin number
* embarked: Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

시각화를 통한 데이터 분석 1

# 데이터 분석에 필요한 라이브러리들을 import
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaaborn as sns
from scipy import state
from matplotlib import rc
# os x(mac os) 한글 font
rc('font', family='AppleGothic')
# 노트북 안에 그래프를 그리기 위한 셋팅
%matplotlib inline
# 그래프를 격자 스타일로
plt.style.use("ggplot")

# 그래프에서 마이너스 폰트 깨지는 문제 해결을 위해
mpl.rcParams["axes.unicode_minus"] = False

Leave a comment