데이터 분석 Flow

Updated: August 10, 2020

순서

문제정의

어떤 데이터로 무엇을 하고 싶은지

데이터 수집

필요하다고 생각한 데이터를 모아야한다
DB 에서 ETL
Crawling

데이터 분석

시각화
상관관계

Feature Engineering

가장 어려움
데이터를 컴퓨터가 학습할 수 있는 형태로 만드는 과정

Modeling

모델을 학습한다

Validation

모델 학습이 잘 되었는지를 확인

Testing

실제 데이터를 사용해서 테스트

데이터 불러오고 파악하기

import pandas as pd

train_data = pd.read_csv("csv 파일 경로")

//데이터의 모양 확인하기
train_data.shape

//앞의 5개의 데이터만 확인해보기
train_data.head()

//data의 datatype, null 여부 확인하기
train_data.info()

//data의 null값 체크
train_data.isnull().sum()

null 값은 학습을 할 수 없기 때문에 null값을 삭제하거나 채워야한다

데이터 정보 확인하기

Data 정보(ex Titanic)

* Survived:0 = No, 1 = Yes
* pclass: Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
* sibsp: # of siblings / spouses aboard the Titanic
* parch: # of parents / children aboard the Titanic
* ticket: Ticket number
* cabin: Cabin number
* embarked: Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

시각화를 통한 데이터 분석 1

# 데이터 분석에 필요한 라이브러리들을 import
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaaborn as sns
from scipy import state
from matplotlib import rc

# os x(mac os) 한글 font
rc('font', family='AppleGothic')
# 노트북 안에 그래프를 그리기 위한 셋팅
%matplotlib inline
# 그래프를 격자 스타일로
plt.style.use("ggplot")

# 그래프에서 마이너스 폰트 깨지는 문제 해결을 위해
mpl.rcParams["axes.unicode_minus"] = False

Share on

Twitter Facebook LinkedIn

Lim Junhyeong

데이터 분석 Flow

순서

문제정의

데이터 수집

데이터 분석

Feature Engineering

Modeling

Validation

Testing

데이터 불러오고 파악하기

데이터 정보 확인하기

시각화를 통한 데이터 분석 1

Share on

Leave a comment

You may also enjoy

mariaDB 환경설정 계정 생성 및 권한 부여

프로젝트에 필요한 Git

여러개의 원격 저장소(git)

벽 부수고 이동하기 4_16946