Project/DEVOOK

데이터 점검 및 탐색

sw_develop 2022. 2. 8. 18:05

좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 한다.

구글 Colab에서 판다스 프로파일링(Pandas-Profiling) 라이브러리를 사용해 수집한 데이터를 점검해 보았다.

 

✔️ 구글 코랩 환경설정 및 사용법

https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/

 

✔️ 수집한 데이터 점검 및 탐색

## 판다스 프로파일링(Pandas-Profiling)
pip install -U pandas-profiling

### 1. 실습 파일 불러오기
import pandas as pd
import pandas_profiling
data = pd.read_csv('{csv 파일 경로}.csv', encoding='utf-8')

# 5개의 행만 출력
data[:5]

### 2. 리포트 생성하기
pr = data.profile_report() # 프로파일링 결과 리포트를 pr에 저장
pr.to_file('./{이름}.html') # html 파일로 저장

pr # 코랩에서 바로 리포트 확인