Project/DEVOOK
데이터 점검 및 탐색
sw_develop
2022. 2. 8. 18:05
좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 한다.
구글 Colab에서 판다스 프로파일링(Pandas-Profiling) 라이브러리를 사용해 수집한 데이터를 점검해 보았다.
✔️ 구글 코랩 환경설정 및 사용법
https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/
✔️ 수집한 데이터 점검 및 탐색
## 판다스 프로파일링(Pandas-Profiling)
pip install -U pandas-profiling
### 1. 실습 파일 불러오기
import pandas as pd
import pandas_profiling
data = pd.read_csv('{csv 파일 경로}.csv', encoding='utf-8')
# 5개의 행만 출력
data[:5]
### 2. 리포트 생성하기
pr = data.profile_report() # 프로파일링 결과 리포트를 pr에 저장
pr.to_file('./{이름}.html') # html 파일로 저장
pr # 코랩에서 바로 리포트 확인