-
데이터 점검 및 탐색Project/DEVOOK 2022. 2. 8. 18:05
좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 한다.
구글 Colab에서 판다스 프로파일링(Pandas-Profiling) 라이브러리를 사용해 수집한 데이터를 점검해 보았다.
✔️ 구글 코랩 환경설정 및 사용법
https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/
✔️ 수집한 데이터 점검 및 탐색
## 판다스 프로파일링(Pandas-Profiling) pip install -U pandas-profiling ### 1. 실습 파일 불러오기 import pandas as pd import pandas_profiling data = pd.read_csv('{csv 파일 경로}.csv', encoding='utf-8') # 5개의 행만 출력 data[:5] ### 2. 리포트 생성하기 pr = data.profile_report() # 프로파일링 결과 리포트를 pr에 저장 pr.to_file('./{이름}.html') # html 파일로 저장 pr # 코랩에서 바로 리포트 확인
'Project > DEVOOK' 카테고리의 다른 글
FastText 기반 카테고리 분류 모델 만들고 배포하기 (0) 2022.05.17 머신 러닝, 자연어 처리, 데이터 분석 관련 개념 정리 (0) 2022.02.08 크롤링한 데이터를 MySQL Docker 컨테이너에 저장하기 (0) 2022.01.31 Selenium을 사용한 동적 페이지 크롤러 구현 (0) 2022.01.31 Azure 핵심 문구 추출 서비스를 사용한 키워드 추출 테스트 (0) 2022.01.29