Project/DEVOOK
-
FastText 기반 카테고리 분류 모델 만들고 배포하기Project/DEVOOK 2022. 5. 17. 20:12
📌 머신러닝 워크 플로우 위의 워크 플로우를 바탕으로 데이터 수집 → 데이터 점검 및 탐색 → 텍스트 전처리 및 토큰화 → 데이터셋 구성(학습용, 검증용) → 지도 학습을 통한 분류기 생성(모델링 및 훈련, 평가) → 카테고리 분류 머신러닝 모델 API화 순서로 진행하였다. 📌 개발 환경 요약 Google Colab, PyCharm, AWS EC2, Docker 📌 1. 데이터 점검 및 탐색 구글 코랩 환경설정 및 사용법 https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/ 수집한 데이터 점검 및 탐색 예시 ### 자연어 처리를 위한 NLTK와 KoNLPY 설치 import nltk # import all the resources for Natural Lan..
-
데이터 점검 및 탐색Project/DEVOOK 2022. 2. 8. 18:05
좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 한다. 구글 Colab에서 판다스 프로파일링(Pandas-Profiling) 라이브러리를 사용해 수집한 데이터를 점검해 보았다. ✔️ 구글 코랩 환경설정 및 사용법 https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/ ✔️ 수집한 데이터 점검 및 탐색 ## 판다스 프로파일링(Pandas-Profiling) pip install -U pandas-profiling ### 1. 실습 파일 불러오기 import pandas as pd import pandas_profiling data = pd.read_csv('{csv 파일 경로}.csv', encoding='utf-8') # 5개의..
-
머신 러닝, 자연어 처리, 데이터 분석 관련 개념 정리Project/DEVOOK 2022. 2. 8. 17:58
머신 러닝 분야는 처음이어서 기본적인 개념 정리가 필요하다고 생각해 간단하게 정리해보았다. ✔️ 머신러닝 관련 라이브러리 아래 라이브러리 모두 pip install을 통해 설치 가능함 텐서플로우: 머신 러닝 오픈소스 라이브러리, 머신 러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계됨 케라스: 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공함, 케라스를 통해 텐서플로우 코드를 훨씬 간단하게 작성 가능함 젠심(Gensim): 머신 러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리, 젠심을 사용해 Word2Vec 등 다양한 모델 학습 가능함 사이킷런(Scikit-learn): 파이썬 머신러닝 라이브러리, 다양한 머신 러닝 모듈을 불러올 수 있음 주피..
-
크롤링한 데이터를 MySQL Docker 컨테이너에 저장하기Project/DEVOOK 2022. 1. 31. 23:52
2022.01.31 - [Project/📚DEVOOK] - Selenium을 사용한 동적 페이지 크롤러 구현 앞서 수집한 데이터를 바탕으로 전처리 및 벡터화 작업을 진행해야 하기 때문에 크롤링한 데이터들을 데이터베이스에 저장하였다. 여러 컴퓨터 환경 및 AWS EC2 서버에서 편리하게 사용하기 위해 Docker Compose로 MySQL 컨테이너를 구성하였다. ✔️모델링 간단하게 url, title, description, category 필드를 가지는 테이블 1개로 구성하였다. ✔️docker-compose.yml 파일 구성 # docker-compose-dev.yml version: "3" services: db: image: mysql container_name: devook-db ports: - ..