Project
-
FastText 기반 카테고리 분류 모델 만들고 배포하기Project/DEVOOK 2022. 5. 17. 20:12
📌 머신러닝 워크 플로우 위의 워크 플로우를 바탕으로 데이터 수집 → 데이터 점검 및 탐색 → 텍스트 전처리 및 토큰화 → 데이터셋 구성(학습용, 검증용) → 지도 학습을 통한 분류기 생성(모델링 및 훈련, 평가) → 카테고리 분류 머신러닝 모델 API화 순서로 진행하였다. 📌 개발 환경 요약 Google Colab, PyCharm, AWS EC2, Docker 📌 1. 데이터 점검 및 탐색 구글 코랩 환경설정 및 사용법 https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/ 수집한 데이터 점검 및 탐색 예시 ### 자연어 처리를 위한 NLTK와 KoNLPY 설치 import nltk # import all the resources for Natural Lan..
-
데이터 점검 및 탐색Project/DEVOOK 2022. 2. 8. 18:05
좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 한다. 구글 Colab에서 판다스 프로파일링(Pandas-Profiling) 라이브러리를 사용해 수집한 데이터를 점검해 보았다. ✔️ 구글 코랩 환경설정 및 사용법 https://theorydb.github.io/dev/2019/08/23/dev-ml-colab/ ✔️ 수집한 데이터 점검 및 탐색 ## 판다스 프로파일링(Pandas-Profiling) pip install -U pandas-profiling ### 1. 실습 파일 불러오기 import pandas as pd import pandas_profiling data = pd.read_csv('{csv 파일 경로}.csv', encoding='utf-8') # 5개의..
-
머신 러닝, 자연어 처리, 데이터 분석 관련 개념 정리Project/DEVOOK 2022. 2. 8. 17:58
머신 러닝 분야는 처음이어서 기본적인 개념 정리가 필요하다고 생각해 간단하게 정리해보았다. ✔️ 머신러닝 관련 라이브러리 아래 라이브러리 모두 pip install을 통해 설치 가능함 텐서플로우: 머신 러닝 오픈소스 라이브러리, 머신 러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계됨 케라스: 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공함, 케라스를 통해 텐서플로우 코드를 훨씬 간단하게 작성 가능함 젠심(Gensim): 머신 러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리, 젠심을 사용해 Word2Vec 등 다양한 모델 학습 가능함 사이킷런(Scikit-learn): 파이썬 머신러닝 라이브러리, 다양한 머신 러닝 모듈을 불러올 수 있음 주피..
-
CheckStyle과 Formatter를 사용한 Java 코드 컨벤션 수정Project/공통 사항 2022. 2. 3. 10:55
IntelliJ의 Plugin인 CheckStyle-IDEA를 사용해 Java 컨벤션을 확인할 수 있다. 참고) https://juneyr.dev/checkstyle Formatter 적용 : cmd + option + L Import 제거 : ctrl + option + O #️⃣ magic number // 수정 전 HttpClient httpClient = HttpClientBuilder.create() .setMaxConnTotal(50) .setMaxConnPerRoute(20) .build(); // 수정 후 public static final int MAX_CONNECTION_TOTAL = 50; public static final int MAX_CONNECTION_PER_ROUTE = 20..