Project/DEVOOK
-
Selenium을 사용한 동적 페이지 크롤러 구현Project/DEVOOK 2022. 1. 31. 21:05
카테고리 분류기를 학습시키기 위한 데이터를 수집하기 위해 Surfit의 개발 카테고리별 글들의 URL, Title, Description을 크롤링하는 크롤러를 구현하였다. 크롤링한 데이터는 MySQL 데이터베이스에 저장되도록 하였다. ✔️ Selenium을 사용한 이유 Surfit 페이지를 보면 왼쪽 사진처럼 블로그 글이 구성되어 있고, 크롤링할 부분은 파란줄로 표시되어 있는 title과 description 부분이다. Chrome 개발자 도구를 사용해 HTML 구성을 보면, 전체적으로 로 감싸져 있고, 내부에 존재한다. 하나의 글은 혹은 로 감싸져 있고, 크롤링할 title과 description은 왼쪽의 파란줄로 표시되어 있는 , 부분이다. 위의 구성을 보고 처음에는 requests와 Beautifu..
-
Azure 핵심 문구 추출 서비스를 사용한 키워드 추출 테스트Project/DEVOOK 2022. 1. 29. 23:06
*Tistory에 내용을 통합하기 위해 velog에 작성했던 내용을 첨부하였음 https://velog.io/@fordevelop/DEVOOK-%EA%B0%9C%EB%B0%9C%EC%9D%BC%EC%A7%80-%ED%82%A4%EC%9B%8C%EB%93%9C-%EC%B6%94%EC%B6%9C-%ED%85%8C%EC%8A%A4%ED%8A%B8 📚DEVOOK 개발일지 - 키워드 추출 테스트 DEVOOK의 기능 중 사용자가 저장한 블로그 글의 주제에 적합한 키워드를 자동으로 추출하여 글을 분류하는 기능이 있다. 해당 기능 구현을 위해 관련 기술을 조사하고 키워드 추출 테스트를 진행 velog.io