네이버 지식인 검색어별 크롤러 제작
thinker-94 opened this issue · 3 comments
thinker-94 commented
목적
KoBert Pretrain 모델이 태깅을 스스로 할 수 있도록 학습 데이터 수집(https://github.com/SKTBrain/KoBERT)
검색어를 기준으로 크롤링 하는 이유
기존에는 지식인에 정해진 카테고리 별로 데이터를 가져오려 했습니다. 하지만 카테고리가 정해져 있는 문제가 있습니다. 혹시 네이버에 있는 카테고리 외에 다른 태그도 필요할 수 있다는 생각이 들었습니다. 그래서 지식인에서 검색어 별로
모델 학습에 필요한 데이터를 가져오려합니다제안
필요하신 테이블의 구조, 데이터베이스 또는 파일 형식(csv, txt)를 말씀해 주시면 맞춰서 개발 들어가겠습니다. 그리고 사용 방법도 아이디어 주시면 맞춰서 제작 하겠습니다
사용 기술
Scrapy (https://docs.scrapy.org/en/latest/index.html)
장점
- 콜백 함수와 같은 복잡한 코드 작성을 하지 않아도 비동기/논블로킹 방식으로 데이터를 가져오기 때문에 빠르게 데이터를 가져올 수 있게 구현 가능 합니다
- 크롤링을 할때 마주치는 여러가지 이슈들 (UserAgent로 인한 차단, 딜레이로 인한 차단) 등과 같은 것들을 이미 내장되어있는 설정 파일들이 있어서 간단히 해결할 수 있습니다.
단점
처음에 배우기 조금 까다롭지만, 현재 문서화를 통해 러닝커브를 줄일 수 있도록 하고 있습니다.
thinker-94 commented
네이버 지식인 api 서버 뚫었습니다. json 형식으로 편하게 가져올 수 있도록 구현중입니다
thinker-94 commented
thinker-94 commented