💭 작업환경
google colab
📅 진행기간 21.03.04 ~ 22.03.31 (4주)
📃 디지털 매체를 통해 뉴스가 서비스되는 시대이나, 여전히 많은 수의 신문이 종이출력물 형태를 우선으로 제작되고 있음
이러한 상황에서, AI 기술을 적용하여 종이신문 원문의 PDF로부터 추출한 자연어 데이터를 처리하고자, 다음 세 가지 과제를 중점으로 신문 데이터에 적용할 AI 모델을 제작
1. 기사 내용을 기반으로 카테고리를 분류
2. 신문기사 원문의 한글 띄어쓰기 검사
3. 신문 출력물에서 나누어진 단락을 재배치하여 하나의 기사문으로 완성
- code.ipynb 분석을 위해 작성한 전체 코드(
google colab
에서 작업) - presentation.pdf 프레젠테이션을 위해 제작한 ppt의 pdf 버전
- 출처: 국립국어원 제공 뉴스 기사 말뭉치를 기반으로 전처리를 완료한 신문기사 텍스트
- 구성: 카테고리별 1만 3천여 건, 총 11만 7천여건의 .txt 파일
- (2022.08.22 ~ ) 프로젝트 소개문 작성