/Authority_discriminate_EDA

자연어 처리 기반 소설 작가 분류 프로젝트

Primary LanguageJupyter Notebook

📖 Authority_discriminate_EDA

✏️ 자연어 처리를 통한 소설 작가 예측 분류 프로젝트

DACON의 소설 작가 분류 AI 경진대회를 보며 실험을 진행했습니다.

팀원이 각각 다르게 정한 임베딩 모델과 분류 모델로 소설 속 문장 뭉치를 분석하여 저자를 예측하는 프로젝트를 진행했습니다.

이를 통해 각 모델의 정확도와 손실을 따져보아 가장 성능이 좋은 모델 조합을 도출하는 실험도 같이 진행하였고

실험 과정을 서로 공유하는 과정에서 각 인코딩 모델과 분류 모델의 특징을 알 수 있었습니다.

실험에서 임베딩 모델 glove, word2vec, FastText 등을 사용했고

분류 모델 CNN, LSTM, BiLSTM, RNN 등의 모델을 사용했습니다.


📌 저는 자연어 처리 기반의 소설 작가 분류 팀 프로젝트에서 데이터 EDA와 예측 모델 실험을 맡아 진행했습니다.

TF-IDF와 LDA를 통해 각 5명의 작가의 글의 특징을 추출하여 시각화할 수 있었습니다.

발표 자료 제작을 맡아 모든 팀원이 열심히 실험한 내용과 결과를 한눈에 정리하여 성공적인 발표를 할 수 있었습니다.

glove 모델을 사용하여 텍스트를 임베딩하였고 CNN 모델과 BiLSTM 모델을 사용하여 각각 분류하고 성능을 검증했습니다.

BiLSTM 모델이 CNN 모델보다 정확도와 손실면에서 성능이 작은 차이로 좋았던 것을 알 수 있었습니다.

BiLSTM 모델의 특성인 양방향의 문장 패턴 분석을 통해 문장의 패턴을 전체적으로 예측하여 분류할 수 있어

더 좋은 결과를 보였다는 것을 알 수 있었습니다.


데이터 시각화를 통해 작가의 문체, 특징 알아보기 ✏️

소설에서 토픽을 찾아내는 LDA 결과와 단어의 가중치를 알아볼 수 있는 TF-IDF 결과로 작가의 문체와 특징을 알아 보았습니다.

🧑‍🏫 작가 1

🧑‍🏫 작가 2

🧑‍🏫 작가 3

🧑‍🏫 작가 4

🧑‍🏫 작가 5