
Interactive diary about depression disorder classification with Deep learning

Primary LanguageJupyter NotebookApache License 2.0Apache-2.0

Switch negative word

부적절한 단어를 댓글 속에서 감지하고 상응하는 이모지로 변경합니다.


이사빈 정찬영 이명진 이성진
Git Badge Git Badge Git Badge Git Badge


우리는 바람직한 인터넷 문화를 만들고자 합니다.

요즘 거대한 커뮤니티가 여기저기 있고 각자 대화를 나누지만, 댓글들을 보면 모두 클린하다고 볼 수는 없습니다.

그래서 우리는 댓글 속 비적절한 단어를 적절하게 바꿀 필요가 있다고 생각했습니다. 단순히 부정적인 댓글을 지우거나 ** 처리하는 것이 아니라 해당 단어를 상응하는 이모지로 변경함으로써 사용자에게 사소한 재미를 제공하고자 합니다.

🚃Initial model🚃

Classification KcElectra KoBERT RoBERTa-base RoBERTa-large
Validation Accuracy 0.88680 0.85721 0.83421 0.86994
Validation Loss 1.00431 1.23237 1.30012 1.16179
Training Loss 0.09908 0.03761 0.0039 0.06255
Epoch 10 40 20 20
Batch-size 8 32 16 32
learning rate 2e-06 5e-5 2e-06 5e-6
pretrained-model beomi/KcELECTRA-base skt/kobert-base-v1 xlm-roberta-base klue/roberta-large


🛠Used API🛠

  • naver papago
  • google translator

👨🏻‍💻What we've done👨🏻‍💻

  • 모델 선정 -> Fine tuning
  • pseudo labeling
  • masking the cursing words to predict which word is bad
  • binary classification for each comments
  • multi classification for each comments
  • calculation speed inhanced -> put batchs, split the sentences /.....
  • similarity(early deprecated😂)
  • pos tagging(also early deprecated...😂)
  • scaling
  • substitute cursing word with emoji
  • add more data with pseudo labeling
  • launch server with django


  • increasing the model accuracy with hyperparameter tuning(Wandb)
  • add more data with pseudo labeling
  • deploy server
  • expand to another task using mask
  • add neologism to vocab -> which could increase 7~8% accuracy
  • use light model / SOTA
  • Teacher student learning
  • transfer learning not the parameter but the experience

🙋🏻HOW TO 🙋🏻
