social media와 deel learning을 이용한 mental disorder 예측
- Reddit Data를 활용해 다양한 정신질환을 분류하는 것
- 정신질환 별 언어학적 특징을 도출하는 것
- 정신질환 하위 Reddit data를 활용해 다양한 정신질환을 분류
- 정신질환 하위 Reddit data가 아닌 게시글을 활용해 다양한 정신질환을 분류
- 정신질환 하위 Reddit data에 글을 작성하기 이전의 게시글을 활용해 다양한 정신 질환을 분류
: 정신질환 하위 Reddit data를 활용해 다양한 정신질환을 분류
: 정신질환과 관련된 주제의 게시글을 이용해 정신질환을 예측할 수 있을까?
Reddit pushshift API을 이용해 2015년 9월 23일 ~ 2020년 9월 23일까지의 정신질환 하위레딧 게시글을 수집힌다.
1) 데이터 종류
1) adhd_origin.csv: subreddit이 adhd인 경우
2) anxiety_origin.csv: subreddit이 anxiety인 경우
3) bipolar_origin.csv: subreddit이 bipolar인 경우
4) depression_origin.csv: subreddit이 depression인 경우
5) schizo_origin.csv: subreddit이 schizophrenia인 경우
6) non-health.csv: subreddit이 subreddit이 fitness, jokes, meditation, parenting, relationship, teaching인 경우
2) 데이터 샘플
subreedit | author | title | text_content | date |
---|
3) 데이터 사이즈
ADHD | Anxiety | Bipolar | Depression | Depression | non-health | |
---|---|---|---|---|---|---|
size | 256065 | 298852 | 162986 | 720434 | 60009 | 425346 |
1) 데이터 전처리 항목
1) Null 값 제거
2) 사용자별로 게시글이 10개 이상 작성한 사용자만 남기기
3) title과 text_content를 합친 'content' 행 만들기
2)데이터 샘플
subreedit | author | title | text_content | date | content |
---|
3)데이터 사이즈
ADHD | Anxiety | Bipolar | Depression | Depression | non-health | |
---|---|---|---|---|---|---|
size | 48147 | 40158 | 65460 | 157213 | 20614 | 425341 |
감정분석
감정분류
- 연구 방법: LIWC-alike, empaths
토픽모델링
- 연구 방법: LDA, LSA
가독성