/M5_Idol_lyrics

아이돌그룹의 음악 가사를 활용한 다양한 분석을 합니다.

Primary LanguageJupyter NotebookMIT LicenseMIT

PUSH시 파일 저장법

제목(내용)_작성자(혹은 수정자)_몇 번째 수정
<예시>
Code -> melon_urlid_crawling_SoHyun_ver01.ipynb
Data -> song_data_yewon_ver01.csv

변수 지정

아이돌 정보 곡 정보
아이돌명 'artist'
아이돌영문명 및 원표기 'artist_eng'
멤버이름 'artist_m'
데뷔년도/곡명 'debut_y'/'debut_t'
옛날 소속사 'agency_old'
현재 소속사 'agency_'
활동장르 'genre'
성별여부 'gender
멤버수 'member_num'
리더이름 'leader_name'
멜론표기명 'melon_artist'
타이틀여부 'is_title'
노래제목 'title'
앨범명 'album'
발매년도 'release_date'
장르 'song_genre'
노래가사 'lyrics'
작곡가 'composer'
작사가 'lyricist'
편곡가 'arranger'
하트수 'like'

테마 칼라

민트 #20C2AA

군청 #7A37F5

Code 설명

멜론 가수별 url id를 추출하기 위한 크롤링 코드입니다. 
추출한 url을 이용하여 가사 및 곡 정보를 추출한 크롤링 코드입니다. 
간단하게 NLP EDA 해본 것 입니다. 
주석추가
전처리 + word2vec + tsne시각화 + 유사도및 결과물포함(최종)
LSTM train model
LSTM test model
3대 기획사(SM, YG, JYP)소속 여자아이돌 가사분석 예시 코드입니다.
3대 기획사(SM, YG, JYP)소속 남/녀 아이돌 가사분석 코드입니다.
해당 단어 앞/뒤에 오는 단어를 보는 코드의 EDA입니다.(+before_next_word_yoon_ver04.ipynb)
단어의 빈도 (곡 수)를 보는 코드입니다.
단어의 어미를 보는 코드입니다.

Data 설명

[Song Data]

📌 Data20180921/song_data_raw_20180921_ver02.csv.csv

가사 전처리시 이 데이터을 사용해주세요

1. 가사가 null, 공백인 행은 모두 없앴습니다. 

2. 타이틀곡 여부 수정했습니다.

3. 필요없는 가수는 드랍하고 크롤링 단계 자체에서 제외했습니다. 

4. 누락되었던 빅스, 엔시티 추가했습니다. 

** 전처리 이전의 가장 최신 상태의 가사 크롤링 파일입니다. 가수 정보와는 merge되지 않은 raw한 상태입니다**

📌 SongTidy/FinalTidy/tidydata/song_tidy03.csv

가사 분석시 이 데이터를 사용해주세요

📌 Data/Data20180921/artist_info_combined_ver04.csv

_데뷔 날짜 업데이트 된 가수 정보입니다.

[Lyricist/Composer Data]

📌 SongTidy/FinalTidy/tidydata/lyricist_tidy03.csv

작사 및 작곡가 분석시 이 데이터를 사용해주세요

📌 작사가/작곡가_전체랭킹_ kavin_ver02.csv

lyricist_tidy03.csv을 사용하여 작사가/작곡가 전체 랭킹 데이터 생성