/M5_Idol_lyrics

아이돌그룹의 음악 가사를 활용한 다양한 분석을 합니다.

Primary LanguageJupyter NotebookMIT LicenseMIT

코드 제목 지정

코드를 올릴 때는 다음의 룰을 지킬 것

  • 영어로 표기
  • 코드내용 _ 만든사람 _ ver

변수 지정

아이돌 정보

  • 아이돌명 'artist'
  • 아이돌 영문명 및 원표기 'artist_eng'
  • 멤버 이름 'artist_m'
  • 데뷔년도/곡명 'debut_y'/'debut_t'
  • 소속사 'agency'
  • 활동장르 'genre'
  • 성별 여부 'gender
  • 멤버 수 'member_num'
  • 리더 이름 'leader_name'

곡 정보

  • 타이틀여부 'is_title'
  • 노래제목 'title'
  • 앨범명 'album'
  • 발매년도 'release_date'
  • 장르 'song_genre'
  • 노래가사 'lyrics'
  • 작곡가 'composer'
  • 작사가 'lyricist'
  • 하트수 'like'

크롤링 주의사항

제목 관련

  • Jap ver 제거
  • Inst 제거
  • Eng 제거
  • remix / mix 제거
  • Chinese 제거

제목에서 구분이 불가한 경우

  • 중국어 노래인 경우 - 우선 크롤링해오고 전처리에서 정규표현식을 이용해 노래 전체가 알파벳이면 삭제(중국어 가사는 pinyin으로 표기하는데 여기엔 성조 없이 알파벳만 적어두었음. 고로 알파벳만 걸러도 충분함 )
  • 위를 통해 영어 가사만 있는 경우도 거를 수 있음
  • 일본어의 경우 한글로만 적혀있거나 일어, 발음, 해석이 다 같이 적혀있기도 함. 이 경우 일본어의 특수한 발음을 이용해서 전처리를 해볼 수 있을 것(예: 캇, 킷, 춋, 촛 등)

중복 제목

가끔 리패키지, 혹은 리믹스 버전, 피쳐링 때문에 같은 곡이 여러번 언급되는 경우가 존재.

이런 경우 크롤링 해온 뒤 중복되는 제목을 삭제해야 할 것.

멤버명 관련

  • 멤버 이름의 난해함 때문에 가끔 표기가 다르거나 괄호를 치고 영문 표기나 발음을 적어두는 경우도 있음. 이 또한 크롤링 한 뒤 전처리를 해줘야 하는 부분일 것.

그룹과 솔로 문제

  • 유닛은 크롤링 할 것인가? (소녀시대 채널에는 유닛의 곡이 없음)
  • 그렇다면 솔로는? 유닛을 크롤링할 것인가