- 실습과제는 상황에 따라 변경될 수 있습니다.
- 강의개요 소개
- 비정형 텍스트 데이터 분석 기본개념
- 실습
실습환경: Python 3.7 & Google Colaboratory
W01-1. 텍스트 데이터를 다루기 위한 Python: 기본문법
W01-2. 텍스트 데이터를 다루기 위한 Python: 자료구조
W01-3. 텍스트 데이터를 다루기 위한 Python: 반복문과 조건문
TASK 01: 노래 가사에서 한글과 영어 단어 개수 세기
- 텍스트 데이터 실무 활용사례
- 실습
W02-1. 텍스트 데이터를 다루기 위한 Python: 정규식
W02-2. 텍스트 데이터를 다루기 위한 Python: 파일 입출력
W02-3. 텍스트 데이터를 다루기 위한 Python: Numpy 패키지 익히기
W02-4. 텍스트 데이터를 다루기 위한 Python: Pandas 패키지 익히기
W02-5. 텍스트 데이터를 다루기 위한 Python: Matplotlib 패키지 익히기 - 시청각 자료: 뜻밖의 텍스트 마이닝, 네오플
- 텍스트 데이터 수집유형 및 웹크롤링
- 실습
W03-1. Open API 활용하기
W03-2. 정적페이지 수집하기: BeautifulSoup, Requests
W03-3. 크롤링을 이용한 링크 추출
TASK 01: 연속으로 크롤링
- 텍스트 데이터 전처리 소개
- 실습
W04-1. 동적페이지 수집하기: Requests
W04-2. 동적페이지 수집하기: Selenium
W04-3. 기타 데이터에서 텍스트 추출하기
- 형태소분석과 개체명인식
- 실습
W05-1. 한국어 텍스트 데이터 전처리하기: KoNLPy
W05-2. 영어 텍스트 데이터 전처리하기: NLTK
- 단어빈도분석
- TF-IDF
- 실습
W06-1. 단어빈도와 TF-IDF 계산하기
W06-2. 단어 가중치를 활용해 워드클라우드 생성하기
TASK 01 (optional): 크롤링 + TF-IDF
- 동시출현분석(연관어분석)
- 단어 네트워크 분석
- 실습
- 단어/문서 군집화
- 토픽모델링
- 실습
W08-1. 뉴스기사 군집화로 이슈 모아보기
W08-2. 뉴스기사에서 주제 찾아내기
- 텍스트 감성분석과 활용, 문서요약과 키워드추출
- 실습
W09-1. 키워드 추출 및 문서요약 (TextRank)
과제소개: 영화 줄거리로 예상관객 성별 맞추기
참고자료: 캐글
- 단어 임베딩: Word2Vec, Glove
- 단어와 문서를 벡터로 표현하는 방법: Word2Vec, Doc2Vec
- 실습
W10-1. 뉴스기사 텍스트 데이터를 벡터로 표현하기
W10-2. 위키피디아 텍스트 데이터를 벡터로 표현하기 - 참고 사이트: http://word2vec.kr/
- 비정형 데이터와 머신러닝
- 실습
W11-1. Keras를 이용한 Text Classification 1
W11-2. Keras를 이용한 Text Classification 2
W11-3. Keras를 이용한 단어 임베딩 생성
W11-4. Keras RNN을 이용한 Text Classification 3 Colab
W11-5. Keras RNN을 이용한 Text Generation Colab
- 비정형 데이터 분석 리뷰
- 실습
W12-1. TBD
본 강의자료는 아래 문헌들을 참고해 구성되었습니다.
- TEXT MINING for PRACTICE, 전병진, https://github.com/fingeredman/text-mining-for-practice
- Byte of Python
- 패스트캠퍼스 <텍스트 분석 유치원 1기~5기> 실습자료
- 텍스트 마이닝(Text Mining), 송민 지음, 청람출판사, 2017
- 파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문, 쿠지라 히코우즈쿠에, 위키북스, 2017
- Natural Language Processing with PyTorch, 김기현, https://kh-kim.gitbook.io/natural-language-processing-with-pytorch/