한국IT비즈니스진흥협회 인공지능센터의 AI Expert 교육 과정 중 언어지능 분야 교육 내용을 정리한 자료 입니다.
- 자연어처리 소개 및 분석과정 (자료)
- 비정형 데이터 - HTTP, Urllib, Requests (자료1) (자료2) (Code)
- 특강 - git Advanced (자료1) (자료2)
- Cookie / Session (자료) (Code는 2강 Code의 끝부분 참조)
- 웹 크롤링 - DOM (자료1) (자료2) (Code)
- 웹 크롤링 - Selector (자료1) (자료2) (Code)
- 웹 스크래핑 - 정적 콘텐츠 (자료1) (자료2) (Code)
- 웹 스크래핑 - 동적 콘텐츠 (자료1) (자료2) (Code)
- 프로젝트1 - 네이버 뉴스 기사 scraping (자료) (Code)
- 토큰화 - 문단, 문장, 어절, 정규식 (자료1) (자료2) (Code)
- 토큰화 - Ngram, WPM (자료1) (자료2) (Code)
- 불용어 - 구두점, Stopwords (자료1) (자료2) (Code)
- 형태소분석-POS_Taggers, 구문분석-구/연어/시각화 (자료1) (자료2) (Code)
- 형태소분석-구문분석-구/연어/시각화, 정보검색-색인 기법 (자료1) (자료2) (Code1) (Code2)
- 정보검색 - 색인 기법 (자료1) (자료2) (자료3) (Code)
- 특강 - 자연어 처리 및 의료인공지능 개발 (자료) (Code)
- 정보검색 - 색인 기법(계속) (자료1) ((자료2) (Code)
- 정보검색 - 가중치 기법, 벡터 공간 모델 (자료1) ((자료2) Code)
- 정보검색 - 유사도 판별, 순위화 (자료) (Code)
- 프로젝트 비정형 데이터를 이용한 검색엔진 (Code)
- 특강 - 딥러닝 활용사례 및 실습 (Tensorflow) (자료) (Code)
- 문서분류 - kNN (Code)
- 프로젝트 뉴스 자동 분류(카테고리 분류) (Code)
- 문서분류 - 나이브 베이즈 (Code)
- 프로젝트 스팸 자동 분류 (Code)
- 특강 - 딥러닝을 이용한 금융서비스 사례 / 음성인식 개요 및 사례 (Code)
- 성능평가 - 정확율, 재현율, F-Measure (Code)
- 프로젝트 - 스팸자동분류 성능평가 (Code)
- 군집화 - KMeans (Code)
- 군집화 - 어휘 클러스터, 시각화 (Code1) (Code2)
- 특강 - 영상인식 사례, 딥러닝 실습 (Code1) (Code2)
- 토픽분석 - LSA_SVD (자료2) (자료2) (Code)
- 토픽분석 - LDA (자료) (Code, 코드 없이 markdown/LaTex으로 만들어진 설명자료 만 포함하고 있음)
- 휴강
- 토픽분석 - SVD, LDA 실습 (자료) (Code1) (Code2)
- 특강 - 항공산업 미래기술 예측, 자연어처리 특허 가치 및 평가, 바이오 정보 검색 (Code)
- 감성분석 - 감성사전 (Code1) (Code2)
- 감성분석 - PMI(Pointwise Mutual Information), SO(Semantic Orientation) (자료1) (자료2) (Code)
- 단어 임베딩 (자료) (Code)
- 영화리뷰 분석 코드 리뷰, 최종평가 (Code1) (Code2)
강의에서 사용한 명령을 함수로 구현해서 재사용할 수 있도록 정리했습니다.
functions
폴더에 모듈 형태로 구현하고,
jupyter notebook에서 기능을 테스트 했습니다.
- download.py : requests 패키지를 이용한 웹 페이지 다운로드 함수들
- getDownload(url, params, headers, retries): requests.get() 호출 후 Response 객체를 return
- postDownload(url, data, headers, retries): requests.post() 호출 후 Response 객체를 return
- search.py : 4대 포탈에서 키워드 검색 후 title과 url을 추출 하는데 도움되는 함수들
- crawling.py : crawling에 필요한 함수들(TBD)
- getUrls(link, depth): link 페이지에 포함된 url과 depth를 dictionary 형태로 반환
- ppomppu.py : 뽐뿌게시판 scraping에 필요한 함수들
- naver.py : naver 뉴스 기사 scraping에 필요한 함수들
- nlp/ngram.py : N-gram 함수 구현 => ngramEojeol(), ngramUmjeol() 함수
- nlp/wpm.py : WPM 구현 => split_terms(), find_ngram(), merge_ngram() 함수
- info_retrieval.py : 정보검색 관련 함수
- test/download_module_test.ipynb : download.py에 정의한 함수 테스트
- test/portal_title_and_url_retrieve_test.ipynb : search.py에 정의한 함수 테스트
- test/ppomppu_Poomppu_class_test.ipynb : ppomppu.py에 정의한 Ppomppu class 테스트
- test/ppomppu_Freeboard_class_test.ipynb : ppomppu.py에 정의한 PpomppuFreeboard class 테스트
- test/naver_news_scraping_test.ipynb : naver.py에 정의한 NewsScraping class 테스트
- test/information_retrieval_test.ipynb : info_retrieval.py에 정의한 함수 테스트
- test/mail_sraping_test-naver_mail-gmail.ipynb : mail scraping 기능 테스트