lovit/dissertation

Dessertation repository

TeX

Ph.D dissertation Repository

미등록단어 문제와 데이터 부족 현상을 해결하기 위한 비지도학습 토크나이저와 추출 기반 문서 요약 기법

제 1 장 서론

1.1 한국어의 구조 - p.5
1.2 단어 임베딩 (Word embedding) - p.6
1.3 순차적 레이블링 (Sequential labeling) - p.10
1.4 머신 러닝 기반 한국어 품사 판별 - p.17
1.5 문서 요약 - p.20
- 1.5.1 키워드 추출을 이용한 토픽 레이블링 - p.21
- 1.5.2 그래프 랭킹 기반 키워드와 핵심 문장 추출 - p.23
- 1.5.3 딥러닝 모델을 이용한 요약 기반 문서 요약 - p.25

제 2 장 단어 추출 기법을 이용한 미등록단어 문제 해결 및 이를 이용한 한국어 토크나이저

2.1 서론 - p.27
2.2 관련 연구 - p.29
2.3 비지도기반 한국어 단어 추출 및 이를 이용한 토크나나이저 - p.32
- 2.3.1 한국어 어절의 구조 : L + [R] - p.32
- 2.3.2 음절 단위의 언어 모델을 이용한 단어 점수 - p.34
- 2.3.3 단어 점수를 이용하는 비지도학습 토크나이저 - p.35
2.4 성능 평가 - p.38
- 2.4.1 영화평을 이용한 긍부정 분류 성능 평가 - p.40
- 2.4.2 메타 데이터를 이용한 고유 명사 재현 능력 평가 - p.41
- 2.4.3 단어 임베딩을 이용한 유사 단어 검색 성능 평가 - p.42
2.5 결론 - p.44

제 3 장 한국어 어절 구조를 이용한 통계 기반 명사 추출

3.1 서론 - p.46
3.2 관련 연구 - p.48
3.3 한국어 어절의 L + [R] 구조를 이용한 명사 추출 - p.50
- 3.3.1 L-R 그래프를 이용한 명사 추출 - p.50
- 3.3.2 세종 말뭉치를 이용한 명사 판별 분류기 학습 - p.54
3.4 성능 평가 - p.57
- 3.4.1 세종 말뭉치를 이용한 성능 평가 - p.57
- 3.4.2 뉴스 기사와 온라인 문서를 이용한 성능 평가 - p.59
3.5 결론 - p.62

제 4 장 단일주제 문서 집합 요약을 위한 그래프 랭킹 기반 키워드와 핵심 문장 추출

4.1 서론 - p.68
4.2 관련 연구 - p.70
4.3 토크나이저를 이용하지 않는 키워드 및 핵심 문장 추출 - p.74
- 4.3.1 부분어절 그래프와 그래프 랭킹 알고리즘을 이용한 키워드 추출 - p. 74
- 4.3.2 키워드 집합을 이용한 핵심 문장 선택 - p.76
4.4 성능 평가 - p.78
4.5 결론 - p.84

제 5 장 다주제 문서 집합 요약을 위한 문서 군집화 알고리즘 및 군집 별 키워드 추출

5.1 개요 - p.86
5.2 관련 연구 - p.87
5.3 문서 군집화를 위하여 개선된 Spherical k-means - p.90
- 5.3.1 효율적인 Spherical k-means 초기화 - p.91
- 5.3.2 군집 중심값을 이용한 문서 군집 별 키워드 추출 방법 - p.93
5.4 성능 평가 - p.94
- 5.4.1 초기화 방법의 성능 평가 - p.95
- 5.4.2 문서 군집 별 키워드 추출 방법의 성능 평가 - p.97
5.5 중심 벡터의 차원 축소와 군집 레이블을 이용한 군집화 결과 시각화 - p.99
5.6 결론 - p.101

제 6 장 시계열 형식의 뉴스 문서 집합 요약을 위한 거리 기반 유사 주제 구간 분리

6.1 개요 - p.103
6.2 관련 연구 - p.104
6.3 유사 주제 구간 분리를 이용한 시계열 형식의 문서 요약 - p.108
- 6.3.1 시계열 분리를 위한 문서 집합의 구간 별 벡터 표현 방법 - p.109
6.4 성능 평가 - p.112
- 6.4.1 질의어 ’김무성’이 포함된 뉴스 기사의 구간 분리 - p.113
- 6.4.2 질의어 ’박근혜’가 포함된 뉴스 기사의 구간 분리 - p.114
- 6.4.3 질의어 ’유시민’이 포함된 뉴스 기사의 구간 분리 - p.116
6.5 결론 - p.117

제 7 장 결론 122

7.1 이 논문의 기여 - p.124
7.2 후속 연구 - p.126

참고문헌

Abstract

감사의 글