A list of Korean Natural Language Processing resources
- 언어
- 형태소
언어는 형태론적 구조/유형에 따라 아래와 같이 분류할 수 있다. 분류 기준은 단어의 어간과 어미의 변화 양상.
종류 | 언어 | 특징 |
---|---|---|
교착어 | 한국어, 일본어 | 단어의 변형이 있음. 어간(고정)에 어미(변형)가 결합하여 문법적 기능이 정해짐 |
고립어 | 영어, 중국어 | 단어의 변형이 없음. 단어+어순(위치)이 결합하여 문법적 기능이 정해짐 |
굴절어 | 라틴어, 독일어 | 단어의 변형이 있음. 어형과 어미의 변형으로 문법적 기능이 정해짐 |
굴절하는 단어에서 변화하지 않는 부분. 굴절하는 단어는 한 단어의 개념적 의미를 갖는 어간과 문법적 기능을 표시하는 어미로 구성되는데, 어미는 문법적 기능에 따라 변화하지만 어간은 한 단어의 개념적 의미를 나타내는 것이기 때문에 변화하지 않고 고정된다.
- ‘잡다’ : ‘잡-다, 잡-아라, 잡-자, 잡-는구나…’에서 어미 ‘-다, -아라, -자, -는구나…’를 제외한 ‘잡-’이 이 동사의 어간
어간 뒤에 놓이는 굴절 접사. 어형 변화를 갖는 단어는 그 단어의 개념을 나타내는 어간과 문법적 기능을 표시하는 어미로 구성된다. 고정된 어간이 문법적 기능에 따라 어미를 달리 가지는 것을 굴절 또는 어미 변화라고 한다.
- ‘하-시-었-다’ : 하나의 어간 ‘하-’에 ‘-시-, -었-, -다’의 세 어미가 첨가된 것
단어를 분석할 때 실질적 의미를 나타내는 중심 부분으로서 더 이상 분해될 수 없는 최소의미 단위. 모든 파생접사와 굴절접사를 제거한 뒤에 남은 형태인데, 이것으로 구성되는 모든 단어에 공통적인 필수의미를 가진다.
- 어간과 일치하는 경우도 있으나, 한 어근이 두 개 이상의 어간을 가질 수 있음. (어간은 굴절의 한 요소이나, 어근은 파생의 한 요소)
- 동사 ‘잡히다’의 어간 ‘잡히-’는 ‘잡-’에 파생접사 ‘-히-’가 붙어 형성된 것. 이때 ‘잡-’은 어근, 어간은 동사 ‘잡다’의 ‘잡-’처럼 어근 그 자체일 수도 있고, ‘잡히다’의 ‘잡히-’처럼 어근에 파생접사가 붙어서 된 것일 수도 있다.
의미를 가진 가장 작은 말의 단위
-
복숭아 : ‘복, 숭, 아’ / ‘복숭, 아’ / ‘복, 숭아’ 와 같이 단어를 더 작게 쪼개면 본래의 뜻을 잃어버리며, 각 글자가 의미를 갖지 않는다. 3음절의 글자가 의미를 형성하는 형태소.
-
책가방 : 각각 의미를 가지는 ‘책’, ‘가방’ 2개의 형태소로 이루어진 단어. 형태소가 아님.
형태소는 자립 유무, 의미와 기능에 따라 아래와 같이 분류할 수 있다.
각각의 형태소가 문장에서 홀로 사용될 수 있는지, 다른 요소에 기대어서만 사용될 수 있는지에 따라 분류
종류 | 설명 | 예시 |
---|---|---|
자립 형태소 | 자립하여 쓸 수 있는 형태소 | 명사, 대명사, 수사, 관형사, 부사, 감탄사 |
의존 형태소 | 항상 다른 형태소에 의존하여 쓰이는 형태소 | 조사, 접사, 어미, 어간(어근) |
각 형태소가 어떠한 의미를 지니는지 판단
먹-’이란 형태소는 ‘무언가를 입 속에 넣어 배로 보낸다.’는 뜻을 분명히 가지고 있어 실질적인 의미를 지닌 실질 형태소.
한편, 문법적인 의미는 형식적이면서 문법적인 기능을 말해요. 이러한 기능을 하는 형태소를 ‘형식 형태소’라고 하는데 형태소 ‘-다’는 종결의 의미, ‘-었-’은 과거의 의미를 지녀요.
종류 | 설명 | 예시 |
---|---|---|
실질 형태소 | 실질적인 의미를 가지고 구체적인 대상/동작을 표시하는 형태소 | 자립형태소 전부, 어간(어근) |
형식 형태소 | 문법적인 의미를 가지고 실질 형태소에 결합하여 말과 말 사이의 관계를 형식적으로 표시하는 형태소 | 조사, 접사, 어미 |
동생이 나 몰래 사탕을 먹었다. # 원문
↓
동생 / 이 / 나 / 몰래 / 사탕 / 을 / 먹- / -었- / -다 # 형태소 분석 결과
- 자립 형태소 : '동생', '나, '몰래‘, '사탕’
- 의존 형태소 : '이’, '을‘, '먹-’, '-었-’, '-다’
- 실질 형태소 : '동생‘, '나‘, '몰래‘, '사탕‘, '먹-’
- 형식 형태소 : '이‘, '을’, '-었-‘, '-다’