/konlp

A list of Korean Natural Language Processing resources

MIT LicenseMIT

konlp

A list of Korean Natural Language Processing resources

Table of Contents

1. Basics

  • 언어
  • 형태소


언어

언어는 형태론적 구조/유형에 따라 아래와 같이 분류할 수 있다. 분류 기준은 단어의 어간과 어미의 변화 양상.

종류 언어 특징
교착어 한국어, 일본어 단어의 변형이 있음. 어간(고정)에 어미(변형)가 결합하여 문법적 기능이 정해짐
고립어 영어, 중국어 단어의 변형이 없음. 단어+어순(위치)이 결합하여 문법적 기능이 정해짐
굴절어 라틴어, 독일어 단어의 변형이 있음. 어형과 어미의 변형으로 문법적 기능이 정해짐

어간

굴절하는 단어에서 변화하지 않는 부분. 굴절하는 단어는 한 단어의 개념적 의미를 갖는 어간과 문법적 기능을 표시하는 어미로 구성되는데, 어미는 문법적 기능에 따라 변화하지만 어간은 한 단어의 개념적 의미를 나타내는 것이기 때문에 변화하지 않고 고정된다.

  • ‘잡다’ : ‘잡-다, 잡-아라, 잡-자, 잡-는구나…’에서 어미 ‘-다, -아라, -자, -는구나…’를 제외한 ‘잡-’이 이 동사의 어간

어미

어간 뒤에 놓이는 굴절 접사. 어형 변화를 갖는 단어는 그 단어의 개념을 나타내는 어간과 문법적 기능을 표시하는 어미로 구성된다. 고정된 어간이 문법적 기능에 따라 어미를 달리 가지는 것을 굴절 또는 어미 변화라고 한다.

  • ‘하-시-었-다’ : 하나의 어간 ‘하-’에 ‘-시-, -었-, -다’의 세 어미가 첨가된 것

어근

단어를 분석할 때 실질적 의미를 나타내는 중심 부분으로서 더 이상 분해될 수 없는 최소의미 단위. 모든 파생접사와 굴절접사를 제거한 뒤에 남은 형태인데, 이것으로 구성되는 모든 단어에 공통적인 필수의미를 가진다.

  • 어간과 일치하는 경우도 있으나, 한 어근이 두 개 이상의 어간을 가질 수 있음. (어간은 굴절의 한 요소이나, 어근은 파생의 한 요소)
  • 동사 ‘잡히다’의 어간 ‘잡히-’는 ‘잡-’에 파생접사 ‘-히-’가 붙어 형성된 것. 이때 ‘잡-’은 어근, 어간은 동사 ‘잡다’의 ‘잡-’처럼 어근 그 자체일 수도 있고, ‘잡히다’의 ‘잡히-’처럼 어근에 파생접사가 붙어서 된 것일 수도 있다.


형태소

의미를 가진 가장 작은 말의 단위

예시

  • 복숭아 : ‘복, 숭, 아’ / ‘복숭, 아’ / ‘복, 숭아’ 와 같이 단어를 더 작게 쪼개면 본래의 뜻을 잃어버리며, 각 글자가 의미를 갖지 않는다. 3음절의 글자가 의미를 형성하는 형태소.

  • 책가방 : 각각 의미를 가지는 ‘책’, ‘가방’ 2개의 형태소로 이루어진 단어. 형태소가 아님.

형태소의 종류

형태소는 자립 유무, 의미와 기능에 따라 아래와 같이 분류할 수 있다.

자립성 여부에 따라

각각의 형태소가 문장에서 홀로 사용될 수 있는지, 다른 요소에 기대어서만 사용될 수 있는지에 따라 분류

종류 설명 예시
자립 형태소 자립하여 쓸 수 있는 형태소 명사, 대명사, 수사, 관형사, 부사, 감탄사
의존 형태소 항상 다른 형태소에 의존하여 쓰이는 형태소 조사, 접사, 어미, 어간(어근)

의미와 기능에 따라

각 형태소가 어떠한 의미를 지니는지 판단
먹-’이란 형태소는 ‘무언가를 입 속에 넣어 배로 보낸다.’는 뜻을 분명히 가지고 있어 실질적인 의미를 지닌 실질 형태소. 한편, 문법적인 의미는 형식적이면서 문법적인 기능을 말해요. 이러한 기능을 하는 형태소를 ‘형식 형태소’라고 하는데 형태소 ‘-다’는 종결의 의미, ‘-었-’은 과거의 의미를 지녀요.

종류 설명 예시
실질 형태소 실질적인 의미를 가지고 구체적인 대상/동작을 표시하는 형태소 자립형태소 전부, 어간(어근)
형식 형태소 문법적인 의미를 가지고 실질 형태소에 결합하여 말과 말 사이의 관계를 형식적으로 표시하는 형태소 조사, 접사, 어미

예시

동생이 나 몰래 사탕을 먹었다. # 원문

동생 / 이 / 나 / 몰래 / 사탕 / 을 / 먹- / -었- / -다 # 형태소 분석 결과

  • 자립 형태소 : '동생', '나, '몰래‘, '사탕’
  • 의존 형태소 : '이’, '을‘, '먹-’, '-었-’, '-다’
  • 실질 형태소 : '동생‘, '나‘, '몰래‘, '사탕‘, '먹-’
  • 형식 형태소 : '이‘, '을’, '-었-‘, '-다’