KoBART Biblify

Huggingface Spaces에서 직접 사용해볼 수 있습니다
Kaggle Notebooks에서 코드를 볼 수 있습니다

쉬운성경(~했습니다 문체)과 개역한글판(흔히 불리는 "성경말투")을 매칭하여 일반적인 문서의 문체를 "성경말투"로 번역해줍니다. 구어체(하는 말)보다는 문어체(읽는 말)를 잘 바꿔줍니다.

결과

(출처: 뉴닉 뉴스레터 7월 13일 "택시 잡기, 나만 힘들어?" 편)

글을 문장단위로 잘라서 변환한 뒤에 합쳤습니다.

저녁 약속 끝나고 집에 들어가는데 택시가 안 잡혀서 발만 동동 굴렀던 적 있지 아니하뇨, 전국 곳곳에서 택시를 잡기가 어려우니 대란이라 하더라. 주로 밤에 잡기가 어렵다 하는 말이 나오는데 여기에는 여러 가지 이유가 있느니라. 코로나19 규제가 느슨해지자 모임이 늘었더라. 이러므로 보니 택시를 타는 사람이 크게 늘어 택시를 잡기가 어려워졌더라. 우리 택시 중 3대는 회사에 소속된 법인택시라 그 수가 코로나19 이전보다 더 줄었으니 이는 그 손님이 뜸하여 수입이 줄자 배달이나 택배 등 새로운 일을 하는 자가 많음이라

원문

요즘 저녁 약속 끝나고 집에 가려는데 택시 안 잡혀서 발만 동동 굴렀던 적 있지 않나요? 전국 곳곳에서 택시 잡기가 힘들어서 ‘택시 대란’이라는 말까지 나올 정도라고 해요. 주로 밤에 택시 잡기 어렵다는 말이 나오는데 여기엔 몇 가지 이유가 있어요. 코로나19 관련 규제가 느슨해지면서 모임이 늘었잖아요. 그러다 보니 택시 타려는 사람이 크게 늘어 택시 잡기가 어려워진 거예요. 우리나라 택시 10대 중 3대는 회사에 소속된 택시(=법인택시)인데요. 전국 법인택시 기사가 코로나19 이전보다 30%(약 3만 명) 가까이 줄었어요. 코로나19 때 손님이 뜸해져 수입이 확 줄자 배달·택배 등 새로운 일을 시작한 경우가 많기 때문.

번역 성공사례

선배 개발자들은 "우리나라에서 개발자로 살아가는 것은 매우 힘겹다"라고 말하곤 했다. 실제로 업계에서는 "개발하다 막히면 치킨 집으로 가"라는 마냥 웃을 수 없는 농담도 심심치 않게 들린다. 개발자로 일하다 보면 은퇴 나이가 되기도 전에 창업해야만 하는 현실을 빗댄 표현이다. 우리나라에서 개발자로 자리 잡기란 이처럼 힘든 일이다.

-> 너희가가 말하기를 우리나라에서 개발하는 것은 매우 어렵다 하였더니 그 말 중에 "개발하다 막히면 치킨 집으로 가라 하라 하는 말이 있더라 이는 우리나라에서 개발하는 것은 참으로 어렵다 하였느니라
주석은 절대 작성하지 않는다. 누가 뭐라고 하면 클린코드를 들먹이자. 물론 그렇다고해서 코드가 리더블하지는 않다.

-> 주석은 절대 작성치 아니하거니와 누가 말하노니 그 코드가 리더블이 아니요
요즘 들어 GPU 값이 하늘 높은지를 모르고 솟고 있어서 고민이에요.

-> 요즘 들어 GPU 값이 하늘 높은 줄을 알지 못하느니라

내일 보는 수행평가 어떤거 있지?

-> 내일 보는 수행평가 어떤 것이 있느뇨
근데 내가 전에 해보니까, 이렇게 해도 적당히 잘 되더라고.

-> 내가 전에 전에 해본즉 적당히 잘 되더라
최부장님, 어제 부탁드린 업무는 얼마나 완성됐나요?

-> 최부님, 어제 간구한 일이 얼마나 되었나이까
서버가 죽었어요

-> 서버가 죽었도다
방어적 프로그래밍을 해라 코드로 방어하지 말고 너에게 들어오는 일감을 방어해라.

-> 방어적 프로그래밍을 하되 코드로 방어하지 말고 너로 들어오는 모든 일감을 훼방하라
아 배고프다. 뭐라도 좀 먹을래?

-> 아 배고프다 뭐라도 먹을까 하노라
혹시 나 아까 자다가 소리질렀어?

-> 혹시 내가 자다가 소리질렀었느냐
어떻게 더 많은 사람들에게 기술의 가치를 제공할 수 있을지 고민할 수 있는 계기가 되었습니다.

-> 더 많은 기술로 더 많은 사람에게 이르게 하려 함을 알게 된지라

그냥.. 뭔가 이상함

선생님의 수업을 따라가면서 여러 학술적인 지식을 쌓을 수 있었습니다.

-> 선생을 따라가며 여러 학문을 쌓으셨으니

잘못된 사례

오늘 점심 뭐 나와?

-> 오늘 점심에 나와서 나와서 저녁에 나와서 저녁에 나와서 저녁에 나와서 저녁에 나와서
오늘 급식 뭐 나와?

-> 오늘 급식에 나와서 무엇을 먹으리이까

연구 내용

본 모델의 연구 의도와 과정에는 종교적 의미가 함유되어있지 않습니다.

연구 동기

KoBART의 문체 번역 능력을 제대로 테스트해볼 수 있는 태스크가 어떤 것이 있을지 고민해본 결과, 특유의 문체가 잘 드러나고 전산화가 잘 되어있는 한국어 성경 데이터가 적절할것으로 생각했습니다. 한국어 성경은 번역 판본에 따라 다른 문체를 가지고 있습니다. 흔히 "성경말투"라고 부르는 번역본은 개역한글판이고, 이해하기 쉽도록 현대어로 설명되어 있는 번역본은 쉬운성경이라고 통용됩니다. 동일한 소스에서 특징이 명확히 드러나는 서로 다른 형식으로 표현되는 말뭉치는 드물었고, 특히 문장별로 이미 분리되어 있다는 점, 인덱싱(시편 37:1과 같은)이 완벽하게 되어있다는 점, 많은 사람들에게 "성경말투"에 대한 공감대가 있다는 점 등이 언어모델 데모에 활용하기에 최적의 소스였습니다.

데이터셋

학습에 사용한 데이터셋을 Kaggle에서 확인할 수 있습니다

현대 문어체를 "성경말투"로 변환하기 위해, 성경 데이터셋을 사용하였습니다. 현대 문어체는 쉬운성경, "성경말투"는 개역한글판 성경을 사용하였습니다. 성경 데이터셋에서 유니코드 인용구를 따옴표로 바꿔주었고, 쉬운성경의 중간중간 섞여있는 상황설명 괄호 내용도 제거하였습니다. 전처리 한 데이터를 위 링크에 업로드해두었습니다.

학습!

haven-jeon/KoBART-chatbot의 코드를 기반으로 하였습니다. 학습에 사용한 코드는 Kaggle Notebooks에서 볼 수 있습니다