/AI_video_chatbot

AI 화상 챗봇 프로젝트 레포입니다.

Primary LanguagePython

PROJECT Name : 실버 AI 화상 상담 챗봇




프로젝트 기간 📆

날짜 업무 내용
2023.04.24 ~ 2023.04.28 사전 기획(프로젝트 기획, 주제 선정, 자료 조사)
2023.04.29 ~ 2023.05.08 Data 수집,정제(lip sync 영상 수집, 정제, TTS Data 녹음, 전처리)
2023.05.08 ~ 2023.06.13 Image Generation Modeling(Make It Talk, Wave To Lip, Rad-NeRF)
2023.05.15 ~ 2023.05.23 TTS Modeling(JETS)
2023.05.24 ~ 2023.06.13 ChatBot system(Poly-encoder)



구성원 🤸🏻‍♀️

알파코 5기 3조

구성원 깃허브 주소 분담 역할
노아윤 Git 프로젝트 일정 관리, MIT fine-tuning, 데이터 전처리,
Web Ux 구현
김도현 Git TTS Modeling(Jests-based), 데이터 전처리, Poly-Encoder train,
aws 환경 구축, Web Ux 구현
송기훈 Git MIT fine-tuning, 데이터 전처리, whisper pipeline,
aws 환경 구축, Web UI, Ux 구현, 웹 서비스 배포
황민규 GIt W2L fine-tuning, Rad-NeRF fine-tuning 데이터 전처리,
TOXIC pipeline, TTS 데이터 생성, Web Ux 구현


Enviroment

Env CPU GPU RAM OS
Local i5- 13500k RTX-3070Ti 32G Window11
AWS AMD-EPYC-7R32 RTX-3090 12G Ubuntu
kaggle intel Xeon P100 12G Ubuntu
Colab + intel Xeon A100 80G Ubuntu

Contents Table


문제 상황

문제 배경1

🤔 OCED 국가중 가장 낮은 고령층 디지털 숙련도를 가지고 있다.

디지털 숙련도란 ? ▶️ 디지털 기기를 사용하여 정보를 얻고 문제를 solving 하는 능력

코로나 19 이후 언택트(Untact)시대에 진입하며 디지털 시대로의 진입이 가속화 되었다.
노인들의 낮은 디지털 숙련도는 디지털 시대의 낮은 적응력을 의미하고 이는 정보의 불균형, 노인 인구의 불만족을 나타낸다.
고령화 시대로 진입하고 있는 지금 해당 문제에 대한 해결책이 필요하다.



우리는 그렇다면 해당 문제를 해결하기 위해 어떤 문제를 노인들이 어려워하는지 알 필요가 있다 . 🤔

문제 배경2

  • 해당 표를 통해 알 수 있는 것은 노인들이 사용방법을 모르거나 어려워서 디지털 기기를 사용하지 못한다는 것을 알 수 있다.



그렇다면 고령층에게 가장 필요한 서비스는 어느 분야일까 ❔

문제 배경3


해당 표에 나오듯 공공 서비스에 대한 정보 / 역량이 가장 중요하다는 사실을 확인 할 수 있다. .



✔️ 현재 시중의 챗봇 , 디지털 시스템의 문제를 확인해 보자

시중 챗봇의 문제1

  1. 고령층의 디지털 기기의 가장 큰 문제는 많은 글자이다.

카이스트 연구에 따르면 고령층은 청년층에 비해 글자를 인지하고, 이해하는데 걸리는 시간이 30% 이상 느리다.

시중 챗봇의 문제2

  1. 고령층이 디지털 기기에서 마주할 다른 문제는 복잡하고 긴 절차이다.

상담원과의 전화 연결은 모든 질문에 대한 답이 한번에 오는 반면
디지털 기기를 통한 상담은 긴 절차와 결과창까지 확인하는 시간이 오래 걸리며 복잡하다.



결론적으로 만들게 될 모델은 실버 + AI상담원 + 챗봇이다.

실버 고령층을 위한 쉽고 편리한 + AI상담원실제 사람과 대화하는 경험을 통해 거부감을 줄인
챗봇공공서비스에 대한 정보를 제공하는 시스템을 만드는 PROJECT이다.



기대효과

  • 노인들의 만족도 상승

    노인들은 디지털 시대에 적극적으로 참가하며, 원하는 정보를 얻고 참가하기에 사회 전반적인 시스템에 자신감이 생기고 만족한다.

  • 24시간 상황 대처 가능

    24시간 고령층의 민원에 대응이 가능하며, 응급상황, 다양한 민원에 대응이 가능하다.

  • 예산 감소

    현재 많은 예산과 인원이 고령층을 위한 정책 시행, 홍보에 소모되고 있다. 고령층이 능동적으로 정보를 찾고 받을 수 있는 능력이 있다면 해당 인원 돈을 단축할 수 있다.



PROJECT 설명

총 프로세스



❗STT 를 통해 들어온 목소리를 텍스트로 바꾼다. 해당 모델에 대한 자세한 내용은 ➡️ 여기 확인 가능합니다.
❗TOXIC 를 통해 들어온 목소리를 텍스트로 바꾼다. 해당 모델에 대한 자세한 내용은 ➡️ 여기 확인 가능합니다.
❗Chat Bot을 통해 원하는 답변을 얻어 답변하는 Model 일련의 과정은 ➡️ 여기 확인 가능합니다.
❗TEXT TO SPEECH 를 통해 텍스트를 목소리로 바꾼다. 해당 모델에 대한 자세한 내용은 ➡️ 여기 확인 가능합니다.
❗Image Generation 을 통해 목소리와 base model 사진을 넣어 영상을 생성하는 내용은 ➡️ 여기 확인 가능합니다.


ABOUT MODEL

모델들의 예시를 확인할 수 있는 곳 입니다.

Wav2LIP

MakeItTalk

배성재_makeittalk_kor 배성재_makeittalk_eng

Rad-NeRF

SadTalker


Dataset


해당 데이터에 대한 자세한 설명은 ➡️ 여기 확인 가능합니다.

  • 직접 녹음한 / 한국어 남성 독백 wav파일 / if you want some data contact me by Email!

적용할 수 있는 분야

Future work

해당 프로젝트는 AI 화상 상담원을 기준으로 작성되었다. 하지만 여러 분야에 걸처 사용될 수 있다고 생각된다.

  1. 검색 엔진, 많은 페이지.

    • 실상 많은 고령층이 사용하는 검색 엔진은 네이버, 구글일 것이다. 이 중 사진, 친근성이라는 이유는 네이버가 클 것이다.
    • 해당 검색을 통하면 광고, 너무 많은 URL 등으로 실제로 유용한 정보 탐색에 큰 어려움을 겪고 있다.
    • 검색 엔진에 AI 화상 상담원을 사용하여 실버층의 검색을 도울 수 있다.
  2. 모바일 금융

    • 많은 금융 혜택, 프로세스가 모바일로 넘어가고 있다.
    • 하지만 고령층은 불신과, 과정의 어려움으로 실제로 사용하지 못하고 있다.
  3. 현장 키오스크로 확대

    • 키오스크가 가장 노인들이 두려워하는 방식이다. 라는 말처럼 키오스크의 사용방법과 절차는 고령층에게 매우 어렵다.
    • 키오스크에 적용 처리한다.

ReFerence

Reference Git paper_link
Prajwal, K. R., et al. "A lip sync expert is all you need for speech to lip generation in the wild." Proceedings of the 28th ACM International Conference on Multimedia. 2020. Wav_2Lip paper
Zhou, Yang, et al. "Makelttalk: speaker-aware talking-head animation." ACM Transactions On Graphics (TOG) 39.6 (2020): 1-15. MakeItTalk paper
end-to-end speech processing toolkit ESPNET(JETS) paper
TANG, Jiaxiang, et al. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368, 2022. Rad-NeRF paper
LIM, Dan; JUNG, Sunghee; KIM, Eesung. JETS: Jointly training FastSpeech2 and HiFi-GAN for end to end text to speech. arXiv preprint arXiv:2203.16852, 2022. JETS paper
HUMEAU, Samuel, et al. Poly-encoders: Transformer architectures and pre-training strategies for fast and accurate multi-sentence scoring. arXiv preprint arXiv:1905.01969, 2019. Poly-Encoder paper