부제 : 파이토치를 활용한 딥러닝과 비전 생성 모델
수식으로 이해하고, 코드로 습득하고, 결과물로 알아보는 파이토치를 활용한 딥러닝과 비전 생성 모델 이제는 누구나 쉽게 접할 수 있는 각종 생성형 AI 서비스는 컴퓨터 비전, 그중에서도 비전 생성 모델의 기술적 산물입니다. 인공지능과 관련된 전문가로 성장하기 위해서는 단순히 완성형으로 개발된 서비스를 이용해보기에 앞서 동작의 원리를 깨쳐야 합니다. 이에 『생성형 AI를 위한 컴퓨터 비전』은 미드저니, 빙 이미지 크리에이터, 스테이블 디퓨전, 스노우 앱 등의 서비스를 개발할 때 사용되는 이미지 및 영상 생성 관련 컴퓨터 비전 기술의 근간을 설명합니다.
비전 생성 모델과 관련된 각종 모델에 대해 수학 공식을 통해 수리적인 배경을 이해하고 소스코드를 한 줄씩 따라가며 동작 기술을 습득할 수 있습니다. 또한 텍스트 입력을 처리하는 트랜스포머, 이미지와 텍스트 프롬프트의 정보를 연결하는 CLIP 모델, 파이프라인 및 응용 기법 등을 지원하는 허깅페이스의 Diffuser 라이브러리와 함께 멀티 모달 비전 생성 모델의 결과 도출 방식을 알 수 있습니다. 이제는 생성형 AI 제품 및 서비스를 경험해보는 것을 넘어 책에서 제시하는 전망과 미래 잠재력에 동참해보도록 합시다.
비전 생성 모델의 수리적 배경부터 응용 모델의 사용법과 결과 도출 원리까지
1장에서는 컴퓨터 비전 영역에 속한 생성형 AI 관련 모델인 비전 생성 모델에 대해 용어를 정의하고 수리적인 배경을 학습한 후 구현 및 실습에 필요한 도구를 설치합니다.
2장에서는 대표적인 생성 모델링 방식인 오토 인코더, 변이형 오토 인코더(VAE), 생성적 적대 신경망(GAN), 그리고 확산 모델(Diffusion Model)에 대해 이론부터 실습까지 코드를 한 줄씩 따라가며 꼼꼼하게 살펴봅니다.
3장에서는 영상 생성 모델(PGGAN, StyleGAN), 영상 변환 모델(pix2pix, CycleGAN), 스타일 변환 모델(AdalN, StarGAN), 영상 품질 개선 모델(초해상도: SRGAN, 디블러링: DeblurGAN)에 대해 수학 공식을 통한 수리적인 배경부터 소스코드를 통한 설명과 결과 이미지 확인까지 세밀하게 고찰해봅니다.
4장에서는 텍스트 입력을 처리할 수 있게 하는 트랜스포머, 이미지와 텍스트 프롬프트의 정보를 연결하는 CLIP 모델, 파이프라인 및 응용 기법 등을 지원하는 허깅페이스의 Diffuser 라이브러리에 대해 알아봅니다. 그리고 미드저니, 빙 이미지 크리에이터, 스테이블 디퓨전 등의 생성 서비스에 사용된 멀티 모달 비전 생성 모델에 대해 각 서비스를 기준으로 수리적인 배경과 결과 도출 방식을 살펴봅니다.
5장에서는 모바일 애플리케이션 스노우(SNOW), 어도비의 생성형 AI 플랫폼 젠스튜디오(GenStudio), 오픈AI의 Text-to-Video 생성 모델 소라(Sora) 등을 소개하며 비전 생성 모델의 전망과 미래 잠재력을 조망해봅니다.
이 책이 필요한 독자
- 딥러닝과 영상 변환 모델 기술에 대해 궁금한 분
- 비전 생성 모델을 처음 접하는 대학생 또는 대학원생
- 이미지 및 영상 생성 관련 인공지능 기술을 직접적인 수식과 코드로 학습하고 싶은 분
- 비주얼 분야에서의 인공지능에 대해 학습하고 싶은 분
- 디자인 및 그래픽 관련 분야에서 인공지능 모델을 활용해보고 싶은 분