《머신러닝·딥러닝 문제해결 전략》

캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략

  * 신백균 지음 | 골든래빗(주)
  * 38,000원 | 652쪽
  * 미리보기 | 공략집(with 미니맵) | 정오표
  * 구매처 : 교보문고, 예스24, 알라딘, 인터파크


★ 문제해결 방식에 정답은 없어도 패턴은 있습니다.

어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있습니다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로세스를 숙달해보세요. 단순 따라하기에서 벗어나, 어떤 점을 분석해야 하는지, 분석 결과를 어떻게 적용하는지, 이 기법이 왜 유용하고 어떻게 활용하는지까지 체계적으로 알려드립니다. 엄선한 7가지 대회로 기본기와 문제해결 능력을 확실하게 길러드립니다.

그리고 특별 선물 몇 가지!

  1. 공략집(with 미니맵) : 책의 내용을 가장 빠르고 효율적으로 체득하시길 바라는 마음에서 별책부록으로 간단한 공략집을 준비했습니다.
  1. 체크리스트 : 문제해결 과정에서 짚어봐야 할 사항들을 프로세스 단계별로 정리한 표입니다.
    자유롭게 수정·개선하여 여러분만의 비밀 무기로 활용해주세요.

저희가 준비한 선물이 이 책을 학습하는 데,
나아가 더 나은 데이터 과학자/머신러닝 엔지니어로 성장하는 데 조금이나마 보탬이 되기를 바랍니다.


캐글 UI 관련 최신 업데이트

캐글 사이트의 UI는 언제든 예고 없이 변경될 수 있으므로 1장, 2장, 6.2절의 내용을 온라인 문서로 공개해뒀습니다. 책의 설명과 달라져서 진행하기 어렵다면 이 문서를 참고해주세요.

예제 코드 캐글 노트북 목록

소개 영상

소개 영상을 만들어주신 박조은 님과 박재호 님께 감사드립니다.

Video Label Video Label

목차

  • 1부. 머신러닝 레벨업의 지름길, 캐글
    • 01장. 왜 캐글인가?
      • 1.1 왜 캐글을 해야 하는가?
      • 1.2 캐글 구성요소
      • 1.3 캐글러 등급
      • ___ 학습 마무리
    • 02장. 캐글 정복 첫걸음
      • 2.1 캐글 가입
      • 2.2 경진대회 참여
      • 2.3 주피터 노트북 설정
      • 2.4 결과 제출하기
      • 2.5 컨트리뷰터 되기
      • 2.6 예제 코드 캐글 노트북 복사하기
      • ___ 학습 마무리
    • 03장. 문제해결 프로세스 및 체크리스트
      • 3.1 머신러닝 문제해결 프로세스
      • 3.2 머신러닝 문제해결 체크리스트
      • 3.3 딥러닝 문제해결 프로세스
      • 3.4 딥러닝 문제해결 체크리스트
    • 04장. 데이터를 한눈에 : 주요 시각화 그래프
      • 4.1 데이터 종류
      • 4.2 탐색적 데이터 분석과 그래프
      • 4.3 수치형 데이터 시각화
      • 4.4 범주형 데이터 시각화
      • 4.5 데이터 관계 시각화
  • 2부. 머신러닝 문제해결
    • 05장. 다시 살펴보는 머신러닝 주요 개념
      • 5.1 분류와 회귀
      • 5.2 분류 평가지표
      • 5.3 데이터 인코딩
      • 5.4 피처 스케일링
      • 5.5 교차 검증
      • 5.6 주요 머신러닝 모델
      • 5.7 하이퍼파라미터 최적화
    • 06장. [경진대회] 자전거 대여 수요 예측
      • 6.1 경진대회 이해
      • 6.2 경진대회 접속 방법 및 세부 메뉴
      • 6.3 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 6.4 베이스라인 모델
      • 6.5 성능 개선 I : 릿지 회귀 모델
      • 6.6 성능 개선 II : 라쏘 회귀 모델
      • 6.7 성능 개선 III : 랜덤 포레스트 회귀 모델
      • ___ 학습 마무리
      • ___ 실전 문제
    • 07장. [경진대회] 범주형 데이터 이진분류
      • 7.1 경진대회 이해
      • 7.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 7.3 베이스라인 모델
      • 7.4 성능 개선 I
      • 7.5 성능 개선 II
      • ___ 학습 마무리
      • ___ 실전 문제
    • 08장. [경진대회] 안전 운전자 예측
      • 8.1 경진대회 이해
      • 8.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 8.3 베이스라인 모델
      • 8.4 성능 개선 I : LightGBM 모델
      • 8.5 성능 개선 II : XGBoost 모델
      • 8.6 성능 개선 III : LightGBM과 XGBoost 앙상블
      • ___ 학습 마무리
    • 09장. [경진대회] 향후 판매량 예측
      • 9.1 경진대회 이해
      • 9.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 9.3 베이스라인 모델
      • 9.4 성능 개선
      • 9.5 머신러닝 경진대회를 마치며
      • ___ 학습 마무리
  • 3부. 딥러닝 문제해결
    • 10장. 다시 살펴보는 딥러닝 주요 개념
      • 10.1 인공 신경망
      • 10.2 합성곱 신경망(CNN)
      • 10.3 성능 향상을 위한 딥러닝 알고리즘
    • 11장. [경진대회] 항공 사진 내 선인장 식별
      • 11.1 경진대회 이해
      • 11.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 11.3 베이스라인 모델
      • 11.4 성능 개선
      • ____ 학습 마무리
    • 12장. [경진대회] 병든 잎사귀 식별
      • 12.1 경진대회 이해
      • 12.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 12.3 베이스라인 모델
      • 12.4 성능 개선
      • ____ 학습 마무리
      • ____ 실전 문제
    • 13장. [데이터셋] 흉부 엑스선 기반 폐렴 진단
      • 13.1 경진대회 이해
      • 13.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 13.3 베이스라인 모델
      • 13.4 성능 개선
      • ____ 학습 마무리
  • 부록 A. 캐글 생활백서
    • A.1 피처 요약표
    • A.2 메모리 절약을 위한 데이터 다운캐스팅
    • A.3 디버깅을 위한 간단한 팁
    • A.4 훈련된 모델 저장하고 불러오기

저자 소개

신백균 KAIST 산업및시스템공학과 졸업 후 한국생산성본부에서 직무교육 기획 및 운영을 담당하는 전문위원입니다. 세계 랭킹 0.18%의 캐글 노트북 엑스퍼트(Expert)이며, 월 평균 6만여 명이 방문하는 데이터 분석/머신러닝 관련 기술 블로그를 운영하고 있습니다. 참여자 1,200명 이상인 머신러닝 관련 오픈 채팅방의 운영진이기도 합니다.

블로그 https://bkshin.tistory.com


추천사

머신러닝·딥러닝 초보자

“처음부터 끝까지 하나도 버릴 것 없는 정말 알뜰한 책이란 생각이 듭니다. 이제 갓 머신러닝·딥러닝에 입문한 분들께 이 책으로 기본기를 다져보라고 무조건 추천하고 싶네요!”

이동훈 | 경북대학교 학부생

“많은 사람이 인공지능에 관심을 갖고 도전하고 있습니다. 그러나 개념과 실제 적용 사이에는 크나큰 괴리가 있어서 실전에 들어선 초심자들은 대체로 갈피를 잡지 못하고 헤매게 됩니다. 이 책은 개념과 코드 구현을 유기적으로 연결해주어 초심자도 쉽게 따라올 수 있도록 일관된 프로세스를 제시합니다. 그래서 이 책으로 기반을 닦아 여러 문제에 도전하며 실력을 향상시키다 보면, 어느새 인공지능 전문가가 되어 있을 것 같습니다.”

신원지 | 연세대학교 학부졸업생(취준생)

“요즘 정말 ‘핫’한 캐글! 하지만 머신러닝·딥러닝의 기초를 익혔다고 해도 캐글을 혼자서 정복하기란 쉽지 않은 것 같습니다. 이 책은 캐글을 아주 쉽게 익힐 수 있는 멋진 지침서입니다. 책의 내용을 하나 하나 따라가다 보면, 막막했던 캐글 경진대회도 어느새 어렵지 않게 느껴질 것입니다.”

이승엽 | 서울과학종합대학원 석사과정(AI·빅데이터 MBA)

현업 데이터 과학자, 머신러닝 엔지니어

“어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책은 수많은 캐글 대회와 솔루션을 수집/분석하여, 여러분께 체계적으로 머신러닝·딥러닝 문제를 해결할 수 있는 패턴을 제공합니다. 여러분만이 다뤄낼 수 있는 핵심에서만 새로운 방식을 시도하시고, 그 외 최적화된 공통 패턴은 이 책을 그대로 흡수하세요. 이를 토대로 여러분에게 좀 더 잘 맞는 문제해결 전략을 체득할 수 있을 것입니다.”

박찬성 | ML GDE(Google Developer Expert)

“이 책은 머신러닝 기초를 학습한 사람이 그다음 학습은 어떻게 이어가고, 프로젝트는 어떻게 진행해야 하는지를 중점적으로 다룹니다. 이는 앞으로의 머신러닝 책들이 나아가야 할 방향이기도 한 것 같습니다. 머신러닝 프로젝트를 진행하면서 온갖 난관에 부딪히며 고민하고 있는 분들께 이 책을 추천합니다.”

조성빈 | 코드스테이츠 코칭 어시스턴트

“캐글은 얻기 힘든 현실 데이터를 간접 경험할 수 있는 아주 좋은 커뮤니티입니다. 하지만 초보자 입장에서는 대회나 데이터가 너무 많아서 어떤 대회부터 참가할지 고민하게 되는데, 여기 이 책에 막 시작하려는 캐글러를 위한 ‘비밀지도’가 있습니다.”

박조은 | 오늘코드 대표(데이터 분석가)

“저는 IT 전공자이지만 머신러닝·딥러닝 기초가 없는 상태로 현업에 투입되었습니다. 어떤 분야든 뼈대부터 튼실히 갖춰야 한다는 게 저의 생각이기 때문에 ‘기초를 보다 쉽고 재미있게 배울 수는 없을까’라는 고민을 많이 해왔습니다. 이 책은 이러한 제 고민의 해결책 중 하나라고 봅니다. 책의 구성이나 예제가 뭐 하나 빠질 것 없이 마음에 듭니다. 사실 배타리딩 기간에 DACON 대회에도 참여했는데, 이 책의 도움을 많이 받았습니다. 너무 감사합니다.”

김대원 | (주)인타운 부설연구소 연구원

“사실 지금도 스크롤 압박이 거셀 만큼 매우 많은 인공지능 서적이 출간되어 있습니다. 그럼에도 이 책을 추천하는 이유는 이 책이 지닌 명확한 장점 때문입니다. 저 또한 수많은 관련 책을 탐독했지만 대부분 이론 설명과 간단한 예제로 구성되어 있습니다. 하지만 이 책은 멋진 예제와 함께 현업 엔지니어가 문제를 어떻게 접근하고 어떤 식으로 마지막까지 성능을 끌어올리는지에 대한 실무까지 겸비했습니다. 초보자는 물론이고, 머신러닝·딥러닝 개발 경력이 있는 개발자에게 오히려 더 유용한 참고서입니다.”

임은수 | ViewMagine 팀 리드

“이 책은 데이터 과학의 기술적인 측면을 학습한 이가 캐글을 통해서 그 기술을 어떻게 체계적으로 활용할지를 알려줍니다. 자신만의 분석 프로세스를 체계화해주고 실제 업무에도 적용해볼 수 있는 매력적인 책을 꼭 읽어보시길 바랍니다.”

이봉호 | 우아한형제들 데이터분석가

“실제로 캐글을 처음 접하는 분들은 대부분 캐글 노트북을 필사하는 것으로 시작합니다. 그러나 필사만 반복해서는 놓치는 부분이 생깁니다. 이 책은 프로세스와 체크리스트를 제공하여 이런 부분을 놓치지 않게 예방해주어, 초심자는 물론 이미 캐글에 익숙하신 분께도 유용합니다. 고득점자 분들도 최고득점에 도전해보시려면 이 책을 한 번 읽어보시길 추천드립니다.”

하현진 | 세이지 리서치 책임 연구원

“머신러닝·딥러닝 문제해결 프로세스를 캐글 경진대회를 통해 독자들에게 이해하기 쉽게 전달하는 탄탄한 구성이 매우 좋았습니다. 입문하려는 독자들이 흥미를 잃지 않고 문제해결 역량을 키워나갈 수 있으리라 생각합니다.”

강경수 | 삼육대학교 연구원 및 비전임 교수


Must Have 시리즈 안내

Must Have 시리즈는 내 것으로 만드는 시간을 드립니다. 명확한 학습 목표와 핵심 정리를 제공하고, 간단명료한 설명과 다양한 그림으로 학습 효과를 극대화합니다. 예제를 제공해 응용력을 키워줍니다. 할 수 있습니다. 포기는 없습니다. 지금 당장 밑줄 긋고 메모하고 타이핑하세요! Must Have가 여러분의 성장을 돕겠습니다.