길벗·이지톡

도서 IT전문서/IT입문서 데이터베이스/데이터분석
정형(Tabular), 이미지(Image), 자연어텍스트(Text) 데이터로 알아보는 Kaggle 대회 공략 팁 캐글 메달리스트가 알려주는 캐글 노하우
정 가
34,000원
I S B N
9791140705290
출 간
2023-07-25
분 량
380쪽
지 은 이
김태진,권순환,김연민,김현우,명대우,안수빈,이유한,정성훈
난 이 도
관계없음

캐글, ML/AI 실무자답게 접근하라!

국내 캐글 실력자 8명이 직접 설명하는 캐글 컴페티션,

어떻게 접근해 얼마나 노력하느냐에 따라 경험의 깊이가 달라진다.


 

국내 캐글 실력자 8명이 모였다. 직접 참가한 대회를 소개하고, 시작부터 제출까지 전 과정을 생생하게 담아 냈다. 자신의 솔루션을 소개하며 자신만의 팁과 노하우를 전하고, 우승팀/고득점팀의 아이디어와 솔루션도 추가로 소개함으로써 하나의 대회에서 가능한 많은, 풍부한 인사이트를 얻을 수 있도록 구성했다. 캐글의 특징과 기능은 물론 철학과 활용법, 캐글러의 마인드를 자세히 알려주는 1장을 시작으로, 이미지 데이터를 사용하는 컴페티션, 정형 데이터를 경험할 수 있는 컴페티션, 캐글의 TPU를 사용해 자연어 처리를 하는 컴페티션, 좋은 캐글 노트북을 작성하기 위한 가이드 등을 살펴보면서 좀더 깊이 있게 캐글을 경험하는 방법에 대해 숙고해 보자.

 

목차

1장 Kaggle

__1.1 컴페티션

____1.1.1 컴페티션 파악

____1.1.2 컴페티션 선택

____1.1.3 컴페티션 종료

__1.2 초보 캐글러를 위한 컴페티션 시작 팁

____1.2.1 컴페티션이 어려운 이유

____1.2.2 컴페티션 시작

____1.2.3 컴페티션 점수에 대한 생각

__1.3 코드

____1.3.1 노트북

____1.3.2 클라우드 노트북

____1.3.3 Save Version

____1.3.4 공유

__1.4 데이터셋

____1.4.1 캐글 데이터셋

____1.4.2 데이터셋 생성

____1.4.3 데이터셋 활용

____1.4.4 공유

__1.5 디스커션

____1.5.1 디스커션 종류와 역할

____1.5.2 Thanks for sharing!

__1.6 More

____1.6.1 Progression System

____1.6.2 Learn

__1.7 이제 캐글의 세계로

 

 

2장 Instant Gratification

__2.1 들어가기 전에

____2.1.1 캐글 프로필: 김연민

____2.1.2 코드

__2.2 Overview

____2.2.1 대회 목적

____2.2.2 평가 지표

____2.2.3 데이터 소개

__2.3 솔루션 소개

____2.3.1 Overview

____2.3.2 EDA

____2.3.3 스태킹

____2.3.4 솔루션 상세

____2.3.5 제출 전략

__2.4 디스커션

 

 

3장 IEEE-CIS Fraud Detection

__3.1 들어가기 전에

____3.1.1 캐글 프로필: 김현우

____3.1.2 캐글 프로필: 정성훈

____3.1.3 코드

__3.2 Overview

____3.2.1 대회 목적

____3.2.2 평가 지표

____3.2.3 데이터 소개

__3.3 솔루션 소개

____3.3.1 Overview

____3.3.2 EDA

____3.3.3 피처 엔지니어링

____3.3.4 모델링

__3.4 다른 솔루션 소개

____3.4.1 Overview

____3.4.2 EDA

____3.4.3 피처 엔지니어링

____3.4.4 피처 선택

____3.4.5 모델링

__3.5 디스커션

 

 

4장 Quick, Draw! Doodle Recognition

__4.1 들어가기 전에

____4.1.1 캐글 프로필: 명대우

____4.1.2 코드

__4.2 Overview

____4.2.1 대회 목적

____4.2.2 평가 지표

__4.3 솔루션

____4.3.1 EDA

____4.3.2 데이터 전처리

____4.3.3 데이터 생성

____4.3.4 모델링

____4.3.5 앙상블

__4.4 다른 솔루션 소개

__4.5 디스커션

 

 

5장 Bengali.AI Handwritten Grapheme Classification

__5.1 들어가기 전에

____5.1.1 캐글 프로필: 이유한

____5.1.2 코드

__5.2 Overview

____5.2.1 대회 목적

____5.2.2 평가 지표

____5.2.3 데이터 소개

__5.3 솔루션 소개

____5.3.1 검증 전략 설정

____5.3.2 학습 전 전처리

____5.3.3 데이터셋 만들기

____5.3.4 학습

____5.3.5 데이터 증강

____5.3.6 수도 레이블링

____5.3.7 앙상블

__5.4 다른 솔루션 소개

____5.4.1 1등 솔루션

____5.4.2 2등 솔루션

__5.5 디스커션

____5.5.1 Tips

____5.5.2 후기

 

 

6장 SIIM-ACR Pneumothorax Segmentation

__6.1 들어가기 전에

____6.1.1 캐글 프로필: 권순환

____6.1.2 코드

__6.2 Overview

____6.2.1 대회 목적

____6.2.2 평가 지표

____6.2.3 데이터 소개

__6.3 솔루션 소개

____6.3.1 Object Detection, Instance/Semantic Segmentation

____6.3.2 U-Net

____6.3.3 하이퍼컬럼

____6.3.4 fast.ai 프레임워크

____6.3.5 손실 함수 정의

____6.3.6 Cyclic Learning Rates

____6.3.7 데이터 증강

____6.3.8 경량화의 중요성

____6.3.9 전체 정리

__6.4 다른 솔루션 소개

____6.4.1 Model

____6.4.2 Fast Prototyping(Uptrain)

____6.4.3 Combo loss

____6.4.4 세 개의 임곗값 활용

__6.5 디스커션

 

7장 Jigsaw Unintended Bias in Toxicity Classification

__7.1 들어가기 전에

____7.1.1 캐글 프로필: 김태진

____7.1.2 코드

__7.2 Overview

____7.2.1 대회 목적

____7.2.2 평가 지표

____7.2.3 데이터 소개

__7.3 EDA

__7.4 솔루션 소개(텐서플로, TPU)

____7.4.1 전처리

____7.4.2 모델

____7.4.3 토큰화

____7.4.4 TPU

____7.4.5 TFRecord

____7.4.6 학습 with TPU

____7.4.7 서브미션 노트북 만들기

____7.4.8 결과 제출

__7.5 솔루션 소개(Ours)

__7.6 솔루션 소개(2nd Prize)

__7.7 디스커션

 

 

8장 캐글 노트북 작성을 위한 팁

__8.1 들어가기 전에

____8.1.1 캐글 프로필: 안수빈

____8.1.2 코드

____8.1.3 8장에 대하여

__8.2 각 타입별 노트북과 작성 팁

____8.2.1 EDA

____8.2.2 전처리

____8.2.3 파이프라인

____8.2.4 고득점 노트북

____8.2.5 튜토리얼

____8.2.6 My First Notebook

__8.3 좋은 노트북을 위한 가이드라인

____8.3.1 시각화

____8.3.2 재사용성

____8.3.3 가독성

____8.3.4 SEO

____8.3.5 홍보

____8.3.6 출처

__8.4 맺음말

 

찾아보기

 

더보기접기

저자&기여자

ㆍ지은이 김태진

소개
캐글 컴페티션 엑스퍼트│두들린 ML Engineer 뻔한 레퍼토리 보다는 색다른 시도와 경험을 좋아하는 개발자. 하고 싶은 것은 많지만 정작 무엇을 하고 싶은지 말하지 못했던 대학교 시절, 학업 보다는 공모전, 해커톤 같은 대외 활동을 좋아했다. 그러던 어느날 데이터 사이언스라는 새로운 분야를 알게 되었고, 데이터 사이언스 문제가 가득한 캐글 플랫폼에 자연스레 빠지게 되었다. 캐글로부터 전세계에서 일어나는 데이터 사이언스 챌린지에 대한 배경지식, 문제를 풀어나가는 방법, 경쟁 속에서 함께 성장하는 방법을 배우게 되었고 이렇게 배운 문화와 철학을 바탕으로 현재 커뮤니티 활동과 더불어, 강의, 멘토링 등 다양한 활동을 이어가고 있다. _현) 두들린 ML Engineer _전) 번개장터 Data Scientist _부스트캠프 AI Tech 마스터(Level1 이미지분류) _캐글코리아 페이스북 그룹 운영진

ㆍ지은이 권순환

소개
캐글 컴페티션 엑스퍼트│N社 AI Research Engineer 연세대 전기전자공학부를 졸업하고, N社에서 Large Language Model, Multi-modal foundation Model 개발을 수행하고 있다. KorQuAD 2.0에서 처음으로 사람보다 뛰어난 성능을 가지는 모델을 만들어 1위를 달성하였고, 가장 큰 global 검색 벤치마크인 Microsoft Document Ranking 1위, 폐결절 판별대회인 LNDb 그랜드 챌린지 1위, NeurIPS WebQA Challenge 2위 등 다양한 경진대회 수상 경력을 가지고 있다.

ㆍ지은이 김연민

소개
캐글 컴페티션 마스터│한화정밀기계 Senior Research Engineer 전자공학을 전공하고, 반도체 장비 회사에서 AI를 적용하기 위해 노력하고 있다. Kaggle에서 도메인에 관계없이 다양한 문제를 풀어보고 있으며 많은 문제를 풀어보는 것이 AI를 공부하기 가장 좋은 방법 중 한 가지로 믿고 있다. 언젠가 Kaggle GrandMaster가 되는 것이 목표이며 제조 환경에서 어떻게 하면 AI를 잘 적용할 수 있을지 관심이 많다.

ㆍ지은이 김현우

소개
캐글 컴페티션 마스터│Upstage AI Research Engineer 부천에서 출생하여 한양대학교 산업공학과를 졸업했다. 캐글, 데이콘 및 국내 경진대회에서 활동 경험이 있으며 현재는 업스테이지에서 AI Research Engineer로 활동하고 있다.

ㆍ지은이 명대우

소개
캐글 컴페티션 마스터│마인즈앤컴퍼니 Data Scientist 삼성전자에서 영상처리 프로그램을 개발하는 SW 개발자로 일을 시작했다. 이후 전통적인 머신러닝 및 데이터 분석 업무를 담당하고, 힌튼 교수의 DBN 논문 이후부터 딥러닝을 업무에 사용했다. 캐글을 하기 전에는 머신러닝/딥러닝을 할 줄 아는 개발자에 가까웠으나, 캐글을 하면서 데이터 사이언티스트로 커리어를 전환했다. 업무는 주로 영상을 다루었지만 다른 분야에도 관심이 많아 음성, Tabular, 자연어, 강화학습 대회를 다수 참가했다. 현재는 제조, 금융, 헬스케어, 커머스 등 여러 분야의 데이터를 다루는 B2B 기업에서 다양한 모델을 개발하고 있다. _현) 마인즈앤컴퍼니 파트너 데이터사이언티스트 리더 _전) 삼성디스플레이 수석 소프트웨어엔지니어 _전) 삼성전자 책임 소프트웨어엔지니어

ㆍ지은이 안수빈

소개
캐글 노트북 그랜드마스터│Hashed Data Analyst 알고리즘이 제시하는 정답을 넘어, 사용자 경험이 핵심이라고 믿는 데이터 분석가. 기술 생태계가 커뮤니티-드리븐으로 발전할 것이라는 확신 하에, 페이스북 커뮤니티 '캐글 코리아', 'Data Visualization KR' 운영진으로서 대회 주최, 컨퍼런스 발표 등 다양한 활동을 진행했다. 현재는 Web3와 블록체인에서 파생되는 다양한 데이터에 주목하고, 그를 바탕으로 사용자 경험에 대한 리서치와 데이터 분석을 진행하고 있다. 현재 개인 블로그(ansubin.com)를 운영 중이다.

ㆍ지은이 이유한

소개
캐글 컴페티션 그랜드마스터│Kakao Brain Corp. AI Researcher 카이스트 생명화학공학과에서 분자시뮬레이션으로 물질 개발로 학위를 하던 중, 인공지능의 혁신을 보고 AI에 모든 것을 걸었다. 박사 졸업 후 한국원자력연구원에서 선임연구원으로 일하며 데이터 사이언티스트 업무를 진행했다. 이후 카카오브레인에 입사하여 라지스케일 모델링 업무를 수행하고, 현재 AI사용한 신약연구를 리딩하고 있다. 캐글 그랜드마스터이며, 캐글 관련 비영리 커뮤니티인 캐글코리아를 운영하고 있다. _현) 카카오브레인 AI 신약연구팀 AI researcher & 팀리더 _전) 한국원자력연구원 지능형컴퓨팅연구실 선임연구원

ㆍ지은이 정성훈

소개
캐글 컴페티션 마스터│KaKaoBank AI Research Engineer 유년기 시절 F1 드라이버를 꿈꿨으나 현실의 벽에 부딪쳐 공대에 진학했다. 2016년에 IT 관련 강좌를 수강하며 우연히 캐글을 접하게 되었고, 겁도 없이 GPU도 없는 4GB 램 노트북으로 대회에 참전했다. 많은 대회에 즐겁게 참가하다 보니 7년이라는 시간이 흘렀고, GPU가 있다는 그 자체에 감사하던 순수한 대학생은 어느덧 RTX 3090이 20장이 있어도 만족을 모르는 GPU 탐욕꾼이 되어 있다. 졸업 후에는 통신사에서 머신러닝/딥러닝 모델링을 개발하는 역할을 했으며, 현재는 카카오뱅크 기술연구소에서 안면인증 모델을 고도화하는 연구를 하고 있다.

도서 FAQ

  • 도서의 예제 자료가 없어요.

    안녕하세요. 길벗 출판사입니다. 

     

    이 책은 길벗 홈페이지나 길벗 깃허브에서 예제 파일을 제공하지 않습니다.

    (도서 9p에 안내된 내용 참고하시기 바랍니다)

     

    각 장의 코드는 저자의 캐글 노트북이나 깃허브로 제공되며,

    제공 링크는 각 장마다 앞부분에 안내하고 있으니, 책을 참고하여 이용 부탁드립니다.

     

    감사합니다.

보도자료

연관 프로그램

아래 프로그램은 길벗출판사가 제공하는 것이 아닙니다.
무료로 사용할 수 있는 정보를 안내해 드리니, 지원이 필요하면 해당 프로그렘 제작사로 문의해 주세요.