추천 검색어

최근 검색어

도서 IT전문서/IT입문서 데이터베이스/데이터분석
실전 데이터 분석 with 파이썬
정 가
44,000원
출 간
2024-12-17
지 은 이
레널드 아펠신
옮 긴 이
박찬성
I S B N
9791140714315
분 량
680쪽
난 이 도
관계없음

5개의 케이스 스터디로 알아보는 실전 데이터 분석 프로젝트!

인공지능의 발전으로 데이터를 수집하고 분석하는 방법이 더욱 다양해진 지금, 이 기술들을 실무에서는 어떻게 활용하고 적용하고 있을까? 데이터 분석을 공부하고 기초를 다졌다면, 이제는 가치 있는 데이터를 가려내고 정보를 얻어낼 수 있는 실질적인 능력을 길러야 할 때이다. 이 책은 실제 데이터 분석가들이 자주 다루는 유형의 문제들을 가져와 문제를 파악하고 솔루션을 내는 과정까지 모두 살펴본다. 이러한 데이터 분석 프로젝트를 진행해보고 전체 흐름을 익힌다면 분명 앞으로 하게 될 실무에 도움이 될 것이다. 코드는 파이썬으로 이루어져 있으며, 여러 메서드를 사용하면서 결과 값이 어떻게 나오는지 직접 눈으로 확인할 수 있다. 또, 매 장마다 개념이 일목요연하게 정리되어 있어서 복습하기에도 용이하다. 깊이 있게 데이터 분석을 배우고 싶다면 당장 이 책으로 시작해 보자!

 

1부 첫 번째 사례 탐구: 카드 게임의 승리 전략 탐색

1장 파이썬으로 확률을 계산하는 방법

1.1 표본 공간 분석: 방정식 없이 결과의 불확실성을 측정하는 접근법

__1.2.1 문제 1: 네 자녀를 둔 가족 분석하기

__1.2.2 문제 2: 다면체 주사위를 굴렸을 때 분석하기

__1.2.3 문제 3: 가중된 표본 공간으로 주사위를 굴렸을 때 확률 계산하기

1.2 사소한 확률 계산 문제

1.3 구간에 대한 확률 계산

__1.3.1 구간 분석법으로 극단 평가

1.4 요약

 

2장 맷플롯립으로 확률 그래프 그리기

2.1 맷플롯립으로 그래프 그리기

2.2 동전 뒤집기 확률 그래프 그리기

__2.2.1 여러 동전 뒤집기 확률 분포도 비교하기

2.3 요약

 

3장 넘파이로 무작위 시뮬레이션 수행하기

3.1 넘파이로 무작위 동전 뒤집기와 주사위 던지기 시뮬레이션하기

__3.1.1 편향된 동전 뒤집기 분석

3.2 히스토그램과 넘파이 배열로 계산하는 신뢰 구간

__3.2.1 히스토그램 내 유사한 점들을 묶기

__3.2.2 히스토그램에서 확률 구하기

__3.2.3 고신뢰 구간의 범위 줄이기

__3.2.4 넘파이로 히스토그램 계산하기

3.3 신뢰 구간으로 편향된 카드 덱 분석하기

3.4 순열로 카드 뒤섞기

3.5 요약

 

4장 첫 번째 사례 탐구의 솔루션

4.1 뒤섞은 카드 덱에서 빨간색 카드 예측하기

__4.1.1 전략의 성공 확률 추정하기

4.2 열 장으로 구성된 카드 덱 하나에 대한 표본 공간으로 전략 최적화하기

4.3 요약

 

2부 두 번째 사례 탐구: 온라인 광고 클릭의 유의성 평가하기

5장 사이파이를 사용한 기본 확률 및 통계 분석

5.1 사이파이로 데이터와 확률 간 관계 탐색하기

5.2 중심성의 척도로서 평균

__5.2.1 확률 분포의 평균 구하기

5.3 흩어진 정도를 측정하는 분산

__5.3.1 확률 분포의 분산 구하기

 

6장 사이파이와 중심 극한 정리로 예측하기

6.1 사이파이로 정규 분포 다루기

__6.1.1 샘플링된 정규 분포 곡선 두 개 비교하기

6.2 무작위 샘플링으로 모집단의 평균 및 분산 결정하기

6.3 평균과 분산을 이용하여 예측하기

__6.3.1 정규 곡선 아래 면적 계산하기

__6.3.2 계산된 확률 해석하기

6.4 요약

 

7장 통계적 가설 검정

7.1 표본 평균과 모집단 평균 간 차이 평가하기

7.2 데이터 드레징: 오버샘플링을 이용한 잘못된 결론 도출하기

7.3 복원 추출을 이용한 부트스트랩: 모집단 분산을 알 수 없을 때 가설 테스트하기

7.4 순열 테스트: 모집단의 매개변수를 알 수 없는 경우 표본 수단 비교하기

7.5 요약

 

8장 판다스를 사용한 테이블 분석하기

8.1 기본 파이썬 기능으로 테이블 저장하기

8.2 판다스로 테이블 탐색하기

8.3 테이블의 열 가져오기

8.4 테이블의 행 가져오기

8.5 테이블의 행과 열 수정하기

8.6 테이블 데이터 저장 및 불러오기

8.7 시본으로 테이블 시각화하기

8.8 요약

 

9장 두 번째 사례 탐구의 솔루션

9.1 판다스로 광고 클릭 테이블 처리하기

9.2 평균의 차이로 p-값 계산하기

9.3 통계적 유의성 결정하기

9.4 41가지 파란색 색조: 실제 사례로 알아보는 주의 사항

9.5 요약

 

3부 세 번째 사례 탐구: 뉴스 헤드라인으로 질병 발생 추적하기

10장 데이터 그룹화하기

10.1 중심성으로 클러스터 발견하기

10.2 K-평균: 중심 그룹 K개로 데이터를 그룹화하는 클러스터링 알고리즘

__10.2.1 사이킷런을 사용한 K-평균 클러스터링

__10.2.2 엘보 방법으로 최적의 K 선택하기

10.3 밀도를 사용하여 클러스터 검색하기

10.4 DBSCAN: 공간 밀도에 따라 데이터를 그룹화하는 클러스터링 알고리즘

__10.4.1 DBSCAN과 K-평균 비교하기

__10.4.2 비유클리드 거리 기반 클러스터링

10.5 판다스로 클러스터 분석하기

10.6 요약

 

11장 지리적 위치의 시각화 및 분석

11.1 대원 거리: 지구상 두 점 사이의 거리를 계산하는 지표

11.2 카토피로 지도 시각화하기

__11.2.1 지오스 및 카토피 수동 설치하기

__11.2.2 콘다 패키지 관리자 활용

__11.2.3 지도 시각화

11.3 GeoNamesCache를 사용한 위치 추적

__11.3.1 국가 정보 접근

__11.3.2 도시 정보 접근

__11.3.3 GeoNamesCache 라이브러리의 제약

11.4 텍스트 내 지명 찾기

11.5 요약

 

12장 세 번째 사례 탐구의 솔루션

12.1 헤드라인 데이터에서 위치 추출하기

12.2 추출된 위치 데이터 시각화 및 클러스터링

12.3 위치 클러스터에서 인사이트 추출하기

12.4 요약

 

4부 네 번째 사례 탐구: 온라인 채용 공고로 데이터 과학자의 이력서 개선하기

13장 텍스트 유사성 측정

13.1 간단한 텍스트 비교

__13.1.1 자카드 유사도 탐색

__13.1.2 단어를 숫자 값으로 바꾸기

13.2 단어 수를 사용하여 텍스트 벡터화하기

__13.2.1 정규화로 TF 벡터 유사도 개선하기

__13.2.2 단위 벡터 내적으로 관련성 지표 간 변환하기

13.3 효율적인 유사도 계산을 위한 행렬 곱셈

__13.3.1 기본 행렬 연산

__13.3.2 전체 행렬에 대한 유사도 계산하기

13.4 행렬 곱셈의 계산 한계

13.5 요약

 

14장 행렬 데이터의 차원 감소

14.1 2D 데이터를 단일 차원으로 그룹화하기

__14.1.1 회전으로 차원 줄이기

14.2 PCA와 사이킷런으로 차원 감소시키기

14.3 4D 데이터를 2차원으로 그룹화하기

__14.3.1 PCA의 제한 사항

14.4 회전 없이 주성분 계산하기

14.5 SVD 및 사이킷런으로 효율적인 차원 축소하기

__14.4.1 거듭제곱 반복으로 고유 벡터 추출하기

14.6 요약

 

15장 대용량 텍스트에 대한 자연어 처리 분석

15.1 사이킷런으로 웹 토론 포럼 데이터셋 불러오기

15.2 사이킷런으로 문서 벡터화하기

15.3 게시글 빈도 및 개수로 단어의 순위 매기기

__15.3.1 사이킷런으로 TFIDF 벡터 계산하기

15.4 대규모 문서 데이터셋의 유사성 계산하기

15.5 주제별로 텍스트 그룹화하기

__15.5.1 단일 텍스트 클러스터 탐색하기

15.6 텍스트 클러스터 시각화하기

__15.6.1 하위 그래프로 여러 워드 클라우드 표시하기

15.7 요약

 

16장 웹 페이지의 텍스트 추출하기

16.1 HTML 문서 구조

16.2 BeautifulSoup으로 HTML 파싱하기

16.3 웹 데이터 내려받기 및 파싱하기

16.4 요약

 

17장 네 번째 사례 탐구의 솔루션

17.1 채용 공고 데이터에서 기술 요구 사항 추출하기

__17.1.1 기술을 설명하는 HTML 살펴보기

17.2 관련성별로 작업 필터링하기

17.3 관련 채용 공고에서 스킬 클러스터링

__17.3.1 직무 기술을 그룹 15개로 그룹화하기

__17.3.2 기술 클러스터 조사하기

__17.3.3 소프트 스킬 클러스터 조사하기

__17.3.4 다른 K 값으로 그룹 탐색하기

__17.3.5 가장 관련성이 높은 게시물 700개 분석하기

17.4 결론

17.5 요약

 

5부 다섯 번째 사례 탐구: 소셜 네트워크 데이터로 미래의 친구 관계 예측

18장 그래프 이론 및 네트워크 분석

__18.1.1 NetworkX로 웹 네트워크 분석하기

18.1 기본 그래프 이론으로 인기도별 웹 사이트 순위 지정하기

18.2 비방향성 그래프로 마을 간 이동 시간 최적화하기

__18.2.1 마을과 지역에 대한 복잡한 네트워크 모델링하기

__18.2.2 노드 간 가장 빠른 이동 시간 계산하기

18.3 요약

 

19장 노드 순위 매기기 및 소셜 네트워크 분석을 위한 동적 그래프 이론 기법

19.1 네트워크의 예상 트래픽을 기반으로 중앙 노드 발견하기

__19.1.1 교통 시뮬레이션으로 중심도 측정하기

19.2 행렬 곱셈으로 이동 확률 계산하기

__19.2.1 확률 이론으로 페이지랭크 중심성 도출하기

__19.2.2 NetworkX로 페이지랭크 중심성 계산하기

19.3 마르코프 그룹화로 커뮤니티 감지하기

19.4 소셜 네트워크에서 친구 그룹 찾기

19.5 요약

 

20장 네트워크 기반 지도 학습

20.1 지도 학습의 기본 사항

20.2 예측 레이블 정확도 측정하기

__20.2.1 사이킷런의 예측 측정 기능

20.3 KNN 성능 최적화

20.4 사이킷런으로 격자 탐색 수행하기

20.5 KNN 알고리즘의 한계

20.6 요약

21장 로지스틱 회귀로 선형 분류 모델 학습

21.1 규모별로 고객을 선형적으로 분리하기

21.2 선형 분류 모델 학습시키기

__21.2.1 표준화를 이용하여 퍼셉트론 성능 향상시키기

21.3 로지스틱 회귀를 이용한 선형 분류 개선하기

__21.3.1 특징 두 개 이상에서 로지스틱 회귀 수행하기

21.4 사이킷런을 사용하여 선형 분류 모델 학습시키기

__21.4.1 다중 클래스에 대한 선형 모델 학습시키기

21.5 계수로 특징 중요도 측정하기

21.6 선형 분류 모델의 제한 사항

21.7 요약

 

22장 의사 결정으로 비선형 분류 모델 학습

22.1 논리 규칙 자동 학습하기

__22.1.1 두 특징으로 중첩된 if/else 모델 학습시키기

__22.1.2 분할할 특징 결정하기

__22.1.3 특징 둘 이상을 다루는 if/else 모델 학습시키기

22.2 사이킷런으로 의사 결정 분류 모델 학습시키기

__22.2.1 특징 중요도를 이용한 암세포 연구하기

22.3 의사 결정 분류 모델의 제한 사항

22.4 랜덤포레스트 분류 모델로 성능 개선하기

22.5 사이킷런으로 랜덤포레스트 분류 모델 학습시키기

22.6 요약

 

23장 다섯 번째 사례 탐구의 솔루션

23.1 데이터 탐색하기

__23.1.1 프로필 살펴보기

__23.1.2 실험 관찰 결과 살펴보기

__23.1.3 친구 관계 연결 테이블 살펴보기

23.2 네트워크 특징을 사용하여 예측 모델 학습시키기

23.3 모델에 프로필 관련 특징 추가하기

23.4 안정적인 특징 집합에 대한 성능 최적화

23.5 학습된 모델 해석하기

__23.5.1 일반화 가능한 모델은 왜 중요할까요?

23.6 요약

찾아보기

 

ㆍ지은이 레널드 아펠신
소개
현재 Anomaly의 데이터 과학 책임자이다. Anomaly 이전에는 자연어 처리를 전문으로 하는 스타트업인 Primer AI에서 머신 러닝을 연구했고, 창립 멤버로서 Primer AI 팀을 4명에서 거의 100명의 직원으로 성장시키는 데 도움을 주었다. 스타트업에 진출하기 전에는 학계에서 일하면서 유전적으로 연관된 질병의 숨겨진 패턴을 발견했고, 그 내용이 사이언스 앤 네이처 저널의 자회사에 게재되었다. 카네기 멜론 대학교에서 생물학 및 컴퓨터 과학 학사 학위를, 샌프란시스코 캘리포니아 대학교에서 생물정보학 박사 학위를 취득했다. 인공지능과 머신러닝에 전문가인 엔지니어링 디렉터로, 코넬 대학교에서 컴퓨터 과학 학사, 카네기 멜런 대학교에서 로봇학 박사 학위를 받았다. 대학원 연구 시절 잠재적인 킬러 소행성을 감지하기 위한 알고리즘 개발에 참여했다. 『The CS Detective』(No Starch Press, 2016)를 저술했고, ‘Computational Fairy Tales‘ 블로그도 작성했다.

ㆍ옮긴이 박찬성
소개
지금까지 한국전자통신 연구원에서 네트워크 제어/관리/지능화 시스템을 구축하는 일을 해오고 있지만, 컴퓨터에서 일어나는 전반적인 일에 관심이 많다. 특히 최근 몇 년간은 머신러닝 모델의 라이프 사이클을 관리하고 머신러닝 시스템을 운영하는 MLOps와 더불어, 생성형 AI 모델을 튜닝하고 모델링 방법 및 운영을 위한 LLMOps 분야에도 많은 관심을 가지고, HuggingFace Fellow, Google Developers Experts 등 다양한 커뮤니티 활동을 병행하고 있다.

필요한 자료를 선택하세요.

추천도서