빌노트의 노트

처음 배우는 데이터 과학 책 리뷰 본문

IT책

처음 배우는 데이터 과학 책 리뷰

빌노트 2020. 12. 20. 20:24
반응형

컴퓨터로 데이터 다루는데 관심이 많아 책을 한 권 봤습니다. ‘처음 배우는 데이터 과학’이라는 책인데 목차만 봐도 데이터 과학에 필요한 다양한(폭넓은) 내용에 압도되는 그런 책입니다. 컴퓨터로 데이터를 다루는 거의 모든 분야(빅데이터, 머신러닝, 딥러닝 등)를 다루는 책입니다. 이 책의 특징을 책 표지가 잘 설명해주고 있습니다. 

통계, 수학, 머신러닝, 프로그래밍까지 
데이터 과학자를 꿈꾸는 히치하이커를  
위한 최고의 안내서

이 책에도 데이터 과학자가 뭔지 설명하지만 제 생각으론 컴퓨터로 통계를 좀 더 잘하려고 노력하다 보니 데이터 과학으로 발전한 게 아닌가 싶네요. 물론 최근에 급격하게 늘어나는 데이터(빅데이터)가 이 분야를 급격하게 발전시키고 있는 것 같습니다. 

 

엄청난 양의 데이터를 사람이 직접 처리할 수는 없기 때문에 데이터 과학에서 코딩은 필수라고 말합니다. 저자는 다른 프로그래밍 언어도 많지만 파이썬을 강력하게 추천하고 있습니다. 추천에서 끝나는 게 아니라 파이썬 기초를 설명해주고 이 책에 등장하는 거의 모든 이론을 파이썬 코드로 보여주고 있습니다. 

 

이 책은 우선 데이터를 다듬는 방법부터 설명합니다. 먼저 눈으로 데이터를 보면서 문제가 없는지 살펴본 후 프로그래밍으로 쓸모있게 변경하는 작업입니다. 아무리 통계, 머신러닝, 딥러닝을 할 수 있어도 데이터에 문제가 있으면 그 결과값도 의미가 없기 때문에 이 부분부터 잘 배워야겠습니다. 

데이터를 나름 심도있게 다루는 책이라 그런지 (이런 것까지 알아야 하는 소리가 절로 나오는) 복잡한 수학공식, 코드도 다소 포함되어 있습니다. 모두 다 이해하면 좋겠지만 왜 쓰는지 이유만 알아도 초보에게는 큰 문제가 될 것 같지 않습니다. 이 분야 박사가 되는 게 목표가 아니라 데이터 잘 다루는 게 중요하기 때문에 그 정도로도 충분하다 생각합니다. 

다루는 내용이 방대한 만큼 여기서 사용되는 라이브러리, 프레임워크도 다양합니다. 예로 빅데이터에서는 하둡, 스파크를 만지고, 딥러닝에서는 (텐서플로보다 쉬운) 케라스를 다루는 식입니다. (메모리를 다룰 때는 심지어 C언어까지 만날 수 있습니다.) 분야별로 좀 더 깊게 공부하기 위해서는 전문적인 책이나 구글링을 하면 될 것 같습니다. 

 

데이터 과학 책이 다소 답답할 수 있는데 이 책은 중간 중간 내용은 쉽지만 알고 보면 더 중요한 꿀팁을 넣어서 긴장을 푸는데 도움을 줍니다. 예를 들면 의사소통, 문서화 같은 내용이나 좋은 프로그래밍 습관 같은 내용이 그렇습니다. 

 

처음 배우는 데이터 과학. 이 책을 보면서 오랜만에 컴퓨터 분야에서 참 좋은 책을 만났다는 생각이 들었습니다. 컴퓨터로 좀 더 체계적으로 데이터를 만지고 싶다는 생각이 들었는데 이 책이 그 욕구를 완벽히! 충족시켜주었습니다. 프로그래밍으로 데이터를 다듬는 작업부터 시작해서 통계, 빅데이터, 머신러닝, 딥러닝 등 데이터 과학에 필요한 거의 모든 분야를 입문할 수 있었습니다. 이 책을 뿌리, 줄기로 다양한 가지를 찾아서 공부한다면 멋진 데이터 과학자가 될 것 같습니다. 데이터 과학 분야가 너무 폭넓어 시간은 좀 오래 걸리겠지만 도전할 가치가 있다고 생각합니다.

반응형
0 Comments
댓글쓰기 폼