Book_review

Python for Data Analysis - review

Roien 2015. 3. 10.
반응형

Python for Data Analysis - review



대학원 때 RISC CPU의 성능 측정을 위해서, OS scheduler timing 측정을 위해서그리고 최적화를 위해 hotspot을 찾기 위한 profiling 작업을 위해서 데이터를 수집하고 분석하는 일은 일상다반사 였던 기억이 난다당시에는 profiling tool 혹은 code 상에 inject 한 코드에 의해 측정한 data file로 저장하여 이를 가지고 Excel 상에서 작업을 했었다늘 항상 데이터의 수집과 분석 작업이분리되어 불편하게 이뤄졌다.

 

Python은 기본적으로 프로그래밍 언어이다데이터의 분석 작업을 프로그래밍 해서 내가 원하는 형태의 분석작업이 가능하다수집된 데이터의 분석 작업을 자동화 할 수 있는 것이다물론 이런 분석 작업의 자동화 프로그래밍은 다른 언어로도 가능하다하지만, Python Excel 보다 휠씬 더 정교하고 세련된 방법으로분석 작업을 수행할 수 있으며 사용 방법이 간단할 뿐만 아니라 이와 관련된 수 많은 library들을제공한다뿐만 아니라 분석된 데이터를 도식화 하는데 있어서 간단하며 많은 기능들을 제공하고 있다. (이는 학부 시절 신호처리를 공부할 때 사용했던 Matlab처럼쉽다라는 생각을 갖게 만들어 줬다)

 

이 책에 대해서 살펴보면, O'Reilly 출판사의 책들이 모두 그렇지만역시 겉 표지에 동물이 한 마리 그려져 있다.그려져 있는 동물은 나무두더지인데이 두더지는 잠시 멈춰 서서 상황을 분석 하려는 듯 한 느낌을 내게 줬다.이책의 제목에 포함된 'analysis'라는 단어와 상당히 어울린다는 생각이 들었다.

 

저자는 자산의 업무에서 사용할 데이터 분석용 tool로서 Python을 선택한 것 같고 수 많은 수치 데이터를 분석하면서 쌓은Python 관련 노하우를 책으로 풀어 놓고 싶어한 듯 하다.

 

이 책에서는 Python의 기본적인 사항들 보다 몇 가지 강력한 library들에 대해서 주로 설명을 한다사용자와 interactive programming 환경을 제공하는 IPython과 배열 및 벡터 계산용 library NumPy, 저자가 직접 개발한 pandas library등에 대해서집중적으로 설명한다.

 

Python의 기본적인 분석tool로서의 강력함 뿐만 아니라이 책에서 다뤄지는library들의 사용으로 통계적 데이터를 분석하는 업무가 많은 사람에게 있어서 이 책에서 다루는 모든 것들은 업무 경쟁력 향상을위해 선택이 아닌 필수로서 반드시 다뤄야 하는 내용이라는 생각을 해 본다.

반응형

댓글