For Original Post(원글) see: http://twiecki.github.io/blog/2014/11/18/python-for-data-science/#comment-2369025394
Python으로 데이터 를 다루는 기술들을 배우는데 있어 정말 유용한 블로그가 있어 번역을 해 보았습니다.
"이 분야를 배울 때는 배우려는 목적에 따라서 이 순서대로 배우면 돼! 그리고 제일 중요한 부분은 이 부분이니깐 이 부분만 알아도 문제 없을꺼야"
저는 개인적으로 새로운 것을 배울 때 위 와 같은 말을 듣고 싶었는데 그렇게 얘기 해주네요.
영어+한글, 한글 따로 적어 두었습니다.
영어+한글: http://stackrefactoring.blogspot.kr/2015/11/eka-modern-guide-to-getting-started.html
한글: http://stackrefactoring.blogspot.kr/2015/11/ka-modern-guide-to-getting-started-with.html
======
A modern guide to getting started with Data Science and Python
데이터 사이언스와 관련된 파이썬을 시작하기 위한 최신 가이드(글 게시일 2014 11/18)파이썬은 풍부하고 건강한 데이터 사이언스 툴 환경이다. 불행하게도, 이 환경의 밖에서 보는 사람들에게는 정글처럼 보일 수도 있다. 이 블로그에서는 이 PyData(역자주>보통 data management, processing, analytics, and visualization. 을 얘기하는 python을 사용한 데이터를 다루는 것을 의미)에 단계별로 접근할 수 있는 가이드를 제공하려고 한다.
현존하고 있는 PyData 패키지 들에 무슨 문제가 있는지 물어볼 수 있다. 너무 많은 선택권과 정보를 주는 것은 초보자가 파악하기 어렵게 되기 쉽다고 생각한다. 그래서 나는 10%의 정보를 제공하여 접근이 쉽게 만들되, 그 10%로 90%의 일을 커버할 수 있는 core 를 소개하려고 한다. 이 10%의 기초적이지만 필수적인 것들만 마스터 하고 나면 그 다음은 당신이 가고자 하는 방향(다른 기법들)으로 가면 된다.
좋은 것은 내가 소개할 10%는 정말 데이터 사이언스의 많은 부분을 할 수 있을거라는 사실이다.
Installation
나에게 종종 사람들이 찾아와서, "파이썬이 데이터 사이언스(역자주>PyData와 같은 의미라고 이해)에 정말 유용하다는걸 많이 들어서 시작해 보았지만 첫 이틀은 파이썬 설치하는데 시간을 보내버렸어요" 라고 한다.파이썬을 이용하고 싶으니 파이썬을 직접 설치하는 것은 의미 있는 일이지만, 실제 필요하지 않을 것 까지 포함한 PyData의 full package 를 설치하는 것은 비 효율적인 일이다. 그래서 나는 full package 설치하는 것을 반대한다.
운이 좋게도, Continuum 의 괜찮은 사람들이 기본적인 PyData가 모두 깔려있는 Anaconda Python distribution 을 만들어 놓았다.
그리고 Anaconda Python distribution 에 깔려있지 않은 module 들도 GUI 를 통해서 쉽게 설치할 수 있다. 그리고 모든 platform에 돌아갈 수도 있어서 당신의 이틀을 save 해 줄 것이다.
IPython Notebook
파이썬을 설치하고 난 이후에, 다수의 사람들이 바로 설치를 한다.아주 당연하지만 불행하게도 완전히 잘못된 것이다.
나는 파이선의 커맨드셸을 바로 이용하는 사람을 한명도(역자주>SciPythonista는 파이썬을 사용하는 사람, 셸은 Interface라고 이해, command shell은 커맨드 명령 화면) 알지 못한다.
대신에 사용할 수 있는, IPython과 IPython Notebook은 PyData를 다룰 때 쓰는 정말 강력한 파이선 셸이다.
나는 당신에게 IPython Notebook을 바로 사용하라고 얘기하고 싶다. 그와 관련하여 어떤 의문도 품지 않아도 된다, 후회하지 않을 것이다.
간략하게 설명하면, IPython Notebook은 웹 브라우저를 통하여 Python Shell이다.
IPyhon Notebook은 코드, 글자 그리고 여러 그림들을 쓸 수 있게 한다.(입출력 까지도 가능하게 한다.)
이 블로그는 IPyNB으로 쓰여 졌으며, Python 컨퍼런스에 가 보면 IPython Notebook으로 발표하지 않는 세션은 없을 정도로 널리 사용되고 있다.
Anaconda를 깔면 같이 깔리는 것이기 때문에 당신은 사용만 하면 된다. 여기 그 사용 예를 적어 놓았다.
In [1]:
print('Hello World')
이 것은 rocket 이다 -- 컨퍼런스에서 core devs 들의 새로운 것들에 대한 이야기를 들을 때마다 난 정말 놀란다.
앞선 기능들에 대한 아이디어를 듣기 위하여, 아래의 IPython Widget 들에 대한 튜토리얼을 들어 보아라.
이 튜토리얼은 plot 그리는 것에 대한 능력을 얻을 수 있을 것이다.
In [1]:
from IPython.display import YouTubeVideo
YouTubeVideo('wxVx54ax47s') # Yes, it can also embed youtube videos.
Out[1]:
Pandas
보통, 사람들은 당신에게 다차원 배열을 제공해 주는 Numpy부터 배우라고 얘기한다(넘파이 이다. 넘피가 아니라!)
분명히 몇년 전에는 맞는 방법이었지만 요즘에 나는 Numpy를 거의 사용하지 않는다.
왜냐하면 Numpy는 더 발전된 인터페이스를 가지는 라이브러리들에서 사용되는 core 라이브러리가 되었기 때문이다.
그래서 그 최신 라이브러리는 Pandas이다.
Pandas는 거의 모든 종류의 인풋 아웃풋(데이터 베이스 포함)을 지원한다.SQL-like 함수들, 없는 값들을 다루는 것들, 시간순서데이터, 기본 plot그리기, 기본 통계 기능들 등등.
이 기능들을 배우려고 하면 시간이 꽤 걸리긴 한다. 나는 다음 문서들을 먼저 배우라고 권하고 싶다.
이 것들에 시간투자를 하면 데이터를 다루는데 있어 훨씬 효율적이 될 것이다. 나를 믿어도 좋다! 여기 몇가지 트릭들이 있다.
In [18]:
import pandas as pd
df = pd.DataFrame({ 'A' : 1.,
'B' : pd.Timestamp('20130102'),
'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
'D' : pd.Series([1, 2, 1, 2], dtype='int32'),
'E' : pd.Categorical(["test", "train", "test", "train"]),
'F' : 'foo' })
E 라는 그룹에 있는 D 컬럼의 값들을 더할 때:
In [21]:
df.groupby('E').sum().D
Out[21]:
이와 비슷한 예제들이 정말 많다. 그래도 확신을 가지지 못하겠다면, 이 문서를 또 보아라.
Seaborn
파이썬에서 그림 그리는 main 라이브러리는 Matplotlib 이다.
하지만 Numpy를 권장하지 않았던 동일한 이유로 Matplotlib를 권장하지 않는다.
Matplotlib는 정말 파워풀 하지만 꽤나 복잡하고 까다로운 것이 있어 plot이 깔끔하게 보이기 어렵다.
그래서 나는 Seaborn을 사용하라고 권장한다.
Seaborn은 Matplotlib를 core library로 사용한다.(pandas가 Numpy에게 했던 것처럼)
Seaborn의 장점을 간략하게 적어 보면:
- creates aesthetically pleasing plots by default (for one thing, it does not default to the jet colormap),
- creates statistically meaningful plots, and
- understands the
pandas
DataFrame
so the two work well together.
2. 통계적으로 의미있는 그림들을 그려낼 수 있다.
3. Pandas 를 잘 이해하면 두 library를 잘 조합해서 사용할 수 있다.
Statistically meaningful plots
In [5]:
%matplotlib inline # IPython magic to create plots within cells
In [7]:
import seaborn as sns
# Load one of the data sets that come with seaborn
tips = sns.load_dataset("tips")
sns.jointplot("total_bill", "tip", tips, kind='reg');
보여지는 것처럼, 하나의 라인을 사용했을 뿐인데 꽤나 복잡한 통계적인 plot이 선형회귀선과 신뢰구간, 한계, 상관계수를 나타내었다.
이런 plot을 matplotlib를 사용해서 재현해 내려면 선형회귀 관련 scipy를 불러내는 등 (어지러운)코드가 꽤나 필요할 것이다. 이 것과 다음 예시는 the tutorial on quantitative linear models 에서 가지고 왔다.
Works well with Pandas
데이터는 구조를 가지고 있다. 종종 데이터들 자체는 그룹이나 카테고리같은 구조를 지니고 있다.(pandas 의 groupby 함수가 여기에 딱 맞는 기능을 가지고 있습니다). 예를 들자면, tip 관련된 데이터가 있는데
이런 plot을 matplotlib를 사용해서 재현해 내려면 선형회귀 관련 scipy를 불러내는 등 (어지러운)코드가 꽤나 필요할 것이다. 이 것과 다음 예시는 the tutorial on quantitative linear models 에서 가지고 왔다.
Works well with Pandas DataFrame
데이터는 구조를 가지고 있다. 종종 데이터들 자체는 그룹이나 카테고리같은 구조를 지니고 있다.(pandas 의 groupby 함수가 여기에 딱 맞는 기능을 가지고 있습니다). 예를 들자면, tip 관련된 데이터가 있는데
In [9]:
tips.head()
Out[9]:
In [11]:
sns.lmplot("total_bill", "tip", tips, col="smoker");
더 깊이 들어가면 어떤 특정한 상황에서 더 세부적인 plot을 그리고 싶을 것이다. seaborn 라이브러리는 matlablib 를 불러서 추가적인 작업을 더 해줄 뿐이지만 대부분의 경우에 나는 seaborn이 제공해 주는것에 꽤나 만족할 수 있었다.
Conclusions
이 블로그 포스트는 Python 으로 Data Science 를 시작하려고 할 때 가장 효율적으로 공부할 수 있도록 최소한의 package를 제공하는 것을 목적으로 하였다.Further reading
- 파이선의 과학 프로그래밍 리소스들 -- 종합적인 안목을 주는 모듈들 이다.
- 데이터 분석을 위한 파이썬 -- 파이썬 pandas 라이브러리을 만든사람의 책.
- 데이터 과학을 마스터 하기위한 오픈소스 커리큘럼 -- 정말 다양하고 유용한 자료들.