데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다.

뭐가 있어야 이래저래 갖고놀지..


개발 환경

  • 실습에 앞서 개발환경은 구글 코랩을 사용한다.

코랩이란?

https://colab.research.google.com

구글에서 만든 연구용 서비스 제품이며, Jupyter를 기반으로 만들어진 웹용 서비스이다.
대체적으로 기본적인 라이브러리가 내장되어있어 사용하기 간편하다는 장점을 갖고있다.


데이터셋 불러오기

실습에 사용된 데이터는 공공데이터를 위주로 사용할것이다.

가장먼저 코랩에 내장되어있는 라이브러리인 판다스를 사용하기위해 선언을 해주어야한다.


import pandas as pd

pandas 를 불러오는데 이를 축약하여 pd 라고 칭하겠다는 의미를 말한다.



pd.read_csv('/content/규모별_미분양현황_20220405003451.csv', encoding='cp949')

csv 파일을 불러오기에 가장 간단한 방법은 코랩에 파일업로드를 하여 read_csv 를 통해 불러오는것이다.

encoding=’cp949’ 옵션

공공데이터들을 한글로 작성된 파일로 불러들이는데 있어 오류가 있어 변환을 해주어야 한다고 하는데

이 부분에 대해서는 추후에 자세히 알아보도록 하겠다.

위 명령어를 실행시키게 되면 아래와 같이 데이터를 불러올 수 있다.

위에서는 파일이 들어있는 경로를 괄호 안에 넣어주었지만,

이를 먼저 변수에 담아주어 간단하게 작성하는 방법도 있다.

이 방법은 여러 데이터파일을 불러올때 사용하면 좋을것 같다.