먼저 국가 통계포털에서 한 정보를 선택해 갖고온다. 나는 하위 링크에 있는 정보를 선택했다.
그리고 여기서 오른쪽 위에 보면 다운로드 버튼이 있는데 csv 형태로 다운로드 받아주었다.
코랩에 가서 로컬에 저장한 csv 데이터셋을 업로드 해야 한다. 밑에 코드를 치면 파일 선택이라는 버튼이 나온다. 여기서 파일을 선택하고 업로드 해준다.
from google.colab import files
uploaded = files.upload()
그리고 밑에 pandas, numpy, stats를 임포트 해준다.
uploaded안에는 위에서 선택한 csv의 이름을 넣어준다. 원래 여기까지만 했는데 아예 빨간줄이 뜨면서
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte
에러가 나왔다. 그래서 구글링을 하다가 밑에서럼 인코딩을 CP949로 바꿔주니 한글이 나온다. 국가정보통계에서는 다른 인코딩을 쓰면 한글이 깨지니 꼭 CP949를 쓰도록 하자.
import pandas as pd
import numpy as np
from scipy import stats
import io
df = pd.read_csv(io.BytesIO(uploaded['20210106.csv']), encoding = "CP949", engine='python')
df
'프로그래밍 > Python' 카테고리의 다른 글
파이썬으로 인스타그램 좋아요 프로그램 만들기(1) selenium으로 연 크롬창이 자동으로 닫힐 때 해결 법 (5) | 2020.12.21 |
---|---|
맥에서 Django 프로젝트 생성 (0) | 2020.09.07 |
pyCharm 파이참에서 터틀창이 바로 닫힐 때 쓰는 명령어 (0) | 2019.05.22 |