본문 바로가기

프로그래밍/Python

국가통계포털 csv를 colab에서 작업하기, 한글 깨질때 해결

먼저 국가 통계포털에서 한 정보를 선택해 갖고온다. 나는 하위 링크에 있는 정보를 선택했다.

kosis.kr/statisticsList/statisticsListIndex.do?menuId=M_01_01&vwcd=MT_ZTITLE&parmTabId=M_01_01#SelectStatsBoxDiv

 

KOSIS 국가통계포털

통계목록검색 통계목록검색 통계목록검색 통계표명검색 검색어입력 검색 전체목록받기 부분목록받기 처리중입니다. 잠시만 기다려 주세요.

kosis.kr

그리고 여기서 오른쪽 위에 보면 다운로드 버튼이 있는데 csv 형태로 다운로드 받아주었다.

코랩에 가서 로컬에 저장한 csv 데이터셋을 업로드 해야 한다. 밑에 코드를 치면 파일 선택이라는 버튼이 나온다. 여기서 파일을 선택하고 업로드 해준다.

from google.colab import files
uploaded = files.upload()

 

그리고 밑에 pandas, numpy, stats를 임포트 해준다.

uploaded안에는 위에서 선택한 csv의 이름을 넣어준다. 원래 여기까지만 했는데 아예 빨간줄이 뜨면서

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

에러가 나왔다. 그래서 구글링을 하다가 밑에서럼 인코딩을 CP949로 바꿔주니 한글이 나온다. 국가정보통계에서는 다른 인코딩을 쓰면 한글이 깨지니 꼭 CP949를 쓰도록 하자.

import pandas as pd
import numpy as np
from scipy import stats

import io
df = pd.read_csv(io.BytesIO(uploaded['20210106.csv']), encoding = "CP949", engine='python')
df