Cost of living 데이터

데이터 정리 및검토하기

v1? v2? 어떤 걸 활용하지?

v1 [Data_quality] 변수; 1 = 910개, 0 = 3964개

v2 [Data_quality] 변수; 1 = 923개, 0 = 4033개

변수 정리하기

cost-of-living_수정.csv

1510.8KB

변수명을 [번호. 이름]으로 수정

*음식(1~26), 담배(27) 교통수단(28~35), 공과금(36~38), 문화생활 (39~41), 교육(42~43), 의상(44~47), 주거(48~53), 수입(54~55)

이번 데이터셋은 변수가 엄청 많지는 않았지만.. 더 많을 경우에는..? 코딩을 할 줄 알았으면 쉬웠을까 ㅠ

EDA하기

월급이랑 나머지 변수 간의 상관관계 보기

https://www.heartcount.io/da/small_multiples?b=63df13cb7b3ff366117a9fb4

→ 너무 많아서 한 눈에 알아보기 어려움..

월급 percentile로 보기

(1) 0-20th

→ 크게 눈에 띄는 상관관계에 있는 변수가 없음

→ 그나마 높은 ‘유치원 비용’과 시각화 해봄 (하위그룹으로 국가 지정)

→ 이상치?로 보이는 두 개의 점을 제외하면 상관계수가 올라감

→ 수익이 높아지면서 유치원 교육비는 낮은 경우, NGO 같은 단체로부터 도움을 받는 국가가 많았음 (무상 교육 지원)

→ 다른 방식 시각화

→ 그외 이유로 스리랑카의 경우 교육 복지가 잘 되어 있음

스리랑카 교육

스리랑카 교육제도는 영국식 교육제도의 영향을 받아, 일반교육 1학년~13학년, 고등교육인 대학 및 직업훈련 교육으로 구별된다. 우리나라의 초·중·고에 해당하는 일반교육은 초등 5학년과 중등 6학년~13학년으로 구성된다. 초등(Primary) 교육은 공립학교의 경우 만 6세 아동부터 시작하며, 일부 사립학교는 만 5세에 시작된다. 중등(Secondary) 교육은 주니어 중등(Junior Secondary) 6학년~9학년과 시니어 중등(Senior Secondary) 10학년~13학년으로 구성된다.

https://terms.naver.com/entry.naver?docId=6545449&cid=40942&categoryId=31643

즉, GDP는 낮지만 국가의 교육 관련 복지가 잘 되어 있거나 주변국가의 도움이 있는 경우 유치원 비용이 적게 들었음

(2) 20-40th > 실수로 Y축에 inexpensive restaurant를 넣음..

→ 상관관계가 높은 것들은 대체로 식음료였으며, 그 중에서도 레스토랑에서 사 먹는 물과 콜라가 높았음 (레스토랑의 물과 콜라가 비싸서 일까?)

→ 재밌는 건 레스토랑에서 먹는 경우를 제외한 주류의 경우 약하지만 음의 상관관계를 보였음

임금의 전체 구간에서 큰 상관관계를 가진 변수가 보이지 않음.. 다시 필터를 풀어 전체 구간으로 보기로 함

(3) 전체 임금 구간

→ 임금 변수를 제외한 나머지 수치형 변수는 총 53개, 상관관계가 높은 순서대로 몇 가지를 살펴 보겠음

→ 음의 상관관계인 변수는 없었음

→ 상위 10

•

레스토랑에서 사 먹는 물 330 (0.58) 
> 임금이 높을수록 분포가 넓음
> 임금은 낮은데 유난히 물이 비싼 국가는 다 남미 혹은 인근에 속한 국가였음

•

레스토랑에서 사 먹는 콜라 330 (0.53)

•

영화 (0.5)

•

중간 수준 레스토랑의 2명 금액 (0.5)

•

비싸지 않은 레스토랑 (0.5)

•

가솔린 (0.49)

•

청바지 (0.48)

•

일회용 대중교통 티켓 (0.47)

•

택시 기본 금액 (0.47)
> [80-100th] 퀴라소: 택시로만 이동할 수 있는 장소가 많아서 매우 비싼 듯
> [80-100th] 그 밖에 이탈리아 국가, 이어서 몰타 국가가 상위 차지. 
> [40-60th] 세인트빈센트 그레나딘, 돈 많은 귀족이나 유명 스타들이 많이 방문하는 여행지
> 즉 관광객이 많은 경우에 택시비가 비싼 편인 것으로 보임(추측)

•

계란 (0.46)