home

Cost of living 데이터

데이터 정리 및검토하기

v1? v2? 어떤 걸 활용하지?

v1 [Data_quality] 변수; 1 = 910개, 0 = 3964개
v2 [Data_quality] 변수; 1 = 923개, 0 = 4033개

변수 정리하기

cost-of-living_수정.csv
1510.8KB
변수명을 [번호. 이름]으로 수정
*음식(1~26), 담배(27) 교통수단(28~35), 공과금(36~38), 문화생활 (39~41), 교육(42~43), 의상(44~47), 주거(48~53), 수입(54~55)
이번 데이터셋은 변수가 엄청 많지는 않았지만.. 더 많을 경우에는..? 코딩을 할 줄 알았으면 쉬웠을까 ㅠ

EDA하기

월급이랑 나머지 변수 간의 상관관계 보기

→ 너무 많아서 한 눈에 알아보기 어려움..

월급 percentile로 보기

(1) 0-20th
→ 크게 눈에 띄는 상관관계에 있는 변수가 없음
→ 이상치?로 보이는 두 개의 점을 제외하면 상관계수가 올라감
→ 수익이 높아지면서 유치원 교육비는 낮은 경우, NGO 같은 단체로부터 도움을 받는 국가가 많았음 (무상 교육 지원)
→ 다른 방식 시각화
→ 그외 이유로 스리랑카의 경우 교육 복지가 잘 되어 있음
즉, GDP는 낮지만 국가의 교육 관련 복지가 잘 되어 있거나 주변국가의 도움이 있는 경우 유치원 비용이 적게 들었음
(2) 20-40th > 실수로 Y축에 inexpensive restaurant를 넣음..
→ 상관관계가 높은 것들은 대체로 식음료였으며, 그 중에서도 레스토랑에서 사 먹는 물과 콜라가 높았음 (레스토랑의 물과 콜라가 비싸서 일까?)
→ 재밌는 건 레스토랑에서 먹는 경우를 제외한 주류의 경우 약하지만 음의 상관관계를 보였음
임금의 전체 구간에서 큰 상관관계를 가진 변수가 보이지 않음.. 다시 필터를 풀어 전체 구간으로 보기로 함
→ 임금 변수를 제외한 나머지 수치형 변수는 총 53개, 상관관계가 높은 순서대로 몇 가지를 살펴 보겠음
→ 음의 상관관계인 변수는 없었음
→ 상위 10
레스토랑에서 사 먹는 물 330 (0.58) > 임금이 높을수록 분포가 넓음 > 임금은 낮은데 유난히 물이 비싼 국가는 다 남미 혹은 인근에 속한 국가였음
레스토랑에서 사 먹는 콜라 330 (0.53)
영화 (0.5)
중간 수준 레스토랑의 2명 금액 (0.5)
비싸지 않은 레스토랑 (0.5)
가솔린 (0.49)
청바지 (0.48)
일회용 대중교통 티켓 (0.47)
택시 기본 금액 (0.47) > [80-100th] 퀴라소: 택시로만 이동할 수 있는 장소가 많아서 매우 비싼 듯 > [80-100th] 그 밖에 이탈리아 국가, 이어서 몰타 국가가 상위 차지. > [40-60th] 세인트빈센트 그레나딘, 돈 많은 귀족이나 유명 스타들이 많이 방문하는 여행지 > 즉 관광객이 많은 경우에 택시비가 비싼 편인 것으로 보임(추측)
계란 (0.46)