Intro
중랑구 신내동을 가본적이 있으신가요? 강동구 토박이였던 저는 사실 성북구까지가 북방이동한계선이었습니다. 데이터셋을 가지고 신내동을 탐험할 준비를 합니다. 동네 탐험이라면 맛집 기행이 제일이죠. 중랑구 신내동에는 어떤 식당이 제일 잘되고 있을까요?
그래서 저에게 들어온 유수의 통신회사에서 돈 주고 파는 상권분석 데이터를 가지고 약간의 데이터 클리닝을 거쳐 하트카운트로 분석해 보았습니다. 근데 처음부터 뭐가 좀 이상하네요.
중랑구 신내동의 숨은 강자는 떡볶이집이라고?
그래서 신내동에서 가장 잘 나가는 맛집은 어딜까 봤습니다. 그랬더니 딱 4개밖에 없는 기타외식점이 압도적입니다. 평균매출이 2019년 7월 매출이 50억이 넘는다니 도대체 기타외식점들이 어디인가요?
궁금해진 저는 드릴다운메뉴를 이용해서 신내동의 강자를 찾습니다. 우리동네미미네가 무려 한달에 100억을 번다고요? 그런데 상호만 가지고 우리동네미미는 도대체 뭐를 파는지 알 수가 없습니다. 그리고 한달 매출이 2천3백만인 리얼안심탕수육은 중식에 분류되어야 하는 거 아닌가요? 그리고 원래 사업체수가 4개였는데 왜 달랑 2개만 나오죠? 머리가 아파오기 시작합니다.
원본데이터를 봅니다. 우선 예상매출액이 나온건 2개 사업체 뿐이군요. 609개중 32개가 자료가 없네요. 10% 안쪽이니 넘어가도록 합니다.
리얼안심탕수육은 데이터 분류가 잘못된 것이라고 자의적으로 판단하여 중식으로 원본데이터를 수정하지 않기로 합니다. 정통중식이 아니면 중식이 아니라는 주인장의 의지가 반영된 것이라 믿기로 하겠습니다.
그러면 도대체 우리동네미미네는 뭘 파는 걸까요?
떡볶이 입니다.
떡볶이를 팔면 한달 매출 100억가능한데 지금이라도 진로변경을 해야할까요?
그리고 떡볶이집이면 공정위업종분류 중 분식이어야 하는 거 아닐까요?
마음을 진정하고 중랑구 신내동의 맛집 매출 강자들을 찾아봅니다.
봉자족발은 무려 180억입니다. 다시 원본 자료를 확인합니다. 분명 한달 매출입니다.
제가 이상한 건가요. 원래 다들 이렇게 버시는 건가요. 게다가 순대국/해장국집들은 예상매출액이 끝자리까지 똑같네요. 아무리 추정치라 해도 다 월매출이 6억이라니. 도대체 중랑구 신내동에서 무슨일이 벌어지고 있는 것일까요.
아래를 보시면 우리동네미미 때문에 그래프 한쪽이 쭉 나와있습니다. 분식집 한달 예상매출액 평균은 3백만원이 안됩니다.
Dataset
: 중랑구 신내동에서 2019년 7월에 통신사를 통해 수집된 유료 자료 샘플입니다.
데이터를 HeartCount를 통해 분석해보겠습니다.
분석에 사용한 데이터는 총 581개의 변수들로 구성되어 있으며 크게 다음과 같은 정보를 가지고 있습니다. 또한 하트카운트 이용을 위해 변수를 300개 이하로 줄였습니다. 데이터 주인에게 물어보니 데이터를 과제를 위해 사용하는 것은 가능하지만 데이터를 작성한 회사이름이 나오면 안된다고 하네요. 혹시 더 문의가 있으신 분들은 저에게 따로 연락을 부탁드립니다.
•
"건물 정보 및 사업체 정보"
•
"업종별 사업체 수"
•
"건물 세부 정보 및 교통정보"
•
"건물 배후지 내 해당 시설 수"
•
"업종별 거리 내 사업체 및 시설 수"
•
"업종별 배후지 내 사업체 수"
•
"배후지 영역별 성별 유동인구 수"
•
"배후지 영역별 시간대별 유동인구 수"
•
"배후지 영역별 요일별 유동인구 수"
•
"배후지 영역별 연령대별 유동인구 수"
•
"배후지 영역별 성별 주재인구 수"
•
"배후지 영역별 시간대별 주재인구 수"
•
"배후지 영역별 요일별 주재인구 수"
•
"배후지 영역별 연령대별 주재인구 수"
•
"배후지 영역별 성별 보행인구 수"
•
"배후지 영역별 시간대별 보행인구 수"
•
"배후지 영역별 요일별 보행인구 수"
•
"배후지 영역별 연령대별 보행인구 수"
•
"배후지 영역별 성별/연령대별 주간상주인구 수"
•
"배후지 영역별 성별/연령대별 야간상주인구 수"
•
상권영역
•
좌표
•
예상매출
그런데 이 자료 진짜 사용해도 되는건가요? 저에게 들어온 자료에 따르면 중랑구 신내동 한식 사업체 월매출 평균이 3억이네요. 진짜 원래 이런가요? 못 믿겠어서 다른 통계를 봤습니다. 매출이 5억이 넘는 요식업체들이 분명 있지만 이건 연매출입니다. 이 상황에서 데이터 분석을 더 하는게 과연 의미가 있을지 걱정이 됩니다. 아웃라이어를 제거 한다고 해도 여기에 아웃라이어가 좀 많은 거 같습니다. 한국 유수의 기업의 유료자료이니 눈을 딱 감고 분석해보기로 합니다.
Analysis in Heartcount
Small Multiples:
분석 결과 해석
상관계수의 절대값 크기 기준으로 상위 네가지를 살펴보면:
1위: “지하철역수: 건물 배후지 영역 내 지하철역 수”와 가장 큰 양의 상관관계 (+0.21)
2위: “안경_1: 건물 배후지 영역 내 안경 업종 사업체 수.”와 다음으로 큰 음의 상관관계 (-0.17)
3위: “농수산물: 건물 배후지 영역 내 농수산물 업종 사업체 수.”와 음의 상관관계 (-0.16)
4위: “부동산 중개: 건물 배후지 영역 내 부동산 중개 업종 사업체 수.”와 양의 상관관계 (0.16)
(첫번째 분석에서 1위: “지하철역수: 건물 배후지 영역 내 지하철역 수”와 가장 큰 양의 상관관계 (+0.21)를 보여 자세히 살펴보니 한 가게에 지하철역 수가 668개가 입력되어 있는 것을 발견하여 처음부터 다시 시작합니다. 이 데이터를 계속 써야 하는지 무척 회의가 들었으나 얼마나 이 데이터셋이 엉터리 인지 데이터 주신 분에게 알리기 위해 그냥 하기로 했습니다)
관계분석: Driver
분석 결과 해석
•
자세한 내용은 아래 익스플레이너에 있습니다.
•
개별변수의 중요도에 따른 회귀분석 결과 순위를 보면 Small Multiples 화면에서 살펴본 상관관계의 크기 순서와 다르게 나오는 걸 확인할 수 있습니다. 하지만, 지하철역수나 안경 사업체 수는 관계분석 결과 테이블 뒤에 나왔습니다.
익스플레이너
개발상권_소와 공정위업종중분류명칭이 함께 첫번째 설명력을 가지고 있으며 예상매출액 차이(변화량)의 29.47%를 설명할 수 있습니다.
•
예상매출액이 평균보다 높았던 조건들:
◦
[ 개발상권_소 : 기타지역 ]이고 [ 공정위업종중분류명칭 : 기타 외식 ]인 경우 예상매출액 평균값이 10,164,692,500로 전체 평균(149,975,288.15)보다 10,014,717,211.85만큼 높았습니다.
월 매출 100억이 넘는다는 우리동네미미네 떡볶이가게가 가져온 왜곡된 결론인 것 같습니다.
◦
[ 개발상권_소 : 기타지역 ]이고 [ 공정위업종중분류명칭 : 한식 ]인 경우 예상매출액 평균값이 9,940,687,166.67로 전체 평균(149,975,288.15)보다 9,790,711,878.52만큼 높았습니다.
•
예상매출액이 평균보다 낮았던 조건들:
◦
[ 개발상권_소 : 문화공공 ]이고 [ 공정위업종중분류명칭 : 중식 ]인 경우 예상매출액 평균값이 152,500로 전체 평균(149,975,288.15)보다 149,822,788.15만큼 낮았습니다.
미술관 앞에서는 중국집을 하면 안되겠네요.
◦
[ 개발상권_소 : 고밀주거지역 ]이고 [ 공정위업종중분류명칭 : 중식 ]인 경우 예상매출액 평균값이 259,400로 전체 평균(149,975,288.15)보다 149,715,888.15만큼 낮았습니다.
개발상권_소와 건물유형명이 함께 두번째 설명력을 가지고 있으며 예상매출액 차이(변화량)의 29.12%를 설명할 수 있습니다.
개발상권_소와 지하철역수가 함께 세번째 설명력을 가지고 있으며 예상매출액 차이(변화량)의 26.61%를 설명할 수 있습니다.
Micro-Segmentation
끝으로, 마이크로세그멘테이션을 통해 예상매출을 최대화할 수 있는 조건을 찾아보겠습니다.
예상매출 상위 20%과 예상매출 하위 20% 타겟으로 정하여 두 집단을 구분하는 규칙을 찾아보려고 합니다.
분석 결과 해석
•
분식, 한식, 기타외식 예상 매출액이 커피, 중식, 치킨, 일식, 서양식, 음료보다 평균+459.8M 높습니다.
신내동에서는 치킨집보다는 떡볶이집을 차릴 것을 권합니다
•
서양식 식당이 주위에 5 개 이상 (4.5 <= 서양식_1) 인 곳에 입지할 경우 평균 예상 매출액이 +279.8M 높습니다.
•
혼합지역이나 저밀주거상업이역이 아닌 소개발상권(기타지역, 문화공공, 오피스가, 일반상업지,복합상업지,고밀주거지역,혼합상업지역,중밀주거지역지역)에 입지했을 때 평균 예상 매출액이 +60.8M 높습니다.
Insight
Garbage in Garbage out이라 했습니다.
•
엉터리자료를 가져다가 현란한 통계 분석을 해봤자 무슨 소용이 있을까요.
•
아무리 완벽한 자료는 없다고 하지만 상권분석 서비스를 하는 많은 기업들에서 데이터셋을 다 확인하고 쓰는지 궁금하네요.
•
돈주고 사는 데이터라고 해서 그냥 분석 들어갔다가는 저처럼 혼쭐이 납니다. 꼭 하트카운트 EDA 기능을 활용해서 아웃라이어를 찾고 데이터 만든 사람과 소통할 수 있는 게 제일 좋을 것 같습니다.
•
모두들 신내동 우리동네미미네에 꼭 가보셔서 월매출 100억이 넘는(?) 떢볶이의 맛을 느껴보시기 바랍니다.