데이터 히어로의 Original 시리즈, 데이터 시각화(EDA) 기초 블로그 더 보기
Bar Chart : 데이터로 양적 크기와 차이에 대해 이야기해야 할 때
시계열 분석 : 시간의 흐름에 따른 지표의 변화를 이해하고자 할 때
분포 : 개별 레코드 수준의 시각화를 통해 불확실성을 말해야 할 때

데이터 시각화란?
데이터 시각화는 - 담백하게 정의하자면 - 숫자를 점, 선, 면(도형)을 활용해서 크기, 위치, 색상으로 표현하는 일이다. 데이터 시각화가 의미있는 근본적인 이유는 날것의 데이터/숫자보다 시각적 신호가 이해하고 기억하고 관련된 의사결정을 내리기 쉽기 때문이다.
사람의 뇌가 처리하는 시각 정보가 9Mb/sec 정도라고 하는데 사람의 두뇌는 시각적 정보를 잘 해석하도록 진화해 왔다. 한편, 엑셀을 볼 때는 cortisol이라는 스트레스 호르몬이 엄청 분비된다고 한다.
Medium, 매체로서의 데이터 시각화
데이터 시각화는 의미를 전달하기 위한 도구이고, 그렇기 때문에, 매체이다. Data Visualization이 데이터의 의미를 전달하는 매체로서 기능하기 위해서는 아래 네가지 질문이 중요하다.
•
어떤 데이터를 가지고 있나?
•
데이터를 통해 알고 싶은 게 무엇인가?
•
알고 싶은 걸 잘 알기 위해 어떤 시각화 방법이 효과적인가?
데이터 시각화(EDA) 시리즈를 시작하며 : 시각화 공부를 시작하기 전에 알아둘 것들
EDA 시각화 기초 블로그
집계값(평균)이 아닌, 개별 레코드 수준에서 분석해야 하는 이유
아쉽게도 우리는 개별 레코드 수준의 시각화에 익숙하지 못하다. 바차트, 라인차트 등 데이터를 평균이나 총합으로 요약, 집계하여 보여주는 대시보드 차트에 너무 친숙해진 탓이다.

평균적 이해를 넘어서
평균, 합계 등 집계값으로만 분석/시각화하는 것이 위험한 이유는 이상치(outlier) 등 데이터의 분포 모양과 개별 데이터의 특수성이 묻힐 수 있기 때문이다. 예를 들면, 한두개의 이상치(대부분 값의 범위에서 벗어나 극단적으로 크거나 작은 값)가 전체 평균값을 왜곡할 수도 있고, 이런 이상치는 개별 레코드 수준의 시각화를 통해서만 확인이 가능하다.
불확실성을 직시하기
범주(부서, 상품군, 날짜)를 사용하여 숫자(매출 등)를 집계하지 않고 데이터를 개별 레코드 수준에서 시각화하게 되면, 집계된 추상화된 숫자(평균 매출, 매출 총합)의 확정적인 느낌이 사라지고 필연적으로 불확실성이 드러나게 된다. 데이터 분석을 한다는 것은 이런 불확실성에도 불구하고 어떤 주장을 한다는 것이다.
평균과 합으로 집계된 추상화된 정보에 기대어 의사결정을 내리는 일에서 한 걸음 나아가 데이터에 내재된 불확실성 속에서 실용적 패턴을 찾아 현실에 적용하는 방법을 이해하고 그러한 태도를 익히는 것이 필요하다.
이번 글에서는 개별 레코드를 시각화하는 대표적인 방법인 분포와 산점도(scatter plot)를 살펴 보겠다.
아래 내용을 직접 따라하려면, HEARTCOUNT 로그인 → 캠페인 생성 → 샘플데이터 → “직원(HR) 데이터셋” 선택
분포 : 개별 레코드 수준의 시각화를 통해 불확실성을 말해야 할 때
EDA 시각화 기초 블로그