home
◼️

X축: 범주형 변수, Y축: 수치형 변수

기본 사용 방법

1. 기본 사용 방법

X축에 범주형 변수를 지정한 경우 각 범주에 대한 Y축 값의 분포를 확인할 수 있습니다. 오른쪽 상단에 다음과 같은 6개의 버튼(바 차트, 상자그림, 95% 신뢰구간, 추세선, 분포, 히트맵)이 표시됩니다.

2. 바 차트(Bar Chart)

서로 다른 범주가 갖는 변수값의 크기(Quantitative Amount)를 효과적으로 비교하기 위해 바차트를 사용하여 시각화할 수 있습니다.
X축을 하위그룹으로 선택하면 오른쪽 상단의 그래프 유형이 바뀌며 Y축을 평균/합 중 어떤 것으로 볼 지 선택할 수 있게 됩니다.
하위그룹 왼쪽 아이콘을 클릭하여 Y축 값의 내림차순으로 정렬할 수 있습니다.
위의 이미지는 Y축의 값이 47부터 시작되나, 이를 0으로 바꾸고 싶다면 시각화 화면 오른쪽 컨트롤 창에서 [Always show "0"]을 클릭하면 됩니다.
Grouped Bar Plot
두가지 범주들 간의 차이를 비교하기 위해 Grouped/Stacked Bar Plot을 사용할 수 있습니다.
Grouped Bar Plot에서는 첫번째 범주를 X축에 배열한 후, 두번째 범주(하위그룹)를 각각의 첫번째 범주 내에 배열하게 됩니다. 아래 예시는 X축에 범주형 변수인 [나이_bin]를 선택하고, 하위그룹에 두번째 범주형 변수인 [직군]을 선택한 그림입니다.
Grouped Bar Plot은 범주의 수가 너무 많은 경우, 해석이 어려워집니다. 만약 직군별 나이에 따른 직원 만족도의 차이라면 X값과 하위그룹을 서로 바꾸어 아래처럼 나타낼 수도 있습니다.
Stacked Bar Plot
Stacked Bar Plot은 막대그래프를 가로로 놓지 않고 세로로 차곡차곡 쌓는 것이 더 효과적일 때 사용하는 시각화 방법입니다.
오른쪽 상단의 두번째 아이콘을 누르면 Stacked Bar Plot이 화면에 나타납니다.
하위그룹을 위로 쌓는 Stacked Bar Plot은 개별 범주의 [평균]값보다는 [개수]나 [총합]으로 쌓아야 시각적 효과와 해석을 하기 알맞습니다.
아래 그림은 Y축을 [불량건수]로 선택, 변수에 대한 계산을 [합]으로 변경한 뒤 내림차순으로 정렬한 그림입니다.
관심있는 세그먼트를 클릭하면 해당 세그먼트에 대한 상세정보를 볼 수 있습니다.
비율 표현하기
X축과 하위그룹을 설정하면 Y축 값 리스트 상단에 레코드 개수 버튼이 생성됩니다.
레코드 개수 를 클릭하여 Y축을 레코드 개수 또는 비율로 설정할 수 있습니다.

3. 상자그림

상자그림(boxplot)이란 최댓값, 최솟값, 중앙값, 사분편차를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있는지 쉽게 알 수 있는 그래프입니다.
오른쪽 상단의 상자그림 아이콘을 누르면 시각화 화면에 상자 그림이 표시됩니다. 그 중 하나의 상자그림을 클릭하면 각 범주에 대한 자세한 값을 확인할 수 있습니다.

4. 95% 신뢰구간

95% 신뢰구간은 같은 방법으로 100회 측정했을 때, 특정 구간 내 95회가 들어가는 수치라고 할 수 있습니다. 각 범주마다 평균과 신뢰구간의 범위가 표시되며 각 범주 값의 차이를 파악할 수 있습니다.
아래의 분석 화면을 활용하면, 전체 복사기 매출의 평균은 2,080원이며, 복사기 매출의 평균이 95%의 확률만큼 측정된 구간은 1250원부터 2910원이라고 이해할 수 있겠네요.
참고로 모든 변수의 신뢰구간이 같을 경우 통상적으로 무의미한 결과라고 판단합니다.

5. 추세선

각 범주의 평균값을 이어 전체 추세선을 파악할 수 있습니다. 오른쪽 컨트롤창을 사용하여 X축 정렬방식을 바꾸어 추세를 한눈에 볼 수 있습니다. 데이터를 클릭하면 해당되는 범주의 평균값이 나타납니다.

6. 분포

분포는 데이터의 빈도를 파란색 선으로 표현하는 시각화 기능입니다. 파란색 선이 길수록 해당하는 값에 데이터가 많이 존재한다는 의미입니다.

7. 히트맵

데이터의 값을 컬러로 변환시켜 시각적인 분석을 가능하게 하는 데이터 시각화 기법으로 색이 짙어 질수록(보라색) 높은 밀도를 나타냅니다.