모든 실무자들에게 필요한 ‘데이터 상식’을 담았습니다.
안녕하세요, 하트카운트팀입니다. 지난 6월 9일 열린 <실무자를 위한 데이터 사전 from A to H> 웨비나의 주요 내용을 요약했습니다. 이번 웨비나에서는 어떤 내용을 다루었는지 살펴볼까요?
출처: HEARTCOUNT(하트카운트)
모든 실무자들에게 들려주고 싶은, 데이터 사전! A부터 H의 각 키워드는 아래와 같습니다.
각 밑줄을 클릭하면, 각 키워드의 자세한 이야기를 확인할 수 있습니다.
•
•
C: ChatGPT
•
•
G: Granularity
•
H: HEARTCOUNT
1. Ad-hoc Analysis
출처: HEARTCOUNT(하트카운트)
Ad-hoc Analysis란, 그때 그때의 질문에 대해 데이터로 답하는 일을 의미합니다. 여기서 말하는 ‘질문’은 단순한 수치 확인과 같은 쉬운 질문이 아닌 ‘어려운 질문’을 뜻하는데요. ’왜’와 같이 대시보드만으로 답할 수 없는 질문들을 말합니다. 이런 어려운 질문에 답하기 위해서는, 주요 지표의 변화를 EDA(시각적 탐색 분석, 시각화)를 통해 이해하고 개선 방안(통제 가능한 대상/요인은 무엇인지)을 찾아야 합니다.
또한, Ad-hoc Analysis(분석)은 곧 Ad-hoc 의사결정을 위한 분석입니다. 한 번 결정하면 돌이킬 수 없는 결정이 아닌, 되돌릴 수 있기 때문에 빠르게 결정하고 실행하여 효과를 확인해야 하는 결정들을 뜻합니다.
실무에서 Ad-hoc Analysis를 빠르고 스마트하게 해내려면, 우선은 미리 잘 편성된 wide dataset(= 다채로운 변수와 관측치들이 담긴, 넓은 데이터셋)을 준비해두어야 합니다. 그리고 데이터에 담긴 사실 확인에서 더 나아가 보유하고 있는 도메인 지식/경험 등에 비추어 자신만의 견해를 만들 줄 알아야 합니다.
2. BI(The end of BI)
출처: HEARTCOUNT(하트카운트)
BI(Business Intelligence)란, 기업의 의사결정을 돕기 위해 데이터를 수집, 분석하고 이를 통해 인사이트를 도출하는 프로세스를 의미합니다. 보통 경영진 혹은 실무자들이 빠르게 주요 수치를 확인하기 위한 대시보드를 뜻합니다. 즉, 대시보드/BI는 현업에서 데이터를 소비하는 방식 중 하나입니다.
첫 번째 키워드인 Ad-hoc Analysis의 이야기와 이어지는 내용이기도 한데요. 대시보드에서는 현업들이 좀 더 깊게 들어간 질문에 대답할 수 없다는 한계가 있습니다. 데이터팀이 만들어 준 대시보드를 수동적으로 기다리기만 하는 것에 익숙해지다 보면, 스스로 데이터를 요리조리 살펴보며 질문하고 인사이트를 발견하는 것이 점점 더 어려워질 수 밖에 없습니다.
이러한 맥락에서 'The end of BI', 즉 현재 수준의 BI는 종말될 수밖에 없으며 현업들에게 더 많은 권한을 주는 BI 도구와 시스템이 필요할 것입니다. 수치의 변화와 요약이 담긴 사실 나열에서 끝이 아닌, 현업들이 직접 자세한 분석을 할 수 있는 친절하고 다정한 BI 도구, 하트카운트 ABI가 위 문제를 해결하기 위한 솔루션 중 하나가 될 수 있겠습니다.
3. ChatGPT와 데이터 분석의 자동화
출처: HEARTCOUNT(하트카운트)
챗GPT, 어디까지 활용해보셨나요? 데이터 분석에는 어떻게 영리하게 사용해야 할 지 궁금하지 않으셨나요? 챗GPT가 데이터 분석의 자동화에 얼마나 기여할 수 있는지, 하트카운트 팀이 직접 알아보았습니다. 우선, 데이터 분석의 전체 워크플로우를 '질문 > 데이터 접근/추출 > 분석 > 보고서 작성'으로 분류하고 각 단계별 챗GPT의 역량을 테스트해보았는데요.
먼저, '주어진 데이터셋에 대한 질문(분석 주제)'에 대한 아이디어를 챗GPT에게 요청해보았습니다. 주요 변수들을 알려주고 아이디어를 달라고 하니, 총 7가지의 아이디어를 제시해주었습니다. 챗GPT로 완전한 블로그 글도 작성할 수 있는 세상이니 크게 놀랍지 않은 결과라고 볼 수 있겠습니다.
출처: HEARTCOUNT(하트카운트)
다음으로 데이터 접근/확보의 경우 어떨까요? 복잡한 스키마를 이해하는 데에는 아직 미숙하지만, 현업에서 SQL을 배우고 쿼리를 작성하는 데 실질적인 도움을 줄 수 있다고 합니다. 실제로 스키마를 제시하고 SQL을 작성해달라고 요청해보니 최적의 SQL은 아닐지라도 정확한 결과를 알려주는 것을 확인할 수 있었습니다.
(Table 형식) 데이터 분석의 경우, 플러그인 없이 챗GPT만으로 데이터 분석/수치 데이터 가공하는 데에는 테이블 크기의 제한 등 한계가 있습니다. 실제로 챗GPT는 자신이 아니라 R, Python, Excel과 같은 소프트웨어를 활용해보라고 말하기도 합니다. 그러나 유용한 플러그인들이 활발히 개발되고 있는 상황이라 앞으로 더 발전될 것으로 예상됩니다. 이번 세미나에서는 자연어 코드를 Python 코드로 쉽게 번역해주는 플러그인(’Code Interpreter’)을 소개해드렸습니다. 아쉽게도 아직 공개되지 않은 플러그인이지만 wait list 등록이 가능하니 참고해보셔도 좋겠습니다.
출처: HEARTCOUNT(하트카운트)
추가적으로 현업에게 추천하는 챗GPT 관련 툴로는 마이크로소프트의 MS 365 Copilot을 소개드렸습니다. 엑셀 내에 설치하여 '이번 분기 사업 결과의 주요 트렌드를 알려주세요.'와 같은 질문을 던지면 유의미한 사실들을 알려주는데요.
Descriptive Analysis 면에서 실무자(현업)들이 보고서 작성에 활용할 수 있는 도구입니다. 작동 원리는 엑셀의 피벗 테이블을 언어 모델이 설명해주는 것으로, 100% 신뢰하기 보다는 실무적 맥락을 잘 이해하고 있는 현업들이 상황에 따라 '참고'하는 용도로 유용하게 사용할 수 있습니다.
또한, 현업들이 데이터 추출/가공/분석 업무에 챗GPT를 현명하게 활용하는 방법과 현재 시점에서 어느 정도 신뢰하는 것이 좋을지 등을 알려드렸으니 더 자세한 내용이 궁금하다면 VOD를 시청해보시는 것을 추천드립니다!
4. Data Newsletter(Data Reader)
Data Newsletter란, 실무자들이 데이터 분석 리포트를 정기/비정기 뉴스레터로 받아 확인할 수 있는 서비스를 뜻합니다. 실무자들이 대시보드에 접속하여 직접 찾아보아야 하는 pull 방식이 아니라, 주요 metric(지표)의 변화가 발생할 때마다 앱 PUSH 알림처럼, 자연어로 해석한 결과들을 친절하게 알려주는 서비스입니다. 현재 하트카운트에서 개발 중인 서비스입니다. 추후 하트카운트 뉴스레터에서 소식을 전달드리도록 하겠습니다.
5. Everyone is an Analyst
‘Everyone is an Analyst’란, HEARTCOUNT(하트카운트)가 바라는 미래이자 저희의 구호이기도 합니다. 다양한 사람들이 모여, HEARTCOUNT가 더 쉽고 편한 데이터 분석 자동화 도구로 발전할 수 있도록 개발하고 더 많은 분들이 사용해보실 수 있도록 알리는 일의 이유이기도 합니다.
최근 몇 년 간, ‘시민 데이터 분석가’, ‘데이터 민주화’ 등 현업이 데이터 분석의 주체가 되는 움직임과 필요성이 두드러지게 나타나고 있는데요. 저희 하트카운트팀은 당장 모든 현업/비전문가가 데이터를 전문가처럼 잘 다룬다거나 필요한 보고서가 뚝딱 완성되는 것은 어려울 수 있지만, 좋은 도구의 도움을 받아 필요한 패턴이나 인사이트를 조금 더 빠르게 찾을 수 있는 Effortless Analytics(애쓰지 않아도 되는 데이터 분석)는 지금 당장도 충분히 가능하다고 생각합니다.
추천하는 관련 콘텐츠
- 다정한 데이터 도구, HEARTCOUNT
6. Feature Engineering
하트카운트에서 제공하는 Feature Engineering(변수 가공) 기능
‘Feature Engineering’이란 모델링 작업 중 하나로, 더 자세한 분석을 위해 변수를 창의적으로 가공하는 것을 의미합니다. 실무에서는 주로 숫자, 날짜를 범주로 가공하여 파생 변수를 생성, 더 다채로운 분석이 가능하도록 하곤 합니다.
하트카운트에서도 수치, 날짜 변수가 있을 경우 자동으로 bin과 percentile 변수를 생성해드리고 있으며 사용자가 직접 구간, 개수를 설정할 수도 있습니다. 수치로만 흩어져 있던 데이터들이 범주화되면서 더 다양한 분석이 가능하게 합니다. 날짜의 경우, 년/분기/월/주/요일 유형/요일/시간으로 자동으로 쪼개어 파생 변수를 생성합니다. 이를 통해 더 다양한 패턴 발견이 가능합니다.
하트카운트의 Feature Engineering 기능은 무료로 바로 사용 가능하니 직접 경험해보셔도 좋겠습니다.
→ 로그인하여 시작하기(당장 분석할 데이터셋이 없다면, 하트카운트에서 제공하는 샘플 데이터셋을 이용해보세요.)
7. Granularity
‘Granularity’란 세분성(데이터를 더 세분화하여, 촘촘히 관찰하는 것)를 뜻합니다. 우리는 많은 자료에서 평균이라는 집계값을 사용하고 있는데요. 평균은 편리하고 익숙하다는 이유로 자주 사용되곤 하지만, 평균 또는 집계값으로만 데이터를 분석하는 것은 결과가 왜곡될 수도 있고 더 다채로운 분석이 어려워진다는 사실을 알고 있어야 합니다.
반면에 ‘개별 레코드 수준의 시각화’를 수행하게 되면 데이터의 개별 레코드값이 흩어져 있는 상태(분포), 모양 등을 탐색함으로써 왜곡될 위험이 사라질 뿐 아니라 몰랐던 사실 혹은 유용한 패턴 등을 발견할 수 있습니다. 범주 간 차이 이해(우리가 흔히 알고 있는 바 차트, 원형 차트 등 단순한 수치 비교)에서 나아가 범주 내의 차이를 이해할 수 있는 것이죠.
하트카운트에서도 개별 레코드 차원에서 먼저 시각화를 수행한 후 바 차트와 같이 집계값 차원으로 넘어가는 것을 권장하고 있어, 대표적인 시각화 기능인 스마트 플롯을 접속해보시면 개별 레코드 형태가 디폴트로 적용되어 있는 것을 확인할 수 있습니다. 본 세미나에서 직접적인 사례와 시연을 통해 개별 레코드 시각화의 중요성을 직접 보여드렸으니 VOD를 통해 확인해보셔도 좋겠습니다.
8. HEARTCOUNT
HEARTCOUNT(하트카운트)는 데이터 분석 자동화 도구입니다. 사용자가 자신의 데이터셋에서 조금 더 쉽고 빠르게 데이터에서 원하는 패턴, 가치를 찾을 수 있도록 그 과정을 도와주는 도구입니다. 하트카운트를 잘 활용하여 Effortless Analytics가 가능해지고, 나아가 Everyone is an Analyst가 실현되도록 더 열심히 서비스를 개선시켜 나가고 또 더 많은 사람들이 하트카운트를 사용하며 서로 도움을 주고 받을 수 있도록 노력하겠습니다.
하트카운트는 데이터와 관련된 모든 사람들이 함께 어우러져 이야기 나누고 더 성장할 수 있는 커뮤니티를 운영하고 있습니다. 사용 관련 문의도 이 곳에서 실시간으로 가능하니 아직 참여하지 않으셨다면 아래 링크들을 참고해보세요.
모든 실무자들이 분석가가 되려면
모든 실무자들이 분석가가 되려면, BI로 대표되는 데이터 도구들이 한계를 극복하고 재발명되어야 한다고 생각합니다. ChatGPT와 같은 기술도 도움이 되겠지만 실무자들이 필요할 때 빠르게 데이터에서 질문과 답을 찾는 Ad-hoc Analysis 경험이 바뀌어야 합니다.
구체적으로 패턴 발견에 도움이 되게 변수를 가공(Feature Engineering)할 수 있어야 하고, 집계 데이터 대신 해상도가 높은 Granular 데이터를 다뤄야 합니다. 또한, 데이터가 소비자에게 먼저 찾아간다면(Data Newsletter) 더욱더 편리하고 좋을 것입니다. 이 모든 과정을 다정한 데이터 도구 하트카운트가 함께 하겠습니다.
HEARTCOUNT는 무료 시각화툴입니다.
지금 로그인하여 사용해보세요.