Intro
최근 코로나로 지난 2년 간의 봉쇄가 풀리고, 5월 들어 날씨가 좋아지면서, 근처에 자전거를 타는 사람들과 자전거의 숫자가 부쩍 늘어나는 것을 매일 목격하고 있다. 그리하여, Kaggle의 Competition 중에서 “Bike Sharing Demand”에 대하여, 2가지 방식(Data Scientist의 방식과 Heart Count의 Data Hero 방식) 으로 접근하고 비교해 보았다.
Dataset
/Original Data Set을 확인하려면 아래 링크를 이용해 주세요.
Analysis in Data Science & Heartcount
1. Kaggle or Colab or Anaconda(Jupyter Notebook)에서 Data Science 방식으로 Coding을 하여, Project 실행 및 EDA 진행
원본 자료는 하기 Link 를 참고해 주세요.
Data Science 방식으로 Pandas, Metplotlib, Numpy, Seaborn, Correlation, Feature Engineering 등을 통해, 각종 시각화 및 EDA를 진행함.
2. Heartcount에서 DataHero 과정을 참고하여, 캠페인을 생성하고, Heartcount 방식으로 NLP 활용하여, Project 실행 및 EDA 진행
원본 자료는 하기 Link 를 참고해 주세요.
Heat Count 의 Smart Plot을 통해 총 11개의 시각화 및 EDA를 진행함.
두가지 방식을 비교해보면 시각화 및 EDA 결과값은 비슷하게 나옴.
분석 결과 해석
1.
Count와 Attemp: 실제 체감 온도가 중간 정도 일 때가 가장 Bike Sharing Demand가 높았음.
2.
Count와 Casual: 일부 선형 관계를 보였으나, 낮은 Casual의 경우에는 Outlier가 있었음.
3.
Count와 Datetime: 2011년보다, 2012년이 모두 꾸준하게 증가했음.
4.
Count와 Holiday: Working Day가 Holiday보다 높게 나옴.
5.
Count와 Humidity: Humidity가 중간 정도 일 때가 가장 Bike Sharing Demand가 높았음.
6.
Count와 Registered: 매우 높은 선형 관계를 보여, Count의 구성 요소들 중에서 Registered가 Casual 보다 높은 상관 관계가 있었음.
7.
Count와 Season: 겨울이 가장 적고, 봄/가을/여름 순으로 높아 졌음.
8.
Count와 Temp: 온도가 중간 정도 일 때가 가장 Bike Sharing Demand가 높았고, 체감온도와 상관 관계가 높았음.
9.
Count와 Weather: 비바람 날씨가 가장 적고, 맑은 날씨에 높아 졌음.
10.
Count와 Windspeed: 풍속이 적은 경우가 높고, 풍속이 강한 경우는 낮아 졌음.
11.
Count와 Holiday: Working Day가 Holiday보다 높게 나옴.
12.
복합 분석 결과: 평일에는 출퇴근 시간이 높게 나오고, 휴일에는 낮 시간에 높게 나왔고, Registered는 평일과 휴일 모두 Count와 높은 상관 관계를 보였으나, Casual은 낮은 상관 관계를 보임.
Insight
Data Science 방식과 Heart Count 각각 두가지 방식으로 모두 진행해본 결과,
Data Science는 AI, Big Data, Python 등 많은 전문 지식과 경험이 필요했으며,
Coding 등 시간도 많이 소요되었으나, Heartcount 이용 시에는 기본 지식과
기본 경험 만으로도 빠른 시간 안에 다양한 EDA가 가능했음.