Intro (서론)
가정
1.
한국에서 유튜브 채널을 시작하려함
2.
채널의 방향을 어떻게 잡아야 인기 동영상에 갈 수 있을지 알아보고자함
궁금한 것
1.
인기 동영상의 기준은 무엇인가
2.
현재 인기동영상의 전반적인 상황은 어떠한가
3.
조회수와 연관이 있는 항목들은 무엇인가
4.
결론
Dataset
↑↑↑↑↑↑ 데이터는 캐글에서 가져왔으며, 기존 2020년부터 있던 데이터를 하트카운트에 캠패인 생성 할려 했으나 용량이 커 2020년을 제외한 2021년부터의 데이터로 가져옴
Coulumns
* Video_id (영상 ID)
* channelld (채널 ID)
* categoryId (영상카테고리 ID)
* title (영상제목)
* channelTtitle (채널명)
* publishedAt (업로드날짜)
* trending_date (인기영상에 올라온 날짜)
* tags (태그)
* view_count (조회수)
* likes (좋아요수)
* dislikes (싫어요수)
* comment_count (댓글수)
Markdown
복사
Analysis in HEARTCOUNT
현재 인기 동영상의 전반적인 상황은 어떠한가
분석에 사용한 데이터는 23개의 변수를 가진 인기동영상 데이터 12,664개입니다.
likes, dislikes, comment_count, description_length 네가지 항목은 최소값 항목을 살펴보니 0인 사례들이 있습니다. 각 항목 별로 확인해보았으나 데이터에 오류는 없었습니다. 해당 항목들은 인기동영상이 되는 것에 영향을 주지 않거나, 영향이 작은 것으로 판단할 수 있습니다.
위의 다섯가지 항목에서 파생한 likes/views, dislikes/views, comment_count/views, dislikes/likes 항목들도 마찬가지로 영향이 크지 않을 것입니다.
view_count를 중점적으로 탐색하고, 나머지 항목들은 간단하게 살펴보겠습니다.
Category별 동영상의 수
각 카테고리별 평균
조회수와 연관이 있는 항목들은 무엇인가
1.
한국에서 유튜브 채널을 시작하려함
2.
채널의 방향을 어떻게 잡아야 인기 동영상에 갈 수 있을지 알아보고자함
궁금한 것
1.
인기 동영상의 기준은 무엇인가
2.
현재 인기동영상의 전반적인 상황은 어떠한가
3.
조회수와 연관이 있는 항목들은 무엇인가
4.
결론
조회수에 영향을 주는 항목들이 무엇인지 알아보기 위한 산점도입니다.
소수의 조회수 상위 항목들에 의해 그래프의 분포가 영향을 받는 것 같습니다.
조회수 상위 데이터(조회수 백만 이상 데이터 570개)를 제외하고 그래프를 그려보겠습니다.
조회수 상위 데이터를 제외한 상관관계입니다. likes, dislikes, comment_count가 각각 0.73, 0.47, 0.62의 상관관계를 가진다고 나타났습니다. 다만 좋아요와 싫어요를 누르거나 댓글을 남기려면 먼저 동영상을 조회해야하기 때문에,조회수가 likes, dislikes, comment_count에 영향을 준다고 해석해야 합니다. tag_count, title_length, description_length가 views와 상관관계가 있지 않을까 생각했었는데, 관계가 없는 것으로 나타났습니다.
Insight (Optional)
지금까지 인기 동영상들의 전반적인 상황을 살펴봤습니다.
분석의 목적인 "채널의 방향을 어떻게 잡아야 인기 동영상에 갈 수 있나"를 고려했을 때, 시
사점은 다음과 같습니다.
시사점
1.
3일 이내에 인기동영상이 되지 못하면, 인기 동영상이 되기 힘들다고 보인다.
2.
인기 동영상의 70%는 Entertainment, People & Blogs, Music의 카테고리에 속한다.
3.
Entertainment 카테고리 동영상을 다루는 채널들은, 채널 별 인기 동영상의 개수를 기준으로 보면, 모든 범위에서 많은 비중을 차지한다.
4.
Music 카테고리가 전반적으로 인터렉션 반응이 높다. (싫어요 또한..)