home

전국도서관 데이터 분석

Intro (서론)
제가 사는 지역은 특색 있는 도서관이 많이 있습니다. 특히 저희 집 근처에 도서관이 있어 자주 책을 대출해서 보고 있습니다. 도서관에서 대출한 책을 보다가 문득 우리나라 도서관 현황에 대해 궁금해서 찾아보게 되었습니다.
Dataset
전국도서관표준데이터   https://www.data.go.kr/data/15013109/standard.do
Analysis in HEARTCOUNT
[스마트 플롯 1]
시도별 도서관의 열람좌석수, 자료수, 면적 등을 찾아보니 제주특별자치도의 자료수(도서, 비도서)수가 가장 높은 것으로 나타났습니다. 특히 자료수(연속간행물)은 충청북도가 가장 높게 나타났습니다.
충청북도의 연속간행물 높게 나타난 이유를 찾아보고자 도서관 유형별로 분포를 확인하니 충청북도 내 ‘대학도서관’이 가장 높게 나타났습니다.
다른 지역에도 대학도서관이 있을 텐데 왜 충청북도만 존재할까 하고 raw data를 확인해보니 dataset에 나와있는 대학도서관은 1개였고 충청북도에 위치하고 있었습니다.
아마 데이터 수집 혹은 정리 상의 문제일 것이라는 판단 하에 과감히 대학도서관을 제외하여 다시 분석해봤습니다.
대학도서관을 제외한 자료수(연속간행물)의 분포를 보니 역시 제주특별자치도의 자료수(연속간행물)수가 높은 것으로 나타났습니다.
[요인분석]
제주특별자치도 도서관의 모든 유형의 자료가 많은 것으로 나타나 제주특별자치도 도서관만 필터링하여 자료수(도서)에 영향을 미치는 요인이 무엇인지 분석해보았습니다.
‘자료수(연속간행물)과 부지면적’의 조합의 설명력이 가장 높게 나타났으며, ‘자료수(연속간행물)와 자료수(비도서)’의 조합, ‘건물면적과 부지면적’ 조합 순으로 높게 나타났습니다.
많은 수의 자료를 배치하기 위한 공간 확보가 중요하다는 걸 알게 되었습니다. 이는 굳이 데이터로 분석하지 않아도 상식적으로 이해할 수 있는 것이지만 데이터 분석으로 다시 한 번 확인할 수 있었습니다.
[스마트 플롯 2]
부지나 건물 면적이 도서 수에 영향을 미치는 것을 확인하였으니 제주특별자치도의 가장 면적이 큰 도서관이 어디인지 찾아 보기로 했습니다.
부지면적은 서귀포도서관, 건물면적은 우당도서관이 가장 큰 것으로 나타났습니다.
각 도서관을 검색해보니 넓은 주차시설, 외부 조경 및 공간 조성이 잘 되어 있는 것을 알게 되었습니다.
Insight (Optional)
수도권 작은 도시에서 대출한 책에서 시작하여 제주도의 도서관까지 찾아보게 될 줄은 몰랐는데 생각보다 재미있었던 랜선 도서관 탐방이었습니다.
이번 데이터 분석을 통해 도서관에 직접적으로 적용해볼 만한 유용한 방안을 찾아보지는 못했으나 분석 과정에서 찾아본 제주도의 도서관은 단순히 책만 빌리고 보는 것이 아니라 경치를 즐기고 편안히 쉴 수 있는 곳이라는 것 알게 되었습니다. 언젠가 제주도에 가게 된다면 꼭 도서관 투어를 해보고 싶다는 생각이 들 정도였습니다.
또 한 가지 느낀 점은 raw data에 대한 정리나 확인이 꼭 필요하다는 점이었습니다. 연속간행물 수를 파악하는데 있어 대학도서관 1개의 데이터 값이 전체 분포에 많은 영향을 미치는 것을 알게 되었습니다. 대학도서관이 충청북도에만 있는 것으로 나타난 것이 data 수집의 오류였는지, 분류상의 문제였는지는 확실하게 파악하지는 못하였으나 raw data에 대한 재확인을 하지 않았더라면 분석의 오류를 범할 수 있었을 수도 있겠다고 느꼈습니다.
아무리 좋은 분석 Tool이 있어도 raw data가 문제가 있다면 정확한 데이터 분석이 이뤄지지 않을 것입니다. 데이터 분석 초기에 데이터 스크리닝이나 오류 점검을 더 꼼꼼히 하고 데이터를 분석해야겠다고 생각한 실습이었습니다.