데이터 분석도 해보고, 시각화도 해보고 싶지만 '파이썬, R' 같은 프로그램은 낯설은 분들을 위한 가이드입니다. 비교적 익숙한 Excel 을 기반으로 해볼거에요!
무엇부터 시작하면 좋을까요?
아래 순서대로 따라한다면, 여러분도 멋진 데이터 시각화를 만들어 내실 수 있답니다.
1. 데이터 얻기
한국청소년활동진흥원은 다양한 청소년 데이터를 개방하고 있는데요.
csv형태로 제공되는 데이터를 다운로드받아 쉽게 활용할 수 있는 방법을 소개합니다.
이 분석가이드에서는 '청소년 관심키워드 분석 데이터'로 청소년들의 관심사를 살펴보겠습니다.
데이터는 아래 링크에서 다운로드 받을 수 있습니다.
‘청소년 관심 데이터’는 2019~2020년 동안 10대 청소년들이 포털사이트에서 가장 많이 검색한 키워드를 포함하고 있습니다.
csv파일은 Excel 에서 열어볼 수 있는데요.
열어보니, 아래 화면과 같이 월별로 1~30위까지 키워드와 검색순위, 검색빈도를 알 수 있었습니다.
. . .
이 기간동안 어떤 키워드가 가장 많이 등장했는지, 월별로 상위에 등장하는 키워드들에 차이가 있는지 등을 확인하기 위해서는 원하는 형태로 데이터를 전처리하는 데이터 정제작업이 필요합니다.
2. 데이터 정제하기
엑셀을 이용해서 간편하게 데이터를 정제할 수 있습니다.
2-1. 엑셀 상단의 ▲[데이터] → [통합]을 이용해 중복된 키워드와 검색빈도를 합쳐보았습니다.
그리고 이 데이터를 검색빈도 순으로 정렬한 결과입니다.
가장 많이 검색된 키워드는 역시 '코로나' 였습니다.
'토트넘', '리버풀', '첼시' 등 해외축구 팀들과 '모의고사', '학교', '수능', '수만휘', 'ebsi 고등', '진학사', '메가스터디' 등 학업과 관련된 키워드, '태풍', '날씨' 등 일상 키워드를 확인할 수 있었습니다.
2-2. 전체 상위 15개의 키워드의 시간 변화에 따른 출현빈도를 파악하기 위해 2019년 1월부터 2020년 9월까지 시계열 형태로 구성해보았습니다. (A ~ X열)
3. 데이터 시각화
이런 숫자, 텍스트 형태의 데이터를 시각화 하기 위해서는 어떻게 해야 할까요?
파이썬이나 R, 태블로를 이용해 데이터를 분석하고 시각화 할 수 있습니다.
하지만 이런 Tool을 다루지 못하는 분들을 위해 엑셀 내장기능으로 표와 그래프를 그리는 일반적인 방법보다 더 효과적으로 시각화할 수 있는 방법 두가지를 소개해드리겠습니다.
바로, Flourish와 Wordcloud 입니다!
1. Flourish
Flourish는 다양한 방식으로 데이터를 시각화하는 방법을 제공하는 사이트 입니다.
무료 플랫폼으로, 구글계정으로 로그인하면 차트 시각화, 지도 시각화, 애니메이션, 반응형 시각화 등 다양한 시각화기법을 이용할 수 있습니다.
표현하고 싶은 차트를 선택한 후, 엑셀이나 csv파일로 된 데이터를 업로드 해줍니다.
그리고 각 차트의 형식에 맞게 컬럼을 정제하면 자동으로 시각화 차트가 만들어집니다!
차트레이스를 이용해 전 단계에서 시계열로 정제했던 월별 상위 키워드들의 검색량 변화를 반응형 그래프로 표현해 보았습니다.
시간의 변화(월)에 따라 달라지는 키워드들을 한 눈에 확인할 수 있습니다.
이처럼 flourish를 이용하면 r이나 python같은 툴을 사용하지 않고도 데이터를 효과적으로 시각화할 수 있습니다.
2. Wordcloud
워드클라우드는 데이터에 존재하는 단어의 출현 빈도를 바탕으로 단어를 시각화하는 기법입니다.
텍스트 데이터를 생성기에 넣으면 원하는 모양, 색감으로 워드클라우드 파일을 만들 수 있습니다.
청소년 관심 데이터의 키워드들로 워드클라우드를 생성한 결과입니다.
많이 나오는 단어는 크게 표시되기 때문에 한 눈에 문서의 핵심 내용을 파악할 수 있습니다.
한 눈에 청소년들이 '토트넘', '웹툰', '모의고사', '날씨'에 관심을 갖고있다는 것이 나타났습니다.
이처럼 워드클라우드를 사용하면 데이터를 통해 말하고자 하는 바를 명확히 전달할 수 있습니다.
R이나 Python을 이용해 코딩하지 않아도 이처럼 누구나 데이터를 분석하고 시각화 할 수 있습니다.
유용한 도구인 Flourish와 Wordcloud를 일상 속에서, 또는 업무에서 활용해보세요!