Big Data?
검색하지 않았는데, 여러분께서 혹 할만한 사이트나 광고가 잘 보이시나요?
평소 잘 구입했던 제품의 할인 상품을 쇼핑앱이 추천한 적이 있으신가요?
구글은 나를 어떻게 생각할까? 에서 소개했던 빅데이터의 활용사례입니다
빅데이터란 무엇일까요?
‘빅데이터’에 관한 설문조사에서 답변자분들이 작성해주신 생각을 모아 텍스트마이닝 후 워드클라우드로 시각화 한 결과물입니다.
‘정보’, ‘수집’, ‘예측’, ‘분석’, ‘가치’, ‘의미', ‘변화' 등의 키워드가 들어간 생각들을 공유해주셨습니다.
빅데이터는 아시다시피,기존 데이터 보다 훨~씬 방대한 데이터로,일반적인 방법이나 도구로는 수집 및 저장, 분석이 제한되는 정형 및 비정형 데이터를 의미합니다.
“기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술" 로 정의되기도 합니다.
오늘은 빅데이터에 대해서 간단하게 소개해드리려고 합니다.
빅데이터는 크게 정형 데이터와 비정형, 그리고 반정형 데이터로 나눌 수 있습니다.
정형 데이터란 즉시 통계적 분석에 사용될 수 있을 만한 형태로 정리되고 가공된 데이터로,
사전에 지정해 놓은 구조와 형식 대로 구성되어 고정된 필드에 저장된 데이터를 의미합니다
비정형 데이터는 정해진 형식과 구조가 없어, 데이터를 활용 가능한 형태로 바꾸기 전에는 검색 및 분석 등이 어렵습니다.
사전에 지정해 놓은 구조와 형식 대로 구성되어 고정된 필드에 저장된 데이터를 의미합니다.
정형 데이터의 예시로는 관계형 데이터베이스, 엑셀(스프레드시트), CSV 등이 있습니다.
값의 의미를 쉽게 파악하기 힘든 경우 비정형 데이터에 해당됩니다.
글이나 이미지, 동영상, 음성과 같은 멀티미디어 데이터가 대표적입니다.
여러분들께서 업무중 사용하시는 수치형태의 엑셀 파일들이 바로 정형 데이터 입니다.
정형 데이터가 아닌 일상적인 데이터는 모두 비정형 데이터라고 생각하시면 됩니다.
지금 제가 작성하고 있는 이 글도 정해진 형식이 없기에 비정형 데이터입니다!
최근 스마트폰과 CCTV, 블랙박스, 드론, 인공위성, 디지털카메라 등에서 수집되는 데이터의 양이 엄청나게 증가했습니다. 그리고 이러한 빅데이터의 85%가량은 형태가 정해지지 않은 비정형 데이터라고 합니다. 이를 분석가능한 형태로 가공하는 데이터의 전처리 과정에 많은 시간과 비용이 들어가고 있습니다.
실제로, 데이터 분석과정의 8할은 데이터를 수집하고, 정제하는 과정에 소요됩니다. 원하는 데이터가 정형, 반정형 데이터 형태로 존재하지 않는 경우가 빈번하기 때문에 탐색해서 수집하고 이렇게 수집된 데이터를 분석이 가능한 형태로 가공하고, 변환하는데 오랜 시간이 걸리기 때문입니다.
기술의 발전으로 여러 사람들이 인터넷 서비스를 이용하면서 남긴 데이터가 일정 규모 이상으로 모이자 이것을 분석하면 유의미한 정보가 나오지 않을까라는 고민을 하게 되었고 실제로 많은 데이터가 모이니 정확도와 신뢰도까지 뒷받침되면서 본격적인 기술 형태로 구현이 되었습니다.
블로그나 SNS에서 소통되는 텍스트나 사진 정보를 통해 게시글 작성자의 성향뿐만 아니라, 어느 인물과 어떤 관계인지까지도 분석이 가능합니다.
또한 스마트폰이 비약적으로 발전했기 때문에, PC 앞에서만 인터넷에 접속할 수 있었던 과거와는 환경이 크게 달라졌습니다. 우리는 수면시간을 제외한 나머지 시간 동안 인터넷에 상시 연결되어 있다고 해도 과언이 아닙니다. 이러한 상황 속에서 데이터가 축적되는 속도는 빨라졌고, 많은 사람들은 이러한 빅데이터를 분석하고 활용하고자 다방면에서 노력하고 있습니다.
정리하자면, '빅데이터'의 의미는 두 가지 정도입니다.
1.
엄청나게 많이 수집된 정형 및 비정형 데이터
2.
위 대용량 데이터의 수집, 저장, 플랫폼, 분석기법 및 활용 등을 포괄하는 용어
즉, '데이터' 그 자체를 칭하기도 하고 '분석기술'을 의미하기도 합니다.