매우 핫한 키워드는 아니지만 여전히 마케팅적으로 중요한 단어가 바로 "빅데이터"일 것이다. 데이터 분석은 사실상 새로운 것은 아니다. 이전에도 기업에서 경영층의 의사결정을 돕기 위해서 기업의 재무 데이터, 마케팅 데이터, 결제, 판매기록등의 데이터를 하나로 모아서 분석하는 시스템과 관련 기술들은 존재해왔었다.
데이터를 수집하고 모델링하고 저장하는 대표적인 시스템은 Data Warehouse (DW)로 칭하였고 이 데이터를 분석하여 경영층의 의사 결정에 활용하는 것을 Business Intelligence(BI)라고 부른다. 데이터를 분석하는 도구로 잘 알려진 것이 바로 큐브 형태의 다차원 데이터 분석을 제공하는 OLAP(Online Analytical Processing)이다.
최근에는 Hadoop 과 같은 기술이 발전하면서 "빅데이터분석"이라는 용어가 생겨났는데, 사실상 외부 홍보나 마케팅 용어로 많이 활용된다. 다시 말해 "빅데이터분석"이라는 말은 엄밀하게는 "빅데이터 기술을 활용한 분석"이 되어야 하는데 어떤 기술을 사용하던지 기존의 기술을 이용해서 분석한 결과도 "빅데이터"라는 말을 붙여 버리거나, 빅데이터 분석 기술을 제대로 활용하지 않으면서, 혹은 불필요하게 빅데이터 기술을 이용할 필요 없는 데이터 양에도 빅데이터 기술을 이용하면서 "빅데이터분석"이라는 용어를 사용하기도 하는 것이다.
기업의 입장에서 보면 여전히 DW/BI와 같은 전사적으로 정제된(다시 말해 구조화된) 데이터는 경영의사결정에 중요한 부분이다. 그렇지만 최근에는 사람들이 사용하는 디바이스가 많아지고 항시적으로 연결 되면서 (이 추세는 IoT 시대에는 더 증가할 것이다.) 데이터는 다양한 부분에서(당연히 비구조화된 형태로) 엄청난 속도로 생성되는 환경이 된 것이다. 이런 환경을 현재의 DW/BI 도구들은 다룰수가 없는 것이다.
기존의 DW도 중요하고, 새로운 환경도 수용하기 위한 방안으로 Oracle, IBM 과 같은 주요 플랫폼 솔루션 사업자들은 DW를 보완해주는 기술로 Big Data에 접근한다.
Oracle은 RDB로 구현된 DW를 Primary analytic db로 활용하며 재무기록, 고객 데이터, 구매이력등의 Core Transaction Data를 저장하며 Big Data System은 커다란 양의 데이터, 기계에서 발생한 로그, 소셜 미디어 데이터, 비디오, 이미지등을 저장하는 "Data Reservior"로의 역활하는 Architecture를 제시한다.
IBM은 여기에서 좀더 나아간 Architecture를 제안한다. IBM은 Big Data기술이 적용된 시스템을 "Landing Zone"으로 활용하는 것을 이야기한다. Business가 Big Data기술을 활용해야 되는 이유는 1) 새로운 데이터 소스에 대한 분석 요구, 2) 데이터 복잡도의 증가(Variety of data types, Volume of data, Velocity of data generation, Veracity of data from multiple sources), 3) 분석 복잡도의 증가, 4) 사용 가능한 비용 효율적인 컴퓨팅 및 저장 환경 으로 이야기 한다.
Landing Zone은 다양한 데이터(구조적, 비구고적, 반구조적)를 수집하고 대용량의 데이터를 복잡한 알고리즘을 이용해서 처리하고, 혹은 DW의 Active Data Archive 로서 기능을 제공할 수 있다. 대용량의 저장과 분산 컴퓨팅으로 필요에 따라 모든 데이터를 활용할수 있도록 하며 DW에 이런 처리된 데이터를 제공하는 중간 소스로서 빅데이터 기술들을 이용하는 것이다.
빅데이터는 "기술"이지 그 "무엇"이 아니다. 즉 빅데이터 기술은 기존의 DW의 한계를 보완해주는 기술이지 DW와 같이 데이터를 기업에서 활용하는 Architecture는 아닌 것이다. 빅데이터 분석도 마찮가지이다. 기존 데이터 분석의 한계를 보완해주는 것이 빅데이터 기술인 것이지 "빅데이터 분석"이라는 무엇인가가 있는 것은 아닐 것이다.