대부분의 고객들이 빅데이터 분석을 하려고 할 때에 자신들이 가지고 있는 데이터 용량에 대하여 거짓말을 하고 많은 양의 데이터를 가지면 모든 문제를 해결할 수 있다는 착각을 한다. 고객들은 구글, 페이스북, 아마존 같은 기업들이 많은 양의 데이터를 분석한다는 사실을 듣고, 데이터를 모으거나 사는 노력은 하지 않으면서 트렌드에 뒤떨어지지 않다고 느끼기 위해서 과장을 하는 것이라 생각한다. 데이터 분석가 캐시 오닐 (Cathy O’Neil) 은 그의 블로그 글에서 많은 사람들이 “보통 테크 회사에서 많은 양의 데이터만 추가하면 구글이 될 것이라”는 믿음이 있다고 한다. 하지만 큰 회사들도 전체 데이터의 적은 부분만 중요한 의사결정을 위해서 사용한다. 많은 데이터들이 사용되지 않는데 많은 사람들이 빅데이터를 얘기하는 이유는 무엇일까? 이는 사용하지 않는 데이터를 딥러닝 (Deep-learning) 알고리즘으로 분석하여 신호와 노이즈를 구별할 수 있기 때문이다. 하지만 딥러닝은 라벨링 (Labeling)을 한 데이터만 적용이 가능하고 이 라벨링은 운영과 구현에 많은 투자를 필요로 한다. 즉 단순히 데이터를 모으는 것만으로는 의미 있는 데이터들을 사용하는 데에는 한계가 존재한다.
tN 인사이트: 필자가 한국오라클에서 근무할때 많은 고객들은 데이터의 양만 많으면 어떠한 분석이든지 할 수 있을 것이라고 오해를 했었다. 많은 양의 데이터를 기존 관계형 데이터베이스 (RDBMS) 에 저장하고 분석하는 것을 빅데이터라고 생각을 하기도 했고, 하둡 (Hadoop)이나 NoSQL과 같은 기술을 사용하면 더 적은 비용으로 빅데이터를 구현할 수 있을 것이라 생각을 했다. 하지만 가장 중요한 부분은 많은 데이터를 모으고 저장하는 것 보다 해당 빅데이터를 이용해서 무엇을 얻고자하는지 확실한 목표가 있어야한다는 것이다. 위험신호를 감지하려면 그에 대응하는 알고리즘에 투자를 해야하고 트랜드 분석을 위해서는 기존 고객관리 시스템 (CRM), 비즈니스 인텔리전스 (Business Intelligence) 등과 연동을 중요시해야 한다.
관련기사: TechCrunch