클라우드 컴퓨팅 서비스가 과학분야의 빅데이터 관리를 구원할 것인가

미국립보건원 (NIH)이 의생명 분야 연구의 표준이 되는 각종 데이터베이스를 유지하는데 필요한 연간 $110 million 가량의 자금을 조달하는데 어려움을 겪고 있다. 특히 유전체 분야의 데이터가 폭발적으로 증가하여 2025년까지 유튜브의 용량마저 넘어서는 40 엑사바이트 (1 exabyte = 10억 기가바이트)로 증가할 것으로 예측되는데 이를 유지하기에 난항이 예상된다. 기존의 연구소 인프라는 저장용량보다는 CPU, I/O 파워 등에 중점을 두어 만들어졌기 때문에 데이터 저장량이 많아진 지금 시대에는 비싸고 비효율적인 시스템이 된 것이다. 반면, 구글아마존 등의 클라우드 서비스는 수 페타바이트 (1 petabyte = 100만 기가바이트) 도 거의 실시간으로 다룰 수 있고 데이터 저장 비용이 매우 저렴하여 이러한 연구분야에 적합할 수 있다. 연구자는 필요한 만큼의 컴퓨팅 성능만을 요청하여 분석에 이용하고 이용한 만큼만 비용을 지불하면 되기 때문에 전통적인 방법에 비하여 효율적이다. 또한 장기간 데이터를 보존하기에도 안전하고 거의 무제한으로 용량을 증가시킬 수 있기 때문에 새로운 데이터 저장 인프라를 찾는 연구소들에게는 상업용 클라우드 서비스들이 좋은 해결책이 될 수 있을 것이다.

tN 인사이트: 아마존을 시작으로 구글, 마이크로소프트 등 기존의 IT 강자들이 빅데이터 분야의 수요증폭을 예측하고 지난 몇 년 간 경쟁적으로 클라우드 컴퓨팅 서비스를 제공해왔다. 기사에서는 NIH의 데이터베이스 유지, 관리의 어려움을 예로 들며 상업용 클라우드 서비스가 해결책이 될 수 있을 것으로 예상하였다. 현재 많은 연구소들에서 이용하고 있는 방식은 고성능 컴퓨터의 각 할당된 용량안에 데이터를 올려놓고 “batch queue” 형식으로 분석을 신청해 놓았다가 차례가 되면 분석에 들어가는 시스템으로 필요 이상의 성능을 이용하게 될 때가 많은 반면 시간도 오래걸리고 저장에 한계가 있다. 반면, 클라우드 서비스는 거의 제한없이 저장용량을 필요에 따라 늘려갈 수 있으며 데이터를 이용한 만큼만 비용을 지불하므로 훨씬 효율적일 수 있다. 향후 많은 연구소들에서 데이터베이스 인프라 구축의 수요가 증가할 것이며 이는 클라우드 서비스들의 새로운 고객이 될 수 있을 것이다. 클라우드 업체들은 이렇게 저장될 학계의 데이터에 가격 경쟁력외에 어떠한 차별화된 서비스를 제공하여 경쟁에서 우위를 점할 수 있을지 생각해볼 필요가 있을 것이다.

관련 기사: Forbes

Written by

UCSD 의대에서 박사 후 연구원으로 일하고 있습니다. 유전자 시퀀싱 및 분석, 휴먼 마이크로바이옴, 미생물공학 분야에 관심이 있으며, 제가 배우고 읽는 것들을 테크니들에서 공유하고 싶습니다.