빅데이터에 대한 관심이 커지던 2008년, 구글에서는 독감 트렌드(Google Flu Trend)를 발표했다. 독감과 관련 있는(Correlated) 검색어의 검색 빈도를 추적해 독감 유행 시기를 예측하는 서비스이다. 구글 독감 트렌드는 이듬해 네이처(Nature)에 연구결과가 소개되면서 크게 주목받았다. 미국 질병관리본부(CDC)보다 1주 이상 빠르게 독감 유행 시기를 예측할 수 있다는 내용이었기 때문이다. “기술적인 관점에서, 이것은 시작에 불과하다.”라는 에릭 슈밋(Eric Schmidt, 당시 구글 CEO)의 말은 드디어 빅데이터의 시대가 도래했음을 의미하는 듯했다.
하지만 2009년 신종 인플루엔자(H1N1)의 전 세계적 유행을 놓치고, 2013년에는 실제 독감 발생률의 2배에 달하는 예측치를 내놓으면서 구글 독감 트렌드의 신뢰도에 문제가 제기되었다. 이후 네이처는 “구글 독감 트렌드가 기존의 역학조사를 대체할 수 없다.”라며 예측 오류를 꼬집었고 구글은 서비스를 종료시킬 수 밖에 없었다. 현재에도 구글 독감 트렌드는 빅데이터를 통한 미래 예측의 실패사례로 많이 언급된다.
구글의 시도 이후에도 빅데이터를 통한 질병의 예측은 계속해서 연구되고 있다. 구글이 검색어(Search Terms)에 주목했었다면, 최근 연구들은 SNS에서 사용하는 단어(Language usage on Social media)에 주목한다. 또한, 독감과 같은 전염성 질환을 넘어 관상동맥 질환, 정신질환과 같이 다양한 질병의 예측을 연구하고 있다.
2015년에는 트위터에서 부정적인 표현을 많이 쓰는 지역이 다른 지역에 비해 관상동맥 질환 발병률이 더 높다는 연구결과가 발표됐다. 연구진은 트위터에서 사용하는 부정적인 표현의 빈도가 해당 지역의 정신적 스트레스를 반영한다며, 스트레스가 관상동맥 질환의 주요 위험인자(risk factor) 중 하나이기 때문에 이러한 결과를 보였을 것이라고 분석했다.
이러한 연구는 환자의 진단을 대체하거나 보완할 수는 없지만, 보건정책 및 캠페인 계획에 많은 도움을 줄 것으로 기대하고 있다.
그렇다면 빅데이터를 이용해서 지역이나 집단이 아닌 개인의 질병을 예측할 수도 있을까? 미국 중독재활연구소(ARRC)의 워렌 비켈(Warren Bickel)박사는 개인의 페이스북 사용 내역을 분석하여 약물 중독 환자를 선별할 수 있다는 연구 결과를 논문으로 제시했다.
2014년부터 미국 국립 보건원(NIH)과 국립 약물 남용연구소(NIDA) 등의 지원을 받아 진행된 연구는 2007년부터 2012년까지 페이스북을 통해 진행되었던 마이 퍼스널리티(Mypersonality)라는 프로젝트의 데이터를 활용했다. 마이 퍼스널리티는 페이스북에서 다양한 심리테스트를 제공하는 애플리케이션으로 개인정보 제공에 동의한 사용자에 한해 설문 자료를 연구 목적으로 제공한다. 연구진은 이 중 페이스북 게시글, 좋아요와 약물사용 설문 자료를 모아 상관관계를 분석했다. 이들은 먼저 약물중독인 사용자의 게시글과 좋아요 데이터에서 특정 행동 패턴(unique patterns of behavior)을 추출하고 같은 패턴을 보이는 사용자를 찾아 그들 또한 동일한 수준의 약물중독인지 확인했다.
연구진은 ‘fuck’, ‘shit’과 같은 욕설이나, ’horny’, ‘sex’와 같은 성적 단어, ‘blood’, ’pain’과 같은 약물 관련 단어들이 중독과 연관이 있음을 찾아냈다. 특히 여성을 나타내는 ‘girl’, ‘woman’, 기분을 나타내는 ’up’, ‘down’은 알코올 중독에, 분노를 나타내는 ‘hate’, ‘kill’, 건강과 관련된 ’clinic’, ‘pill’은 약물중독에 강한 양의 상관관계(positively correlation)가 있는 반면 ‘man’, ‘boy’는 음의 상관관계(negatively correlation)가 있음을 알 수 있었고, 이러한 단어와 약물중독의 상관관계를 분석하여 담배, 알코올, 의약품의 중독에 대해 각각 86%, 81%, 84%의 정확도로 선별할 수 있음을 밝혔다 [출처: https://arxiv.org/pdf/1705.05633v2.pdf].
기존 임상에서는 약물 중독의 선별검사를 자가 설문에 의존한다. DAST-10(Drug Abuse Screening Test)이나 CAGE라는 설문을 통해 환자 스스로 중독증상에 대해 응답하고 이를 통해 진단을 내리는 것이다. 두 선별검사는 조건에 따라 80~85% 정도의 민감도를 보인다. 또한, 자가 설문이라는 점에서 환자가 응답을 조작할 가능성이 있다는 한계를 지닌다.
하지만 연구진은 이번 연구는 소셜 미디어의 평소 사용 내역을 분석한 것이기 때문에 조작의 가능성도 없고, 기존 자가 설문보다 뛰어난 예측도를 보인다고 강조했다. 또한, 소셜 미디어 데이터 분석을 통한 진단이 현재의 선별검사를 대체할 수는 없더라도, 약물중독이 의심되는 소셜 미디어 사용자를 선별하여 예방적 개입(Preventive intervention)을 통해 약물중독을 사전에 막을 수 있을 것이라고 기대했다.
구글 검색과 소셜 미디어를 통한 질병 예측 사례는 우리에게 빅데이터의 가능성을 보여주지만 명확한 한계점을 보여주기도 한다.
네이처에서 구글 독감 트렌드의 실패 이유로 꼽은 것 중 하나는 2013년 뉴욕 시에서 발령한 공중보건 경보(public-health emergency declaration)이다. 독감 시즌에 공중보건 경보가 발령되자 각종 미디어에서 이를 다루었고, 독감과 상관없는 사람들의 독감 관련 검색이 폭증하여 실제 발병률의 2배에 달하는 예측치를 발표하게 된 것이다. 이는 검색 빈도와 발병률 사이에 존재하는 ‘상관관계’만을 가지고 예측했기 때문에 발생한 문제이다.
빅데이터의 장점이자 한계는 여기에 있다. 직접적인 ‘인과관계’를 모르더라도 결과를 예측할 수 있다는 사실은 복잡하게 연결된 현대사회에서 참신한 인사이트를 주기도 하지만 잘못된 미래를 예측할 가능성 또한 품고 있기 때문이다.
관련 기사: MIT Technology Review, “How Data Mining Facebook Messages Can Reveal Substance Abusers” | 이미지 출처: Unsplash.com