데이터는 넘쳐난다. 사람들의 컴퓨터 상에서, 스마트폰에서 한 모든 행동은 기록되고 있다. 어떤 비즈니스를 하든 엄청난 양의 사용자 로그를 모을 수 있으며 공개된 데이터도 많다. 몇 년 전만 해도 빅데이터 처리가 많은 회사들에게 어려운 과제 중 하나였지만, 오픈소스와 클라우드 컴퓨팅의 발전으로 이제 빅데이터 처리는 일반 데이터베이스를 다루는 수준의 쉬운 일이 되었다.
그렇지만 데이터가 아무리 많고 빅데이터 처리가 아무리 쉬워져도 여전히 해결하기 어려운 문제가 있다. 바로 그 엄청난 양의 데이터를 가지고 무엇을 할까를 결정하는 일이다. 데이터를 어떻게 사용하느냐에 따라 시장의 흐름을 읽고 앞날을 예측할 수도 있고, 언어를 이해하고 번역하는 로봇을 만들 수도 있으며, 인공지능 비서도 만들 수 있다. 데이터는 넘쳐나고 데이터로 할 수 있는 일은 무한에 가깝게 많다. 쌓여있는 데이터를 의미 있는 정보로 바꾸어 다양한 활용을 할 수 있게 하는 사람. 그 사람이 바로 데이터 과학자이다.
프로에게 묻다 세번째 시리즈에서는 “헬로 데이터 과학”의 저자이자, 시애틀 마이크로소프트에서 데이터 과학자로 있다가 최근 SNAP이라는 회사로 이직한 데이터 과학자 김진영님에게 데이터 과학의 이야기와 그 활용과 가능성에 대해 들어본다.
김진영님은 컴퓨터 사이언스 (정보 검색) 전공으로 미국 메사추세츠 주립대에서 박사학위를 받고 2012년부터 미국 마이크로소프트 본사의 빙(Bing) 검색엔진 부문의 연구자로 일하고 있다. 회사에서 검색 품질을 평가하는 일을 담당하며, 사내에서 신입사원을 상대로 업무에서 활용할 수 있는 데이터 과학을 가르치기도 하였다.
삶의 생산성과 행복도를 높일 수 있는 다양한 측정 방법을 개발하여 사용하고 있고, 최근에 이런 활동이 Seattle Times에서 보도되기도 하였다. 정보 검색, 기계 학습, 측정 등을 주제로 한 개인 블로그를 수년간 운영하고 있으며, 정보 검색 분야에서 열편 이상의 국제 학회지 논문의 저자이기도 하다.
미국에 오기 전에는 서울대학교 전기공학부 학사를 마쳤으며, 대학 재학 중에 웹 디자이너로, 그리고 졸업 후에 3년간 소프트웨어 엔지니어로 근무하였다. “드림위버 4(교학사)” 집필에 필자로 참여하였고, “루비웨이(The Ruby Way)” 번역에도 역자로 참여하였다. 2016년 3월 한빛미디어와 데이터 과학 입문서 헬로 데이터 과학을 출간하였다.
유호현: 안녕하세요, 김진영님. 데이터 과학자라고 하셨는데요, 데이터 과학자가 하는 일은 무엇인가요?
네 안녕하세요! 보통은 알고리즘 개발이나 뭔가 멋진 일을 할 것 같지만 실제로는 데이터가 문제가 없고 사용하기 적합한지를 확인 하는 일이나 데이터를 사용하기 적합하게 수정 하는 일이 대부분의 시간을 차지합니다. 데이터에 품질을 보증 할 수 있어야 뭔가 유용한 일을 할 수 있기 때문입니다.
그리고 데이터를 만드는 엔지니어나 결과물을 사용하게 되는 고객들과 의사소통하는데 많은 시간을 투자 합니다. 그러므로 커뮤니케이션 능력이 굉장히 중요한 직업 입니다. 특히 미국에서 일을 하다 보면 전혀 다른 배경을 가진 동료들과 일하게 됩니다. 따라서 문화적 배경의 차이가 의사소통에 장애가 되지 않도록 항상 주의하고 있습니다.
물론 흔히 생각하는 데이터 과학은 알고리즘 개발 및 적용 역시 많은 시간과 노력이 필요한 일입니다. 특히 새로운 기술과 도구가 계속 쏟아져 나오는 분야의 특성상 배움에도 꾸준한 노력을 기울여야 합니다. 제 경우도 비록 박사학위를 받았지만 최근에 딥러닝 기술을 습득 하기 위해 노력하고 있습니다.
유호현: 그럼 데이터 엔지니어, AI 엔지니어, 머신 러닝 엔지니어 등과는 어떻게 다른가요? 소프트웨어 엔지니어링은 안 하시나요?
이들은 모두 데이터 과학자의 다른 이름 이라고 생각하시면 됩니다. 데이터 과학자들은 대부분 자신의 전문 분야를 가지고 다른 분야의 전문가들과 작업 하는 경우가 많기 때문입니다. 소프트웨어 엔지니어링도 필요하지만 많은 경우 다른 팀 혹은 엔지니어와 협업으로 작업하게 됩니다.
유호현: 데이터로 할 수 있는 일. 무궁무진하게 많다고 하는데요, 가장 쓸모있고 세상을 바꿀만 한게 무엇이 있을까요?
데이터로 할 수 있는 일은 계속 늘어나고 있기 때문에 사실 한가지를 선택하기는 매우 힘든 것 같습니다. 저는 차라리 스스로 세상에 기여 하고 싶은 일을 먼저 생각해 보고 그 일에 데이터를 어떻게 적용할 수 있을지 고민하는 것이 나은 방법 이라고 생각합니다. 대부분의 경우 데이터를 활용할 수 있는 방법을 찾을 수 있을 것입니다. 구글과 같은 회사에서는 심지어 직원을 채용하는 일이나 구내식당의 메뉴를 선정하는 일까지 데이타를 활용한다고 하니 사실 모든 분야의 활용할 수 있는 것이라고 생각합니다.
유호현: 데이터를 가지고 스타트업을 할 수도 있을까요?
테크니들 편집장이신 조성문님의 스타트업 차트메트릭이 좋은 사례인 것 같습니다. 각종 음악 관련 서비스에서 API 형태로 공개된 가수 및 음악에 관한 데이터를 가지고 다양한 의사결정에 활용할 수 있는 부가가치 높은 서비스를 만드신 것으로 알고 있습니다. 이처럼 공개된 데이터에 기반한 다양한 사업 모델이 존재합니다.
유호현: 데이터 과학은 어떻게 배워야 할까요?
저는 우선 모든 문제의 데이터를 적용할 수 있다는 신념과 실제로 다양한 문제에 데이터를 적용해 보는 습관이 중요하다고 생각합니다. 그리고 이렇게 배운 내용을 주변 사람들이나 일반 대중과 공유 하는 연습도 권하고 싶습니다. 본인이 데이터를 통해서 발견한 것을 논리적으로 전달하고 이에 대해 다른 사람들이 어떻게 생각하는지를 듣는 것은 데이터 과학에 필수적인 비판적 사고를 기르는데 도움이 됩니다.
데이터 과학에 입문하시는 분들께서 해 주신 질문 중에는 데이터 공부를 하고 싶은데 어디서 시작해야 할지 모르겠다는 질문이 가장 많았던 것 같습니다. 저는 보통 자기 주변에 문제를 단순한 도구를 가지고 해결해보라고 권해 드립니다.
임재완: ‘헬로데이터과학’ 홈페이지에 올리신 ‘스냅에서의 석달’ 포스팅을 재밌게 읽었습니다. 인상적이었던 내용은 스냅챗 검색 런칭 과정이 바빴지만 그 과정이 고통스럽지 않았고, 공동의 목표가 있어 팀 멤버 모두 열심히 일하는 분위기였다는 것이었습니다. 이는 모든 조직이 원하는 상황일텐데요, 공동의 목표 외에 이런 이상적 상황을 만들어줄 수 있는 것에는 무엇이 있을까요?
제 개인적으로 회사를 옮긴 직후였고 많은 팀 동료들도 비슷한 상황이었기 때문에 정신 보장이 무장이 상대적으로 더 잘 되어 있지 않았을까 합니다. 그리고 센프란시스코 오피스에 전체 규모가 50 명이 살짝 넘는 수준이어서 일을 안하면 바로 티가 나는 문제도 있습니다. 수천명이 근무하는 큰 조직에 있을 때 와 상당히 다른 느낌 입니다.
임재완: 1인 개발자처럼 1인 데이터 과학자를 꿈꾸는 분들도 많은 것 같습니다. 이와 관련해 조언해주실 내용이 있으실지요?
일인 데이터 과학자를 ‘혼자 힘으로 데이터를 활용하여 가치를 창조하려는 사람’ 정도로 정의한다면, 역시 스스로 분석하고 고민한 내용을 다른 사람과 공유 하는 것을 게을리 하지 말아야 한다는 조언을 드리고 싶습니다. 같은 데이터에서 서로 다른 결론을 낼 수 있는 가능성이 굉장히 많기 때문에 데이터 공부는 꼭 다른 사람과 같이 해야 합니다.
미국에서 시작된 Quantified Self 커뮤니티가 이렇게 번창 하게 된 것도 자신이 수행한 데이터 분석을 다른 사람과 공유 하고자 하는 자연스러운 동지가 존재하기 때문입니다.
임재완: 한국과 미국의 데이터 과학 생태계는 어떤 차이점/공통점이 있나요?
제가 예전에 쓴 글의 결론 부분을 발췌해 소개합니다.
지금까지 미국의 데이터 사이언스 생태계를 대기업, 스타트업 및 오픈소스 커뮤니티, 학문적 토양의 순서로 살펴보았다. 요약하면 미국의 데이터 사이언스 현상은 기술과 조직문화, 산업계와 학계간의 어우러짐이 이루어낸 복합체다. 따라서 이를 단지 받아들이고 흉내 내는 것에서 벗어나 장기적인 안목에서 우리만의 ‘생태계’를 만들어야 한다는 것이다.
물론 토양, 작은 유기체, 큰 나무까지 모두 조화를 이루는 생태계를 만드는 일에는 오랜 노력과 투자가 뒤따라야 한다. 우선적으로 우수 인력을 양성할 수 있는 교육제도 마련과 더불어 스타트업 및 오픈소스 활동이 활발히 일어날 수 있는 환경이 필요하다. 적어도 컴퓨터 관련 학과에서 ‘스펙’을 쌓는다는 의미가, 창업과 자발적인 개발활동을 하는 것으로 바뀐다면 가능하지 않을까 생각해 본다. 또한 대기업에서 기술 수입과 아울러, 이를 운용하는 자세와 조직 문화까지 배우려는 태도가 필요한 시점이다.
임재완: 일부 데이터 분석가들의 불만 중 하나는 내가 열심히 분석한 결과가 리포팅에 그치는 것입니다. 내 데이터 분석 결과가 실제 의사 결정 과정에서 중요한 역할을 하게 하려면 어떻게 해야 할까요?
역시 커뮤니케이션이 중요한 부분인데 의사결정권자 및 실무자와 문제정의에서부터 해결책 도출까지 전 과정에 거쳐 밀접하게 소통하는 것이 중요합니다. 본인이 직접 참여해서 문제를 결정하고 해결책을 냈는데 무시하는 사람은 없을테니까요.
김진영님은 브런치 매거진에 6분의 데이터 과학자들과 함께 “생활 속 데이터 과학 이야기”를 연재하고 있습니다. 최근에는 데이터 지능 (Data Intelligence) 팟캐스트로 데이터 과학과 AI 이야기를 재밌게 풀어내고 있습니다.