인공지능 기술의 대중화 시대가 열리고 있습니다. 전문가가 아니더라도 인공지능 기술을 이해하고 비즈니스에 적용하려는 사람들이 늘고 있습니다. 그러나 우리가 일반적으로 접하는 인공지능 소식은 두루뭉술한 설명으로 감싼 블랙박스 혹은 눈부시게 화려한 장밋빛에 가까워 그 실체를 파악하기 어려운 경우가 많습니다. 이에 국내외에서 인공지능 업무를 담당하는 실무자나 연구자의 목소리를 직접 듣는 인터뷰 시리즈를 비정기적으로 진행하고자 합니다. 분야와 직급에 상관없이, 자신의 인공지능 관련 업무나 연구, 투자 스토리를 독자들과 공유하고 싶은 분은 jaewan@techneedle.com 으로 메일주시면 감사하겠습니다.
- 책과 본인 소개 부탁드립니다.
‘AI 시대의 저널리즘’은 연합뉴스 AI팀이 2018년 5월 출범 이후 1년 반 가량 겪었던 ‘좌충우돌’ 실무 경험을 정리한 책입니다. 저희 팀은 팀원이 3명입니다. 기자 2명, 엔지니어 1명인데요. 사실 저희 팀이 출범하기 전까지 한국 언론계에서는 사람이 맡던 기사제작 프로세스 일부를 기계에 본격적으로 맡기는 형태의 자동화는 거의 이뤄진 바가 없었습니다. 시범 서비스 수준의 로봇기자 활용 사례가 몇몇 있었을 뿐이었죠. 사람의 본 업무를 기계가 맡는 게 아니라, 전에 아무도 안 썼던 기사를 로봇이 ‘한번 해보는’ 형태였습니다. 업무 부담 경감이나 생산성 증대 효과가 생기기 어려운 구조였죠.
이렇게 선례가 없는 상황에서 대대적인 자동화를 시도하자니 막막했습니다. 결국 미국 AP통신이나 블룸버그 등 한국 언론보다 몇 년 일찍 자동화와 AI 활용을 시작한 해외 매체를 참고해 ‘맨땅에 헤딩’ 식으로 프로젝트를 진행했죠. 저희가 감당하기 어려운 문제가 생기면 이성규 구글뉴스랩 티칭펠로우나 이준환 서울대 언론정보학과 교수님 등 학계ㆍ업계 ‘고수’분들의 지혜를 빌렸습니다. 이런 시행착오와 배움의 과정을 기록으로 남겨보자는 것이 저희 책의 1차 목표였습니다. 이런 우왕좌왕 여정을 그래도 어떤 식으로든 정리하면 저희랑 비슷한 일을 하거나 뉴스 자동화 방향을 고민하는 분들에게 조금이라도 도움이 되지 않을까 싶었습니다.
팀에 있으면 전공이 공대 아니냐는 얘기를 듣는데요. 저는 학부 때 정치외교학을 전공한 ‘뼛속까지 문돌이’ 기자입니다. 연합에 입사한 지 15년이 됐네요. 주로 사회부, IT분야, 국제뉴스부에 있었습니다. 팀의 다른 기자 1명도 학부 전공이 국문학이고요. 개발자만 있어도 될 팀에 너희가 뭘 하는 거냐고 묻는 분도 있습니다.
사실 이게 중요한 질문인데요. 저희는 자동화가 아니라 뉴스 자동화를 합니다. 이 때문에 뉴스에 관한 전문 지식을 갖춘 사람이 필요합니다. 기사는 어떻게 쓰고 취재는 어떻게 하고 기사는 어떤 편집(데스킹) 과정을 거쳐서 나가는지를 알아야 그 프로세스에 기계를 제대로 밀어 넣을 수 있습니다.
이런 이해 없이 소프트웨어만 사서 집어넣으려고 하면 자동화ㆍAI 프로젝트는 십중팔구 망합니다. 뉴스 자동화가 아니라 깜깜이 자동화가 되는 거죠. 저희 팀에서 기자 직군 2명은 업무 프로세스 분석, 뉴스 자동 작성 로직(법칙)의 검토 및 확정, 편집국 의견 청취 및 사후 평가, 미래 프로젝트 기획 등의 업무를 했었습니다.
기자 직군이 하는 정말 중요한 일이 하나 더 있네요. 초기 자동 기사 서비스가 오류 나서 ‘사고’를 치면 편집국에 올라가서 데스크나 평기자들에게 사과하는 일을 했습니다. 아무래도 전에 알던 편집국 식구가 올라와 고개를 조아리니 욕을 세 개 먹을 걸 하나로 줄여 먹는 식의 방어벽 효과가 있었죠. (웃음)
2. 김태균님께서는 연합뉴스의 AI 시스템 도입을 이끌고 계십니다. 2018년 당시 프로젝트를 시작하시면서 해결해야 할 과제 중 하나가 독자에게 가치 있는 콘텐츠를 만드는 것이라고 하셨는데, 독자들에게 가치 있는 콘텐츠란 정확히 무엇일까요?
원론적으로 보면 독자의 지적 호기심을 친절하고 충실히 해소해주는 내러티브 텍스트 기사가 좋은 기사죠. 세상과 독자를 연결하고, 독자가 지식을 재미있게 활용할 수 있게 해주는 기사가 가치가 있습니다. 단순히 정보가 있다고 기사의 값어치가 있다고 주장할 시대는 이미 수년 전에 끝났죠.
좋은 콘텐츠의 요건으로 또 말할 수 있는 것이 잘 된 ‘버저닝 (versioning)’ 여부입니다. 지금의 텍스트 기사는 2000년대 초반 네이버ㆍ다음 포털 소비를 위해 만들어진 형태로, 그 용처가 고정되어 있습니다. 그런데 지금 사람들이 포털로 기사를 읽을까요? 유튜브, 인스타그램, 페이스북, 카카오검색, 팟캐스트, AI스피커 등 뉴스를 접하는 경로가 폭발적으로 다양해지고 있습니다.
그 경로에 딱 맞도록 기사를 버전 전환 (다시 쓰기 및 리패키징)하는 것이 필요한데 이게 바로 버저닝입니다. 버저닝을 얼마나 빨리, 많이, 잘하는가가 뉴스 소비 경험을 개선하는 관건입니다. 버저닝은 사람이 할 수 있지만, 생산성과 스피드를 볼 때 결국은 AI의 힘을 빌어야 할 것으로 보입니다. 만드는 콘텐츠가 몇 개 안 되는 언론사라면 수동 버저닝도 할 만하겠죠. 연합뉴스 같은 뉴스 통신사 규모로 가면 얘기가 달라집니다. 하루 수천건 규모로 쏟아지는 콘텐츠를 누가 무슨 수로 실시간 재가공하겠습니까? 저희 팀도 이 때문에 버저닝처럼 뉴스 유통 (news distribution)에 관한 자동화 및 AI 기술에 관심이 큽니다.
3. 연합뉴스의 인공지능 서비스를 위해 어떤 기술이나 플랫폼을 주로 사용하시나요?
저희 AI 서비스는 엔씨소프트와 협업해 시제품 (프로토타입)을 만드는 단계입니다. 자연어 처리 (NLP, Natural Language Processing)라는 AI 기술을 집중 활용하고 있습니다. NLP는 AI가 사람처럼 글을 읽고 쓸 수 있는 기술입니다. AI 스피커나 대화형 AI 비서 등에 쓰여 일반 대중에게도 익숙한 기술이죠. NLP는 언론사로서는 활용할 수 밖에 없는 기술입니다. 언어가 저희 콘텐츠의 핵심이기 때문이죠. 사진이나 동영상 등 콘텐츠도 결국 제목, 캡션, 대본, 메타데이터 등이 다 언어로 되어 있습니다. 언론 비즈니스는 자연어란 중력으로 움직이는 세계죠. 그 중력을 제어할 수 있는 기술이 있다면 얼마나 많은 걸 바꿀 수 있겠습니까.
AI 기술이 클라우드와 플랫폼 방향으로 발전하면서 구글 클라우드 등 현존 AI 플랫폼을 활용할 가능성도 커졌습니다. 저희도 구글 머신러닝 번역 등의 플랫폼을 활용할 방안을 검토하고 있는데, 아직은 구체적 사용 사례가 나오진 못했습니다. 아마존, 구글, 네이버 등 IT 회사들이 언론사 등 세부 산업에 최적화한 AI 플랫폼 서비스를 발 빠르게 내놓는 만큼 조만간 실 사례가 연합뉴스 내부에서든 밖에서든 나올 것으로 보입니다. 실제 블룸버그는 구글 클라우드 ML 엔진을 이용해 자사에 최적화한 번역 AI 시스템을 만들어 씁니다. 자사가 직접 AI 번역 엔진을 만드는 것보다 훨씬 경제적입니다. 다국어 뉴스에 이 번역기를 돌리는데 사람이 약간의 감수만 하면 내보낼 수 있을 정도로 번역 품질이 좋다고 하네요.
4. 매일 새로운 뉴스 콘텐츠를 제작해야 하는 기자 입장에서 인공지능은 어떤 가치를 가져다 줄 수 있을까요?
원론적으로 AI는 기자에게 SF 영화의 ‘강화복’ 같은 존재입니다. 한번 입으면 창의력, 의제 발굴력, 취재력 등 인간 기자의 역량을 더 강력하게 발휘하게 해주고 기존에는 도저히 엄두를 못냈던 일을 쉽게 하게 해줍니다.
예컨대 기계가 사람처럼 유연한 날씨 기사를 24시간 쉬지 않고 씁니다. 사진ㆍ동영상의 메타 데이터를 분석해 특정 주제나 기사에 어울리는 시각 콘텐츠를 추천해줄 수 있습니다. 기사 수십년치를 읽어 기계가 1장짜리 요약문을 써주거나 이 내용을 백과사전 본문 형태로 바꿔 ‘시사 사전’ 같은 서비스에 씁니다. 채팅과 소셜미디어 포스트 등의 내용을 실시간으로 감시해 그중 뉴스가 될만한 사건을 찾아내 기자에게 알려주는 ‘온라인 감시견’ 같은 기능도 구현할 수 있습니다.
AI 도입 전과 후를 비교하면 생산성의 혜택은 ‘넘사벽’의 차이가 납니다. 한번 변화가 일어나면 다시 그 전으로 돌아가긴 어려울 겁니다. 컴퓨터나 스마트폰 없이 기자 일을 하는 것을 상상하기 어렵지 않습니까? AI는 이런 ‘문명의 이기’에 이어 새 업무 필수품이 될 것으로 예측됩니다.
5. 방금 말씀하신 그 가치들이 국내 언론 환경에서 제대로 구현될 수 있을까요?
바로 전에 원론적인 AI의 가능성에 관해 말씀드렸는데요. 현실을 말해야겠네요. 우리 언론계에서 쉬운 길은 아닙니다. 일단 구체적으로 어떤 업무 프로세스에 AI를 집어 넣어야 좋은지에 관해 경험이 어느 정도 있어야 하는데요. 제가 있는 연합뉴스를 비롯해 우리 언론계에선 이런 적용 경험이 사실상 ‘0’에 가깝습니다.
내부적으로 어떤 업무에 AI가 진짜 절실하다는 깨달음이 있어야 합니다. 그래야 AI를 효율적으로 도입할 수 있지 않겠습니까? 비유하자면 쇠고기 요리를 전혀 한 적이 없는 음식점에 소 한 마리를 던져주고 알아서 고깃집 장사를 해보라는 것과 비슷합니다. 십중팔구 고기 해체, 부위별 보관, 메뉴 설계, 조리 등 모든 단계에서 혼란과 사달이 잇따를 겁니다. 귀한 고기를 잘 쓰지 못하고 버리겠죠.
이 때문에 처음부터 ‘AI가 왜 어느 부문에서 중한디?’에 관해 협의하고 작은 기술부터 적용하는 준비가 필요합니다. 쇠고기 비유로 돌아가자면, 소 한 마리 메뉴 말고 갈비탕 같은 단품 아이템부터 해보자는 겁니다. 그거부터 갈비 부위를 구해와 조리해보는 거죠. 그러고 나서 그 경험을 토대로 메뉴를 확대하고 재료를 수급할 생각을 해야겠죠. 이런 ‘단품형 AI 프로젝트’부터 해야 합니다.
난관은 또 있습니다. 언론사가 단품 프로젝트를 직접 해보기에도 현재의 머신러닝 기술은 아직 너무 비쌉니다. AI 인력 몸값이 하늘까지 치솟았다는 건 다들 아는 얘기죠. 국내 대다수 언론사 연봉으로는 영입이 어렵습니다. 머신러닝 하드웨어도 괜찮은 서버 1대가 수억원에 달하는데요. 이런 일을 직접 사람 구하고 기계 사서 하자고 하면 대다수 조직에서 난리부터 날것입니다. 사업 착수 전에 욕만 먹고 침몰하는 거죠. ‘그나마 부담이 덜한’ 대안이 필요합니다. 외부 업체와 협업을 하거나, 앞서 말씀드린 구글 등의 AI 플랫폼 기술을 쓰는 방법, 언론을 위한 공공 AI 개발 프로젝트를 제안하는 길 등을 예로 들 수 있겠네요. 제가 있는 연합뉴스는 엔씨소프트와의 협업을 택한 거고요.
6. 뉴스 산업에서 데이터가 중요하다고 강조하셨습니다. 데이터 마이닝을 통해 작성된 기사 중 좋은 사례가 있을까요?
데이터 저널리즘은 국내에서 어느 정도 뿌리를 내린 상태입니다. 단 개발자, 기자, 데이터분석가가 모여 ‘한 땀씩’ 손으로 데이터를 정제하고 분석하고 업무가 아직 대세라서 저희가 주력하는 자동화·AI 모델과는 다소 차이가 있습니다. 데이터 마이닝이 좋은 기사를 낳은 성과를 보려면 매년 열리는 ‘한국데이터저널리즘어워드’ 수상작을 보는 것을 추천합니다.
올해 대상작 중 한국일보의 ‘지옥고 아래 쪽방’은 기자의 통찰력과 데이터 분석 역량을 섞으면 어떤 폭발력이 생기는지를 보여주는 사례입니다. 도시 최악 거주지인 쪽방촌. 이곳의 주인은 도대체 어떤 이들인지, 왜 저렇게 열악한 주거공간을 빌려주는지 생각해보신 적이 있나요? 한국일보 기자들은 쪽방 주택 318채의 등기부등본을 입수해 이를 스프레드시트에 손으로 입력해 정제했습니다. 이 작업만 3개월이 걸렸다고 합니다. 이 결과 쪽방촌 소유주의 많은 수가 임대 수익을 노리고 집을 산 외지인이고, 이들이 결국 열악한 공간을 빌려줘 돈만 챙기는 ‘약탈적 지대 추구’ 행위를 일삼았다는 사실을 밝혀냈습니다. 세입자의 거주권과 복지는 완전히 뒷전이었습니다. 소유주 중에선 가족 일가가 쪽방 여러 채를 갖고 역세권 빌딩까지 올린 사례도 있었습니다.
데이터만 분석해서는 이런 성과물은 나오지 않습니다. 등기부등본 소유주 정보와 현장을 비교 확인하고 거주민의 한숨 섞인 얘기를 추적하는 인간의 뚝심과 혜안이 필요합니다. 예컨대 등기부등본 데이터에선 소유주간의 가족 관계가 안 나옵니다. 일가의 다수 쪽방 소유 실태는 촘촘한 현장 취재만으로 밝혀냈습니다. 기계와 인간 저널리스트의 ‘시너지’란 면에서 참 좋은 사례라고 봅니다. 그럼 이렇게 훌륭한 기사를 AI나 자동화 기술을 통해 어떻게 더 쉽게, 더 많이 나올 수 있게 할 수 있을까요? 그게 저희의 다음 고민거리가 될 것 같습니다.
7. 텍스트 요약의 선두주자로 미국 스타트업 ‘아골로 (Agolo)‘를 직접 취재하셨습니다. 이 기업만의 강점은 무엇인가요?
AI 자연어 요약은 ‘노다지’ 분야입니다. 앞서 말씀드린 것처럼 콘텐츠 유통 경로가 다변화하는 상황에서는 버저닝 (versioning) 과정이 중요할 수밖에 없는데요. 기사나 방송원고 등 자연어 콘텐츠를 버저닝하려면 요약 기술이 꼭 있어야 합니다. 저희가 아골로를 만난 이유도 이 때문이었는데요. 이 버저닝·요약 분야의 신예로 미국 AI 업계에 잘 알려진 곳이었기 때문입니다.
요약은 크게 추출 (extraction)과 초록 (abstration) 방식으로 나눠집니다. 추출은 원본에서 문장이나 대목을 빼내 요약하는 방식이고요. 초록은 원본 내용을 분석해 AI가 새로운 문장을 써내는 방식입니다. 추출보다 초록이 구현하기 어려운 고급 기술이죠. 단 초록은 자칫 AI가 맥락이 다른 엉뚱한 문장을 쓸 공산이 있기 때문에 안정성이 떨어지는 문제가 있습니다. 요약을 시켜놨더니 ‘딴 얘기’를 할 수 있다는 거죠.
아골로는 이 추출과 초록을 혼용하는 ‘하이브리드’ 모델로 미국에서 최고 수준의 요약을 해낸다는 평을 듣고 있습니다. 실제 미국 AP통신은 아골로의 이 요약 솔루션을 활용해 2018년부터 버저닝을 하고 있습니다. 자사의 텍스트 기사를 TV 앵커용 보도문으로 전환하는 일을 시키는 것이죠.
아골로는 미국 컬럼비아대 대학원생들이 만든 스타트업입니다. 이 회사는 AP통신과 협업을 하면서 요약 품질을 비약적으로 끌어올렸다고 합니다. AP통신은 예전부터 인간 에디터가 직접 손으로 다듬은 (요약한) TV 앵커 보도문을 쌓아놓고 있었거든요. 원본 AP통신 기사와 TV 앵커 보도문의 쌍 (pair) 데이터를 짜서 대량 아골로에 넘겨줬다고 합니다.
AI는 양질의 학습 데이터를 확보하면 실력이 진일보하는데요. 기계에 요약을 가르칠 교재로 AP 측 데이터보다 더 나은 게 없었다고 합니다. 페이스북이나 구글도 못 얻은 ‘비책’을 확보한 셈이죠. 언론사와 AI 기업이 손잡고 ‘윈윈’한 사례였던 만큼 저희로서도 흥미롭게 느껴진 대목이었습니다.
8. 인공지능 시스템 도입은 뉴스 산업 뿐 아니라 거의 모든 분야에서 중요한 이슈가 되었습니다. 일반 기업 관점에서 인공지능 시스템을 도입할 때 유의해야 할 점은 무엇이 있을까요?
첫째는, 사람의 일과 기계의 일을 명확하게 구분해야 합니다. ‘그게 무슨 대수냐’ 하실 분이 많을 텐데요. 생각보다 이 판단이 어렵습니다. 회사의 업을 분석해보면 사람만이 할 수 있는 일과 기계가 할 단순 반복 업무가 용암처럼 한데 녹아 섞여 있습니다.
이러다 보니 판단을 잘못할 공산이 큽니다. 사람이 꼭 해야 할 일을 기계에 시키거나, 그 반대를 하는 실수를 할 수 있다는 거죠. 그럼 큰일 납니다. 종전 업무 프로세스에 혼란이 일어나거든요. 돈은 썼는데 일은 안되고 사람은 피곤하고 예전에 못 접해본 오류가 쏟아집니다. 프로젝트 진행한 사람들이 ‘역적’이 되기 딱 좋은 상황인 거죠. 저희 책에서도 로봇 기자를 잘못 썼다가 가상의 신문사가 발칵 뒤집어지는 사례를 하나 소개했었는데요. 이는 다른 업종의 회사에서도 충분히 일어날 수 있는 문제라고 생각합니다.
둘째로, 자기 업(業)을 분석하는 과정이 꼭 필요합니다. 저희 팀도 이 대목에서 참 많은 걸 배웠습니다. 기계가 해야 할 일인 줄 알았는데 더 알아보니 결국 사람의 일로 결론 난 경우도 꽤 있었습니다. 예컨대 ‘부고’ 기사 쓰기가 그랬습니다. 부고 기사는 구조가 정해져 있습니다. 고인 성함 쓰고, 상주분들 성함과 직함 넣고 장지 위치 써주고, 발인시간 명기하는 식인데요. 이렇게 구조적 텍스트면 기계가 더 잘, 많이 쓸 수 있을 것 같았죠.
그런데 현장에 의견을 물어보니 저희가 보지 못한 부분이 나타났습니다. 일단 부고 소식이 언론사에 전해지는 경로와 형태가 너무 다양했습니다. 팩스로 날아올 때도 있고 이메일 보도자료로 들어올 수도 있고 카카오톡 메시지나 편지가 될 수도 있습니다. 사실 상을 당해 황망해 하는 유족분들에게 ‘부고 전달 API’ 같은 걸 주면서 통일된 규격으로 부고 정보를 써서 내라고 말하는 게 어불성설이죠. 즉 입력 데이터 (input data)가 너무 다양해 기계가 에러 없이 처리하기 어려웠습니다.
부고를 쓰는 행위도 독특한 맥락이 있더군요. 연합뉴스는 각 분야의 출입 기자가 취재원 부고를 씁니다. 이 과정을 취재원에 대한 ‘인간적 예의’로 생각하는 기자들도 많았습니다. 그런 기사는 기계가 자동 처리할 게 아니라 오히려 사람이 정성껏 써주는 게 맞다는 얘기죠. 자동화를 하면 초기에 에러가 날 공산이 꽤 있는데요. 부고의 상례적·인간적 가치를 고려해보니 오보의 무게를 감당하기 어려웠습니다.
예컨대 AI 시스템이 고인과 상주의 이름을 뒤바꿔 쓰는 사고를 생각해보십시오. 시스템 에러라면서 ‘고침기사’를 내보내고 무시할 사안이 아니죠. 그렇다고 기계가 친 사고에 기자가 매번 사과할 수도 없고요. 결국 부고는 사람이 쓰는 것으로 정리가 됐습니다. 소수 인력이 사내 업무 내용을 그냥 읽어보고 ‘사람 일’과 ‘기계 일’로 나누는 건 금물입니다. 일하는 당사자를 의사 결정 과정에 참여시키거나 현장 리서치를 해야 합니다.