기계학습 통해 비꼬는 글 인식 가능해져

버클리주립대 David Bamman과 워싱턴대학교 Noah Smith가 비꼬는 글(Sarcasm)을 구별하는 모델을 개발하였다고 ICWSM(International AAAI Conference on Web and Social Media) 학회에 기고된 학문저널에서 밝혔다. #sarcasm 해쉬태그가 있는 트윗을 기반으로 모델을 학습시켰으며 단순 자연언어처리 및 텍스트 마이닝을 통해 비꼬는 글을 인식하는 기존 시도와 달리 작성자의 정보 및 글의 주제를 포함하여 85%의 정확도로 Sarcasm인지 아닌지 예측할 수 있는 모델을 개발하였다고 밝혔다.

tN 인사이트: 효과적인 Sarcasm 인지모델은 단순 흥미를 떠나 사업적으 활용 가능성이 매우 높다. Sarcasm은 미국 일반 생활표현에 뿌리깊게 박혀있어 SNS는 물론 옐프(Yelp)나 Foresquare의 리뷰에도 꽤 높은 빈도수로 올라오기 때문에 효과적으로 Sarcasm을 자동으로 인식하고 그에 알맞는 정보를 소화하는 것이 데이터 가치 창출에 있어서 매우 중요하기 때문이다. 하지만 작성자 정보 및 글의 주제를 포함하여 정확도를 높인 부분은 상기 모델의 확장성을 제한한다. 특정 글의 작성자에 대해 정보가 빈약할 경우, 그리고 기존 학습한 데이터에 존재하지 않는 주제에 대해 얘기할 시, 결국은 문자 데이터에 의존할 수 밖에 없기 때문이다. 사람들도 이해하기 힘든 빈정댐을 컴퓨터가 이해할 수 있는 시대가 조금씩 다가오고 있다.

관련 기사: MIT Technology Review | 이미지 출처phoenixwave

Written by

American Express에서 Data Scientist로 근무하고 있습니다. 뉴욕에서 근무하고 있으며 최신 기술, Big Data, Startup에 관심이 많습니다.