인공지능 (AI) 분야에서 데이터 품질 하락을 걱정하는 목소리가 커지고 있다.
암 진단, 야생동물 밀렵, 신용도 예측과 같은 고위험 분야에서 데이터 품질은 매우 중요하지만 역설적으로 데이터는 AI 산업에서 가장 저평가되고 있는 부분이다.
구글 연구팀은 인도, 아프리카, 미국의 AI 종사자 53명을 대상으로 이 문제를 분석한 논문을 발표했다. 논문에서는 저평가된 데이터 품질로 인해 문제가 점점 심화되어 이후 결과에 부정적인 영향을 미치는 Data Cascade 현상에 대한 증거를 제시한다. Data Cacade 현상은 AI 산업에 92% 수준으로 만연해 있다.
논문에 따르면 데이터는 성능, 공정성, 견고성, 안정성, 확장성에 크게 영향을 미치는 반면, AI 연구개발 분야에서 가장 덜 장려되는 부분이며 알고리즘이나 모델 작업과 같이 대우받는 대신 운용작업으로 여겨진다 (AI에서 모델은 데이터를 통해 학습된 수학적 알고리즘을 뜻한다).
대부분의 기업에서 데이터 품질관리가 제대로 되지 않고 있으며 단지 3%의 회사만이 기본적인 데이터 품질기준을 만족시킨다는 연구결과도 있다. 이것으로 비롯된 문제는 임산부의 건강, 도로 안전, 기후 변화, 암 진단과 같은 고위험 분야에서 큰 영향을 미친다.
Data Cascade 문제는 다음과 같은 네 가지 요소에 의해 영향을 받는다.
- 데이터 분야에 소홀한 AI 보상과 장려 시스템: 데이터 품질 향상은 추적이 쉽지 않으며 따라서 보상도 어렵다.
- 데이터 품질에 소홀한 AI 교육: 캐글(Kaggle)과 같은 온라인 AI 교육 시스템에서는 실무와는 다르게 정리된 데이터셋을 제공한다.
- 어려운 데이터 구축: 지역, 인구, 현상, 종과 같은 특화된 데이터가 필요한 분야가 있으며 특히 디지털화되지 않은 말라리아 전파와 같은 데이터는 구축이 어렵다.
- 후속 책임: 주요 AI 분야는 생명에 직접적인 영향을 미치며 AI 종사자들은 데이터 부족과 후속 방법론에 의한 문제에 부딪힌다. “혹시 눈의 질병을 예측하는 모델이 문제 있는 사람을 없다고 예측하면 그 사람은 장님이 되는거에요”라고 아프리카의 의료종사자는 이야기한다.
이 문제를 해결하기 위해서 데이터 처리를 지저분한 일로 간주하는 것에서 벗어나 데이터 품질과 가시성을 개선하는 것에 집중할 필요가 있다.
더불어 보상시스템을 개선하고 실무 데이터 상황을 고려한 AI 교육을 하는 것이 이 문제를 해결할 수 있는 방법이라고 논문에서는 이야기한다.
테크니들 인사이트
필자가 현업에서 AI 프로젝트에 참여하며 느낀 점은 연구나 모델링보다 데이터나 엔지니어링 작업이 압도적으로 많다는 것이다.
보통 하나의 AI 프로젝트를 출시하기 위해서는 데이터를 찾아서 분석한 뒤 파이프라인을 만들고 백엔드 서비스와 연동하고 배포 자동화를 하고 A/B 테스트를 통해 성능을 측정해 모델이 제대로 동작한다는 결과가 나와야한다. 그리고 모니터링과 유지보수 작업이 이어진다. 이 과정에서 알고리즘이나 모델링 작업이 차지하는 비중은 크지 않다.
AI에서 모델이나 알고리즘은 핵심적이지만 그것에만 집중해서는 좋은 결과를 낼 수 없다.
출처: Google Research