2022년 현재, 3억 명의 아마존 고객이 190만 판매자들로부터 상품을 구매한다. 전 세계 175개가 넘는 풀필먼트 센터에서 하루 약 160만 개의 배송을 처리한다. 거래되는 상품이 많다 보니 포장재 (골판지 박스, 봉투 등)도 다양하다.
아마존 입장에서는 작업자 편의, 포장 효율성, 탄소배출 절감, 파손 감소 등을 위해 상품 크기에 적합한 포장재를 결정하는 자동화 시스템이 필요하다. 고객 입장에서도 과포장되어 오는 박스나 충전재를 추가로 버려야 하는 귀찮은 문제가 있다. 상품 크기에 맞지 않는 포장은 부정적인 고객 경험을 유발한다.
아마존은 최근 자사 블로그를 통해 과포장 문제에 대한 그동안의 성과를 자세히 공개했다. 특히 고객이 구매한 상품과 그에 따른 포장재를 최적화하는 머신러닝 알고리즘을 개발한 연구진들의 노력이 돋보였다.
이들이 발표한 논문 ‘Reducing Amazon’s packaging waste using multimodal deep learning’에 따르면 텍스트와 이미지 분석을 결합한 다중형식 (multimodal, 멀티모달) 딥러닝이 과포장 해결의 핵심으로, 다음과 같은 4가지 방법이 제시되었다.
방법 1) 상품 기본 정보와 고객 리뷰 텍스트에 주목하자
연구진이 주목한 첫 번째 해결책은 텍스트 분석이다. 상품 기본 정보에는 상품의 크기와 재질, 무게 등이 텍스트 형태로 담겨 있어 포장재를 결정하는 기초 데이터가 된다. 상품 페이지마다 달려 있는 고객 리뷰나 고객 센터 챗봇과 나눈 대화 등에는 배송 중 발생한 파손에 대한 각종 불만이 담겨 있다. 이런 텍스트 데이터들은 상품 크기와 종류에 적합하면서도 파손을 줄이는 최적의 포장재를 찾을 수 있는 유용한 정보를 담고 있다.
방법 2) 풀필먼트 센터 입고 시 스캔하는 상품 이미지를 분석하자
풀필먼트 센터에 입고되는 상품들은 컨베이어 벨트를 지나며 다양한 앵글에서 카메라로 스캔을 한다. 작업자가 일일이 확인하기는 불가능하므로 컴퓨터 비전 기술을 활용해 대규모 검수를 하는 것이다.
연구진은 이 과정에서 생성되는 이미지 데이터도 분석했다. 특히 판매자가 이미 어느 정도 포장을 해서 입고한 상품들의 이미지에 주목했다. 이런 상품들은 풀필먼트 센터에서 재포장이 필요 없거나 가벼운 수준의 포장만으로도 충분했기 때문이다.
방법 3) 데이터 불균형을 해결하자
연구진이 맞닥트린 어려움은 데이터 불균형이었다. ‘포장에 문제가 없는 데이터의 개수’와 ‘포장에 문제가 있는 데이터의 개수’가 비슷한 균형을 이뤄야 성능 좋은 머신러닝 모델을 개발(훈련)할 수 있다. 그런데 방법 1)과 방법 2)에서 분석한 텍스트와 이미지 데이터에는 ‘포장에 문제가 없는 데이터의 개수’가 훨씬 많았다.
이를 위해 연구진은 Two-phase Learning with Random Under Sampling이라는 방법을 통해 ‘포장에 문제가 있는 데이터’가 비록 개수는 적지만 모델 개발 과정에서 영향력이 커질 수 있도록 설정해 데이터 불균형 문제를 해결했다.
방법 4) 여러 형식의 데이터를 동시에 고려하자
끝으로 연구진은 아래 그림과 같이 상품 기본 정보, 텍스트 데이터, 이미지 데이터 등 여러 형식의 데이터를 동시에 고려해 포장재를 결정하는 이른바 다중형식 딥러닝 모델을 고안했다.
각 형식의 데이터를 따로 분석해 결론을 도출하게 되면 아무래도 시간과 노력이 각각 들고 무엇보다 오류 가능성이 높아진다. 연구진은 마치 사람 작업자가 상품 기본 정보와 고객 불만을 파악한 상태에서 눈으로 상품을 확인한 후 포장재를 고르는 것과 같은 형태로 다중형식 딥러닝 모델을 설계했다.
테크니들 인사이트
아마존은 오늘 소개한 딥러닝 모델 외에도 PackOpt라는 이름의 포장 최적화 알고리즘을 통해 과포장을 줄이는 노력을 해왔다. 그 결과 북미와 유럽 지역에서 지난 5년간 골판지 박스 사용량을 35% 넘게 줄일 수 있었다고 한다. 아마존은 2021년 현재, 글로벌 배송의 65%를 포장 최적화 알고리즘으로 처리했으며 2022년에는 이 수치를 97%로 높일 것이라고 밝혔다. 올해 공개될 아마존의 2022년 지속가능보고서에 관련 내용이 담길 것으로 예상된다.