서비스 향 AI 모델에서 데이터가 중요한 이유
2022/09/15
⏱ 3mins
세계적인 인공지능 전문가 앤드류 응(Andrew Ng)은 올해 한 컨퍼런스에서 AI 개발에 있어 모델보다 데이터가 더욱 중요해지고 있다며, 데이터 중심 AI(Data-centric AI)의 중요성을 강조하였습니다. AI는 왜 결국 데이터로 귀결되는 것일까요?
지난 콘텐츠에서 비즈니스에 AI 기술을 도입할 때 고려해야 할 사항들을 짚어본 것에 이어, 이번에는 서비스 향 AI 모델을 개발하는데 필요한 과정을 살펴보고, 그 안에서 데이터가 얼마나 중요한 역할을 하는지 함께 알아보고자 합니다.
서비스 향 AI 모델 개발 과정
실무에서 고객에게 제공할 수 있는 서비스 향 AI 모델을 개발하기 위해서는 크게 4가지 단계를 거칩니다.
1. Project Setup
첫 번째로는 모델의 요구사항을 확정해야 합니다. 처리 시간, 목표 정확도, 목표 qps, Serving 방식, 장비 사양 등의 세부 조건을 설정하는 일종의 프로젝트 셋업 단계라고 볼 수 있습니다. 개발의 방향성을 정하게 되므로 기초가 됩니다.
2. Data Preparation
그다음으로는 목표를 달성하기 위해 데이터를 준비해야 합니다. 최근에는 데이터 없이 모델을 학습하는 방법론도 있지만, 아직까지는 서비스에 사용되는 대부분의 ai 모델은 지도 학습 (Supervised Learning basics)으로 진행됩니다. 즉, 정답이 있는 데이터셋이 있어야 모델을 학습시킬 수 있는 것입니다.
그래서 어떤 종류의 데이터가 필요한지, 수량이나 라벨링 등에 대한 논의를 하고 그에 맞는 데이터 셋을 준비하는 것이 두 번째 단계입니다.
3. Model Training
세 번째 단계는 모델링 작업에 들어가는 Model Training 단계입니다. 모델 구조를 생각하고, 학습 최적화 방법을 고민하여 앞서 첫 번째 단계에서 설정한 요구사항을 달성하는 모델을 만드는 작업이 바로 이 모델 트레이닝 단계입니다.
4. Deploying
모델의 요구사항을 달성하게 되면 해당 AI 모델이 적용된 서비스를 런칭하는 마지막 단계를 시행합니다. AI 모델을 배포한 이후에는 여타 소프트웨어와 마찬가지로 예상치 못한 이슈가 발생할 수 있기 때문에 성능을 모니터링 해야 하고, 또 이슈 발생 시 이를 해결하는 작업도 필요합니다.
여기까지가 서비스 향 AI 모델을 개발하는 일련의 과정입니다. 이 과정을 한 문장으로 표현하자면 결국 요구사항을 충족하는 모델을 만들어가는 일입니다. 다만 앞서 언급되었듯이 서비스에 AI 모델을 배포한 이후에도 우리가 생각지 못한 변수가 발생하기 때문에 결국 서비스 향 AI 모델 개발의 전체 과정은 성능을 유지하기 위해 모델의 요구사항을 지속적으로 충족시키는 과정이라고 볼 수 있습니다.
서비스 향 AI 모델 성능 유지를 위한 두 가지 접근법
이처럼 중요한 AI 모델 성능 유지에는 어떤 방법이 있을까요? 크게 두 가지 접근법이 있습니다.
Model-Centric: 모델 구조를 최적화하는 것으로, 데이터는 고정시키고 모델 성능을 끌어올리는 방법
Data-Centric: 다른 코드는 그대로 두고 데이터만 수정하거나 추가하는 식으로 모델 성능을 끌어올리는 방법
서비스 출시를 위한 모델 성능 달성 방법
그렇다면 첫 릴리즈를 위한 모델 성능 달성에 있어서 데이터와 모델에 대한 비중은 어떨까요? AI 모델이 서비스에 출시되기 전에는 Data-Centric과 Model-Centric의 중요도가 각각 50%대 50%으로 여겨집니다.
모델 요구사항 설정 시 논의된 여러 요소들은(처리 시간, 목표 qps, 서빙 방식, 장비 사양) 모델의 힘에 의해 좌지우지되지만, 정확도를 확보하기 위해서는 데이터의 힘과 모델의 힘이 모두 필요하기 때문입니다. 따라서 이 두 가지 방식은 모델의 서비스 출시 전까지는 모두 동일한 비중을 차지하는 것이 일반적입니다.
서비스 출시 이후 모델 성능 개선 방법
반면, 서비스를 출시하고 난 이후 사용 중인 모델의 성능을 개선하고자 할 때에는 데이터의 힘(Data-Centric)에 기울이는 노력이 80% 이상을 차지하게 됩니다.
그 이유는 서비스 출시 후에 정확도에 대한 성능 개선 요구가 가장 많기 때문입니다. 이때 정확도 개선을 위해 모델 구조를 변경하는 것은 처리 속도, qps, 메모리 크기 등에 대한 요구사항의 검증도 다시 해야 하므로 비용이 크게 들기 마련입니다. 따라서 서비스 출시 이후에는 가능하면 모델의 구조는 바꾸지 않고, 데이터의 힘으로만 성능을 올리거나 혹은 모델 학습 방법을 조금 바꿔 성능을 개선하기 때문에 데이터의 힘이 중요하게 작용합니다.
이처럼 서비스에 활용되는 AI 모델을 만들기까지 데이터의 중요성은 여러 번 강조되어도 지나치지 않습니다. 실제 비즈니스 문제를 풀어가는 과정에서는 어떤 문제를 맞닥뜨리게 되고, 또 어떻게 문제를 데이터로 해결하게 될까요?
실제 비즈니스 현장에서의 사례가 궁금하신 분들은 금융권에서의 디지털 혁신 경험을 공유하는 업스테이지 토크, 또는 추후 업스테이지 홈페이지에 공개될 AI Tech 강연 영상을 통해 더 많은 인사이트를 얻어가실 수 있습니다.