Upstage

View Original

좋은 데이터는 누가, 어떻게 만드는가

See this form in the original post

최근 데이터 퀄리티에 대한 주목도가 높아지고 있습니다. 모델에 비해 중요도가 간과되기는 하지만 Garbage in, Garbage out 이라는 말처럼 좋은 데이터를 넣어주지 않으면, ML system의 아웃풋이 좋을 수가 없습니다. 이렇게 중요한 데이터를 만드는 과정을 정말 지난하고 루즈하다고 감히 이야기할 수 있습니다.

데이터 구축은 모델 개발의 선행 작업으로서 어쩔 수 없이 견뎌야 하는 과정이 아니라, 만드는 과정에 참여하는 여러 사람들 (Annotator, Data Manager, PM, ML engineer)의 전문성이 복합적으로 녹아들어가는 과정이자, 그 자체로 연구할 가치가 충분한 분야입니다.

업스테이지의 Data Manager인 주현님, 철영님과 UX Designer인 인하님은 OCR Pack과 그에 포함된 Annotation Tool을 만드시며 많은 고민을 하셨습니다. 데이터는 그저 간단하고 객관적인 정보 덩어리라고 생각할 수도 있지만 AI를 위한 데이터에는 그 작업 과정에서 무수히 많은 사람들의 개입이 존재합니다. 데이터를 만드는 데 있어 사람들의 영향을 줄이는 방향으로 시스템을 디자인해야 할까 아니면 강화하는 방향으로 디자인해야 할까? 라는 질문으로 시작한 연구는 AI 최고 학회 중 하나인 NeurIPS 2022 Workshop 논문에 선정되었습니다.

← 리스트로 돌아가기