Back to All Events

좋은 데이터는 누가, 어떻게 만드는가

세계 AI 최고 학회 중 하나인 NeurIPS 2022 HCAI Workshop 논문에 선정된 연구를 더 자세하게 들어보세요!

  • 차인하, Upstage AI Product UX Designer

    오주현, Upstage Data Manager

    박철영, Upstage Data Manager

  • - AI 구축에 있어서 데이터의 중요성을 공감하고 더 잘 만들고 싶으신 분

    - 데이터 구축하는 파이프라인이 궁금하신 분

  • - 어떤 단계를 거쳐 데이터셋을 만드는지 데이터 구축 파이프라인에 대해서 알려드립니다.

    - 데이터를 만드는 과정에서 실제로 겪는 어려움에 대해서 알려드립니다.

    - 좋은 데이터를 만드는 과정에 어떤 것을 고민하고 잘하기 위해서 필요한 것들은 무엇인지 알 수 있습니다.

(이번 업스테이지 토크에서 다루는 데이터는 비정형 데이터 이며 비정형 데이터 구축 파이프라인에 대한 이야기입니다.)

최근 데이터 퀄리티에 대한 주목도가 높아지고 있습니다. 모델에 비해 중요도가 간과되기는 하지만 Garbage in, Garbage out 이라는 말처럼 좋은 데이터를 넣어주지 않으면, ML system의 아웃풋이 좋을 수가 없습니다. 이렇게 중요한 데이터를 만드는 과정을 정말 지난하고 루즈하다고 감히 이야기할 수 있습니다.

데이터 구축은 모델 개발의 선행 작업으로서 어쩔 수 없이 견뎌야 하는 과정이 아니라, 만드는 과정에 참여하는 여러 사람들 (Annotator, Data Manager, PM, ML engineer)의 전문성이 복합적으로 녹아들어가는 과정이자, 그 자체로 연구할 가치가 충분한 분야입니다.

업스테이지의 Data Manager인 주현님, 철영님과 UX Designer인 인하님은 OCR Pack과 그에 포함된 Annotation Tool을 만드시며 많은 고민을 하셨습니다. 데이터는 그저 간단하고 객관적인 정보 덩어리라고 생각할 수도 있지만 AI를 위한 데이터에는 그 작업 과정에서 무수히 많은 사람들의 개입이 존재합니다. 데이터를 만드는 데 있어 사람들의 영향을 줄이는 방향으로 시스템을 디자인해야 할까 아니면 강화하는 방향으로 디자인해야 할까? 라는 질문으로 시작한 연구는 AI 최고 학회 중 하나인 NeurIPS 2022 Workshop 논문에 선정되었습니다.


좋은 데이터는 누가 만들고, 어떻게 잘 만들 수 있을까요?

소개글에서부터 정답을 이야기하자면 좋은 데이터는 다양한 사람들이 데이터에 미치는 각각의 역할과 영향을 잘 알고, 이 부분을 AI를 만들어내는 시스템 안에 어떻게 구조화할 것인지 잘 아는 것을 통해서 만들어집니다.

이번 업스테이지 토크에서는 데이터를 만드는 과정에서의 사람들의 다양한 역할과 영향, 그리고 데이터 파이프라인이 어떻게 구조화되는지에 대해서 이야기합니다.


🙋🏻‍♀️ 실시간 강연에 참석이 어려우신가요? 염려마세요!

등록해주신 분들께는 ‘다시보기' 링크를 전달드릴 예정이오니, 지금 바로 신청하세요!

 
Previous
Previous
November 14

2023년 전문연구요원 모집 온라인 설명회

Next
Next
February 16

모두를 위한 AI 개인화 추천: 추천 관련 마케팅 기술의 성장과 기업 내 도입 방법