업스테이지, 한글 데이터를 위한 ‘1T 클럽’ 발족으로 대한민국 LLM ‘독립선언’
2023/8/14
업스테이지, 1조 토큰 모으는 ‘1T 클럽’ 발족으로 고성능 한국어 LLM 개발을 위한 생태계 조성
세계 최고 성능 모델 구축 능력 기반, 데이터 제공자에게 모델제공과 수익공유하는 상생모델 제시
데이터 보안, 정보보호에도 만전…”데이터제공자 권익과 국내 기업 AI발전 수혜 두마리 토끼 잡는다”
(업스테이지=2023/8/14) 세계 최고 오픈LLM 모델 구축으로 글로벌 AI 업계의 주목을 받고 있는 업스테이지가 ‘대한민국 LLM 독립선언’에 나선다.
업스테이지(대표 김성훈)는 한국어 데이터 부족 문제를 해결하고, 고성능 LLM(Large Language Model: 거대 언어 모델) 개발을 통한 대한민국 LLM의 독립을 위해 ‘1T 클럽’을 발족한다고 14일 밝혔다. ‘1T 클럽’은 ‘1 Trillion 토큰 클럽’을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다.
업스테이지는 이달 초 자사가 개발한 모델이 세계 최대 머신러닝 플랫폼 허깅페이스에서 운영하는 ‘오픈 LLM 리더보드’ 평가 점수에서 72.3점을 획득, 챗GPT의 기반인 GPT-3.5 성능을 뛰어넘고 1위를 차지하며 주목을 받은 바 있다.
허깅페이스 오픈 LLM 리더보드는 오픈소스 생성 AI 모델의 바로미터로 꼽힌다. 전 세계 500여개의 오픈 모델들이 추론과 상식 능력, 언어 이해 종합능력 및 환각현상(할루시네이션) 방지 등 4가지 지표의 평균 점수로 경쟁, 공신력 있는 순위가 매겨진다. 현재 업스테이지는 73점을 돌파하는 모델을 배포, 세계 1, 2위 모델을 독식하고 있다.
'1T 클럽’은 한국어 데이터의 부족 문제 해결은 물론, 데이터 제공자와 모델 제작기업이 상생하는 생태계 확립을 통한 국내 LLM의 독립을 위해 고심한 업스테이지의 새로운 도전이다. 업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 고품질의 LLM을 개발하고 이를 통해 국내 생성AI 다양한 분야의 애플리케이션에 활용, 인공지능의 발전에 기여할 수 있을 것으로 기대하고 있다.
업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이다. 또한 다양한 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM의 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획이다. '1T 클럽’에 관심 있는 기관은 업스테이지 공식 홈페이지 또는 링크(www.upstage.ai/up-1-trillion-token-club)를 통해 신청서를 제출할 수 있다.
한국어 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 상당히 부족하고 저작권의 문제에도 직면해있다. 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다.
예를 들면 최근 오픈LLM 시장의 최고 모델로 불리는 메타의 ‘라마2’의 경우 2조개, 구글의 ‘람다’는 2조 8100억개 분량의 토큰데이터를 학습에 사용, 놀라운 성능을 보였다. 하지만 한국어 데이터 학습량의 경우 GPT-3 기준으로 약 1억개로 비중은 0.01697%, 전체 언어 중 28위에 불과하다. 하지만 영어는 45조 개의 토큰으로 학습, 데이터 양에 비례하는 LLM의 언어별 성능의 격차를 만든다.
업스테이지는 ‘1T 클럽’을 통해 한국의 AI 능력을 더욱 향상시키고, 글로벌 AI 산업에서 한국이 선두 주자의 위치를 확립하기 위해 최선을 다할 계획이다. 특히 크롤링을 통한 AI 학습으로 인해 저작권 이슈 등 부작용이 발생하는 문제 해결은 물론, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영될 계획이다.
업스테이지는 ‘1T 클럽’에 참여하는 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인해주고, LLM의 API 사업으로 창출될 수익을 공유하는 등 두가지 방식으로 혜택을 제공할 계획이다.
우선, 전자인 API 사용료 할인의 경우, 파트너사는 기여 토큰수에 비례해 업스테이지가 자체 제작하는 최고 성능의 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있다. 예를 들어, 1억 단어 분량의 토큰을 제공한 파트너사는 1억 토큰 만큼의 API를 무상으로 사용할 수 있다.
또한, 수익을 공유하는 ‘Profit Share 방식’은 업스테이지가 LLM의 API 사업으로 수익을 창출할 경우, 그 중 일부를 파트너사들과 공유하는 방안으로 운영된다. 업스테이지는 이를 위해 LLM API 사업 수익의 일부를 재원으로 활용, 1T 클럽 수익 공유에 할당할 예정이며 각 파트너사들은 자신이 기여한 데이터 양에 비례하여 수익을 받을 수 있다.
업스테이지는 제공된 데이터의 보안과 개인정보보호에도 만전을 기할 방침이다. 업스테이지는 파트너사들이 제공하는 데이터를 모델의 한글 프리트레이닝(pre-training) 학습 용도로만 사용, 일반적인 지식과 글 요약, 정리 등의 능력만 가지게 되고, 원문 추출은 불가능하도록 운용할 계획이다. 또한 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체적인 탈옥방지(Jailbreak Check) 기술을 통해 원문 유출을 원천적으로 차단할 계획이다.
업스테이지의 김성훈 대표는 "LLM은 오늘날 생성형 인공지능의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 '1T 클럽’을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.
-
업스테이지 | 김근교 PR 이사 | keunkyo@upstage.ai
업스테이지 | 배성범 PR 매니저 | sungbae@upstage.ai보도자료 다운받기
-
2020년 10월 설립한 업스테이지는 이미지에서 원하는 정보를 추출해 이용할 수 있는 OCR기술을 비롯, 고객 정보와 제품 및 서비스 특징을 고려한 추천 기술, 의미기반 검색을 가능케하는 자연어처리 검색기술 등 최신 AI 기술을 다양한 업종에 맞춤형으로 손쉽게 적용할 수 있는 노코드-로코드 솔루션 ‘Upstage AI Pack’을 출시, 고객사들의 AI 혁신을 돕고 있다. Upstage AI Pack을 이용하면 데이터 가공, AI 모델링, 지표 관리를 쉽게 활용할 수 있을 뿐 아니라 지속적인 업데이트를 지원, 상시 최신화 된 AI 기술을 편리하게 사용할 수 있다. 더불어, AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육콘텐츠 사업에도 적극 나서고 있다.
업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.