“한국어 데이터 토큰 1조개 함께 모으자” : IT : 경제 : 뉴스 - 한겨레

AI 스타트업 ‘업스테이지’ 각계 제안
“데이터 공유로 상생…수익도 공유”

인공지능 챗봇 서비스 ‘아숙업’(AskUp)을 만든 국내 스타트업 ‘업스테이지’(Upstage)가 최근 언론사, 기업, 학계 등에 인공지능 학습용 한국어 데이터 토큰 1조개를 함께 모으는 ‘1조 토큰 클럽’ 조성을 제안했다. 업스테이지 제공

구글·네이버·카카오 등 빅테크(대형 정보기술 기업)들이 검색과 블로그 등 대규모 서비스를 운영하며 쌓은 데이터를 인공지능 모델 학습 밑재료로 쓰는 것과 달리, 규모가 작은 스타트업은 인공지능 모델을 개발하고 싶어도 양질의 데이터 확보부터가 큰 과제다. 인공지능 챗봇 서비스 ‘아숙업’(AskUp)을 만든 스타트업 ‘업스테이지’(Upstage)가 최근 “저작권 걱정 없이 쓸 수 있는 한국어 텍스트 토큰(말뭉치 데이터) 1조개를 함께 모으자”며 언론사·기업·학계 등에 이른바 ‘1조 토큰 클럽’ 조성을 제안한 이유다.

박찬준 업스테이지 거대언어모델(LLM) 선임연구원. 업스테이지 제공

많은 빅테크가 광범위한 데이터 학습 결과물인 거대언어모델(LLM)은 개방하더라도, 정작 그 모델이 어디에서 어떻게 데이터를 수집해 어떤 과정을 거쳐 학습했는지는 ‘영업 비밀’을 이유로 꽁꽁 숨긴다. 1조 토큰 클럽 조성 프로젝트를 이끄는 박찬준 업스테이지 거대언어모델 선임연구원(사진)은 지난달 23일 한겨레와 인터뷰에서 “빅테크는 자신이 보유한 데이터가 고유의 노하우라고 생각하겠지만 ‘폐쇄 일변도’로 대응하면 한국의 전체 인공지능 산업 발전이 더뎌진다”며 “애플리케이션 개발 도구(API) 개방을 넘어 학습 데이터까지 공유하는 문화가 자리 잡아야 상생이 가능하다”고 강조했다. 박 연구원은 “남의 데이터를 공짜로 가져다 쓰겠다는 게 절대 아니다”며 데이터 기여자에 대한 보상 방법도 두 가지로 제시했다. 업스테이지는 우선 기업·기관들이 각자 필요한 생성형 인공지능 서비스를 만들 수 있도록, 거대언어모델을 애플리케이션 개발 도구(API) 형태로 개방하고 활용 가이드를 제공할 계획이다. 또 기여한 데이터양에 비례해 모델 사용료 일부를 면제할 방침이다. ‘수익 공유 ’도 약속했다 . 예를 들어 회원사들이 제공한 데이터로 만든 인공지능 모델로 업스테이지가 100억원을 벌게 되면 , 그중 절반인 50억원을 1조 토큰 클럽에 일종의 발전 기금 형태로 예치하고 , 이를 회원사들에 기여도에 따라 분배할 방침이다 . 정인선 기자 ren@hani.co.kr