[경제] 못믿을 AI 순위표? "성적 올리려 기출문제만 달달 외우게 한다" [팩플]

본문

17145984916418.jpg

글로벌 AI 플랫폼인 허깅페이스는 AI 챗봇의 핵심 기술인 대규모언어모델(LLM)의 성능 시험 점수를 줄 세워 평가하는 '리더보드(순위표)'를 운영하고 있다. 사진 허깅페이스 홈페이지 캡처

인공지능(AI) 모델의 성능 비교·평가 방식을 둘러싼 AI기업들의 고민이 깊어지고 있다. AI 모델 성능의 척도로 통했던 ‘리더보드(순위표)’가 실제 성능을 보장해주지 않는다는 불만이 쌓이면서다.

무슨 일이야

리더보드는 AI 모델 성능을 측정하는 시험인 ‘벤치마크(성능시험)’ 점수를 줄 세워 평가한 순위표다. 그간 국내 기업이 자사 AI 모델의 성능에 대해 “글로벌 1위”라고 발표했던 근거가 됐다. 글로벌 AI 플랫폼 허깅페이스가 운영하는 ‘오픈 LLM 리더보드’가 가장 널리 쓰인다. 지난 3월 국내 AI 기업 솔트룩스는 오픈 LLM 리더보드에서 글로벌 1위(매개변수 350억개 이하 모델 기준)를 기록했다고 밝혔다. AI 스타트업 업스테이지와 모레는 각각 지난해 말과, 올해 1월 같은 리더보드 전체 부문에서 글로벌 1위에 올랐다고 발표했다.

좋은 성과지만 최근 AI기업들 사이에선 리더보드 순위에 크게 의미부여를 하기 어렵다는 평가가 많이 나온다. 카카오뱅크 AI 개발부서 한 관계자는 “리더보드 상위권의 AI 모델을 사용해봐도, 각종 정성평가를 해보면 만족스럽지 않았다”고 말했다. 익명을 요청한 네이버 AI 관련 부서 관계자도 “해외를 중심으로 성능이 좋지 않은 소규모 LLM이 높은 순위를 기록하면서 리더보드의 신뢰성에 대한 업계의 의문이 꾸준히 늘었다”며 “모두가 신뢰할만한 거대언어모델(LLM) 평가 지표를 찾는 게 업계의 큰 과제”라고 말했다.

함께 보면 좋은 팩플 인터뷰

  • 17145984917726.jpg

    AI 모델 40만개 공개했다, 개발자 200만명 홀린 ‘

0
로그인 후 추천을 하실 수 있습니다.
SNS
댓글목록 0
등록된 댓글이 없습니다.
전체 22,976 건 - 1 페이지