[경제] "슛 자세 고쳐라"…농구선수에 피드백 준 '코치…
-
5회 연결
본문
진화하는 AI 기술

구글 딥마인드가 21일(현지시간) 공개한 ‘탁구 로봇’ 두 대가 탁구대 양쪽에 설치된 레일을 따라 움직이며 랠리를 이어가고 있다. [사진 구글 딥마인드]
문자뿐 아니라 사진·영상도 인식해 처리할 수 있는 인공지능(AI) 모델인 ‘비전언어모델(VLM)’이 주목받고 있다. 스포츠 분야에서 ‘탁구 로봇’을 훈련시키거나 사람의 농구 슛 자세를 즉시 인식해 피드백을 주는 수준까지 진화하면서다.
구글의 인공지능(AI) 조직 구글 딥마인드는 지난 21일(현지시간) 미국 과학기술전문지 ‘전기전자공학회(IEEE) 스펙트럼’을 통해 로봇 팔끼리 탁구공을 받아치며 훈련하는 ‘탁구 로봇’을 공개했다. 공개된 관련 영상에는 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가는 장면이 담겼다. 노련한 탁수선수처럼 구석구석 날아오는 공을 여유있게 받아쳤다.
로봇의 실력을 향상 시킨건 코치 역할을 한 VLM이었다. 이 AI 모델은 로봇 동작을 관찰해 개선 방향을 제시했고, 로봇은 이를 통해 성능을 끌어올렸다. 구글은 지난 5월 열린 I/O(연례개발자회의)에선 참가자가 농구하는 장면을 촬영한 뒤 곧바로 피드백을 주는 AI 기술을 선보이기도 했다. 사전에 학습된 좋은 슛 자세 정보를 바탕으로 현장에서 슛을 쏘는 사람의 자세를 바로 분석해주는 것이다.
국내에서도 LG유플러스 등이 VLM으로 축구·야구 중계 영상의 하이라이트 장면을 제작해 서비스한 사례가 있다. 이 프로젝트를 주도했던 신윤호 LG유플러스 비전기술팀 선임은 “VLM은 눈이 달린 거대언어모델(LLM)”이라며 “AI 에이전트(비서)나 휴머노이드 로봇 개발에 기반이 될 수 있는 기술”이라고 말했다.
VLM은 기존 AI 모델의 주류였던 LLM에 시각 데이터 처리 능력을 더한 덕분에 그 활용 범위가 넓다. 챗GPT 개발사인 오픈AI는 지난해 ‘GPT-4o’를 활용해 시각장애인이 택시를 부르는 영상을 공개해 화제가 되기도 했다. 이 영상에서는 시각장애인이 도로를 향해 스마트폰 카메라를 비추며 ‘빈 택시를 찾아달라’고 말하자, AI가 ‘택시 한 대가 다가오니 부를 준비하라’고 안내하는 장면이 담겼다.
서비스 활용도가 높아 VLM은 글로벌 빅테크는 물론 국내 AI 업계에서도 개발 경쟁이 치열하다. 네이버클라우드가 지난 4월 공개한 ‘하이퍼클로바X 시드(SEED) 3B’가 대표적이다. 엔씨(NC) AI가 지난 16일 오픈소스로 공개한 ‘바르코 비전(VARCO-VISION) 2.0’도 이미지와 텍스트를 함께 이해하고 복잡한 문서나 표도 효과적으로 처리할 수 있는 VLM 기반 AI 모델이다. 이 모델들은 각각 VLM 분야에서 글로벌 경쟁 모델과 유사하거나 우수한 성능을 보였다.
국내에선 VLM은 산업현장에서 실전에 쓰이고 있기도 하다. 물류 기업에서 수기로 적힌 송장을 인식해 처리하거나 보험 손해 사정에 필요한 처방전과 의료 영수증을 분석하는 식이다. 이 같은 서비스를 제공하고 있는 한국딥러닝 관계자는 “수기로 작성된 문서를 텍스트로 처리하는 광학문자인식(OCR) 기술만으로는 인식 오류율이 높다”며 “여기에 VLM 기술을 더하면 ‘롯데백화점’을 수기로 ‘롯백’이라고 적어도 제대로 인식할 수 있어 오류율을 크게 떨어뜨릴 수 있다”고 설명했다.
VLM의 성능 향상은 휴머노이드 개발 속도를 높이는 데도 관건이 될 전망이다. 구글 딥마인드 로보틱스 팀의 수석 엔지니어 파나그 산케티는 “향후 제조업과 가정, 의료 등 다양한 분야에서 자율적이고 적응력 높은 로봇이 등장하는 데 있어 탁구 로봇은 작지만 강력한 출발점이 될 수 있다”고 말했다.
댓글목록 0