[경제] "슛 자세 고쳐라"…농구선수에 피드백 준 '코치…

본문

문자뿐 아니라 사진·영상도 인식해 처리할 수 있는 인공지능(AI) 모델인 ‘비전언어모델(VLM)’이 주목받고 있다. 스포츠 분야에서 ‘탁구 로봇’을 훈련시키거나 사람의 농구 슛 자세를 즉시 인식해 피드백을 주는 수준까지 진화하면서다. 국내에서도 수기로 작성된 문서를 인식해 산업 현장의 효율성을 높이는 데 활용되고 있다.

17532695180119.jpg

구글 딥마인드가 공개한 '탁구 로봇'. 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가고 있다. 사진 구글 딥마인드

무슨 일이야

구글의 인공지능(AI) 조직 구글 딥마인드는 지난 21일(현지시간) 미국 과학기술전문지 ‘전기전자공학회(IEEE) 스펙트럼’을 통해 로봇 팔끼리 탁구공을 받아치며 훈련하는 ‘탁구 로봇’을 공개했다. 공개된 관련 영상에는 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가는 장면이 담겼다. 노련한 탁수선수처럼 구석구석 날아오는 공을 여유있게 받아쳤다.

로봇의 실력을 향상 시킨건 코치 역할을 한 VLM이었다. 이 AI 모델은 로봇 동작을 관찰해 개선 방향을 제시했고, 로봇은 이를 통해 성능을 끌어올렸다. 구글은 지난 5월 열린 I/O(연례개발자회의)에선 참가자가 농구하는 장면을 촬영한 뒤 곧바로 피드백을 주는 AI 기술을 선보이기도 했다. 사전에 학습된 좋은 슛 자세 정보를 바탕으로 현장에서 슛을 쏘는 사람의 자세를 바로 분석해주는 것이다.

국내에서도 LG유플러스 등이 VLM으로 축구·야구 중계 영상의 하이라이트 장면을 제작해 서비스한 사례가 있다. 이 프로젝트를 주도했던 신윤호 LG유플러스 비전기술팀 선임은 “VLM은 눈이 달린 거대언어모델(LLM)”이라며 “AI 에이전트(비서)나 휴머노이드 로봇 개발에 기반이 될 수 있는 기술”이라고 말했다.

VLM이 왜 중요해

VLM은 기존 AI 모델의 주류였던 LLM에 시각 데이터 처리 능력을 더한 덕분에 그 활용 범위가 넓다. 챗GPT 개발사인 오픈AI는 지난해 ‘GPT-4o’를 활용해 시각장애인이 택시를 부르는 영상을 공개해 화제가 되기도 했다. 이 영상에서는 시각장애인이 도로를 향해 스마트폰 카메라를 비추며 ‘빈 택시를 찾아달라’고 말하자, AI가 ‘택시 한 대가 다가오니 부를 준비하라’고 안내하는 장면이 담겼다.

서비스 활용도가 높아 VLM은 글로벌 빅테크는 물론 국내 AI 업계에서도 개발 경쟁이 치열하다. 네이버클라우드가 지난 4월 공개한 ‘하이퍼클로바X 시드(SEED) 3B’가 대표적이다. 엔씨(NC) AI가 지난 16일 오픈소스로 공개한 ‘바르코 비전(VARCO-VISION) 2.0’도 이미지와 텍스트를 함께 이해하고 복잡한 문서나 표도 효과적으로 처리할 수 있는 VLM 기반 AI 모델이다. 이 모델들은 각각 VLM 분야에서 글로벌 경쟁 모델과 유사하거나 우수한 성능을 보였다.

17532695182177.jpg

엔씨(NC) AI의 ‘바르코 비전(VARCO-VISION) 2.0’ 시연 장면. 식당 메뉴판 사진과 주문 내역을 입력하자 총 결제 금액을 계산해주고 있다. 사진 NC AI

국내에서 어떻게 활용되나

국내에서도 VLM은 산업현장에서 실전에 쓰이고 있다. 물류 기업에서 수기로 적힌 송장을 인식해 처리하거나 보험 손해 사정에 필요한 처방전과 의료 영수증을 분석하는 식이다. 이 같은 서비스를 제공하고 있는 기업인 한국딥러닝 관계자는 “수기로 작성된 문서를 텍스트로 처리하는 광학문자인식(OCR) 기술만으로는 인식 오류율이 높다”며 “여기에 VLM 기술을 더하면 ‘롯데백화점’을 수기로 ‘롯백’이라고 적어도 제대로 인식할 수 있어 오류율을 크게 떨어뜨릴 수 있다”고 설명했다.

앞으로는

VLM의 성능 향상은 휴머노이드 개발 속도를 높이는 데도 관건이 될 전망이다. 구글 딥마인드 로보틱스 팀의 수석 엔지니어 파나그 산케티는 "향후 제조업과 가정, 의료 등 다양한 분야에서 자율적이고 적응력 높은 로봇이 등장하는 데 있어 탁구 로봇은 작지만 강력한 출발점이 될 수 있다"고 말했다. VLM 개발 역량을 높이기 위한 조건도 있다. 국내 AI 업계 한 관계자는 “관건은 시각 데이터를 최대한으로 확보하는 것”이라며 “LLM보다 그래픽처리장치(GPU) 소모량도 많아 더 적극적 투자도 이뤄져야 한다”고 말했다.

더중앙플러스 : 팩플

더 자세한 기사 내용이 궁금하시다면, 기사 링크를 복사해 주소창에 붙여넣으세요.

IT 천재는 이렇게 기록한다…잡생각 다 엮어주는 ‘메모앱’
노션·슬랙·옵시디언…, 사무직이라면 매일 쓰는 생산성 도구에 인공지능(AI)이 스며들었습니다. 우리는 더 이상 도구를 사용하는 게 아니라 똑똑한 파트너와 함께 ‘협업’하고 있습니다. AI가 기존 도구의 한계를 자연스럽게 보완하면서 일하는 방식도 진화하고 있습니다. 하루 종일 걸릴 일을 한 시간에 마무리하는 생산성 매직, 남의 일이 아닙니다. 팩플이 사무직의 필수품, 생산성 도구들을 AI와 결합해 쓰는 활용법을 기초부터 알려드립니다.
https://www.joongang.co.kr/article/25352255

퍼플렉시티 추천에 간택됐다, AI 검색에 걸린 韓기업 전략
검색의 시대, 검색 결과 상단 노출을 위해 치열한 마케팅 경쟁을 벌여 온 이들의 전장(戰場)이 서서히 옮겨가고 있다. 구글, 네이버 검색 대신 이들이 향한 곳은? 챗GPT나 제미나이, 퍼플렉시티 등 ‘인공지능(AI) 검색’ 판이다. 앞서 가는 마케터들 사이에선 최근 AI의 ‘간택’을 받을 수 있게 콘텐트를 작성하는 비기(祕器), ‘답변엔진최적화(AEO)’가 뜨고 있다. 마케팅을 전공하지 않아도, AI를 잘 몰라도 누구든 한 번에 이해할 수 있는 AEO 실전 활용법을 담았다.
https://www.joongang.co.kr/article/25347026

0
로그인 후 추천을 하실 수 있습니다.
SNS
댓글목록 0
등록된 댓글이 없습니다.
전체 54,815 건 - 1 페이지