[경제] 공문서 양식 여전히 'hwp' 쓰는데…AI는 &…
-
4회 연결
본문

경기 성남시 한글과컴퓨터 본사 전경. 사진 뉴스1
최근 인공지능(AI)업계에서 데이터 확보 경쟁이 치열해진 가운데, AI 학습을 위한 전자 문서 양식을 두고 논란이 불거지고 있다.
무슨 일이야
1일 한국저작권위원회에 따르면 글로벌 AI 학습용 데이터 시장 규모는 지난해 29억 달러에서 올해 35억달러로 커진 뒤, 2032년까지 170억달러로 확대될 전망이다. AI 성능 경쟁이 치열해진데 따른 것이다. 이 때문에 국내에선 공문서 작성 양식을 두고 논쟁이 심화하고 있다. 공문서에 주로 쓰이는 한글과컴퓨터(이하 한컴)의 ‘한글’(hwp) 문서 파일을 AI가 학습하기 어렵다는 이유에서다. 김태훈 서강대 메타버스대학원 교수는 “hwp 파일은 폐쇄적인 구조 탓에 대규모 데이터 처리 속도가 느려 AI 개발에 적합하지 않다”고 주장했다.
이게 왜 중요해
공문서는 AI 개발사들이 선호하는 데이터다. 정제된 언어로 작성한 데다가 인과 관계를 논리 정연하게 서술해 AI 학습 데이터로 가치가 높다. AI가 정확하게 한국어 논리를 이해하는 최적의 학습지인 셈이다. 문영상 숭실대 정보과학대학원 교수는 "특정 주제를 시계열에 맞춰 정리한 글은 드문데, 공문서가 여기에 해당하기 때문에 AI 학습에 중요하다"고 설명했다.
무엇이 문제?
AI업계에서 ‘hwp파일’에 대한 문제제기가 나오는 이유는 hwp 파일에서 AI 학습용 데이터를 추출할 경우, 글의 맥락이 파괴되는 현상 때문이다. 의미 없는 2진법 숫자인 ‘1010…' 형태의 숫자만 나오는 것. 보안성에 방점을 둔 폐쇄형 문서로 hwp 파일이 제작되어서다. 하지만 이같은 문제점은 마이크로소프트(MS)의 전자문서 파일(doc)에서도 나타난다. 역시 폐쇄형 문서로 제작된 파일이기 때문이다.
이를 해결하기 위해 MS는 2008년부터 데이터 추출을 용이하게 한 개방형 XML(문서 형식 표준)을 문서 파일에 적용하기 시작했다. 확장자가 'docx’인 파일들이다. 한컴도 2010년부터 전자문서양식을 XML로 전환했고, 파일 확장자명으로 ‘hwpx’를 쓰고 있다. 과거 파일들은 AI모델에 학습시키려면 문서 작성→컴퓨터 언어로 번역(파싱)→데이터 추출→AI 학습’이 4단계를 거쳤야 했지만, 바뀐 양식 파일들은 ‘문서 작성→데이터 추출→AI학습’ 과정만 거치면 된다. 한국 정부는 2021년부터 문서 저장 표준을 hwp에서 hwpx로 전환했다.
해결된 건가?
업계 일각에선 hwpx 파일도 AI학습에 문제가 있다는 주장이 나온다. 하지만 한컴 측은 “hwpx 파일을 사용할 경우 다른 문서 파일과 AI 학습 효율성 측면에서 차이가 없다”고 주장한다. 실제 지난해 1월 디지털플랫폼정부위원회 주관으로 AI기업 전문가들이 참여한 가운데 AI학습을 위한 hwpx 파일 데이터 추출 정확도를 검증한 결과, MS 워드 파일과 큰 차이가 없는 결과가 나왔다.
그럼 어떤 파일이 좋아
대규모언어모델(LLM) 개발사 입장에선 각 문서파일 형태가 대동소이하다는 입장이다. 네이버, LG AI연구원 등은 이미 어떤 문서든 해석하는 파싱 기술 고루 갖추고 있어서다. 다만 세부적으로 개발자 입장에선 MS의 워드 선호도 높다. 사용자가 워낙 많아 각종 프로그램이 오픈소스로 공개된 덕분이다. 국내 AI개발사 업스테이지 관계자는 "다양한 데이터를 빠르게 추출해야 하기 때문에 개발 생태계가 넓을 수록 AI학습에 유리하다"며 "한컴도 개발 생태계를 확대할 필요는 있다"고 설명했다.
댓글목록 0