텍스트·이미지 추론 ‘멀티모달 AI’
시각 평가 13개 지표서 GPT-5 미니
클로드 소넷 압도…코딩, 젬마 제쳐
최종 목표 ‘피지컬 인텔리전스’ 삼아
엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교. LG
LG(003550)
가 새로 선보인 차세대 멀티모달(복합 정보 처리) 인공지능(AI) 엑사원(EXAONE) 4.5가 오픈AI와 구글 등 글로벌 빅테크의 최신 모델을 앞섰다. 압도적인 시각 지능을 바탕으로 한국 AI의 저력을 입증했다는 평가가 나온다.
LG AI연구원은 자체 개발한 비전 인코더(Vision Encoder)와 거대언어모델(LLM)을 하나의 구조로 결합한 시각 언어 모델(VLM) 엑사원(EXAONE) 4.5를 9일 공개했다.
이번 모델의 가장 큰 특징은 강력한 시각 능력이다. 산업 현장의 계약서와 기술 도면, 재무제표 등 복잡한 문서와 인포그래픽을 단숨에 읽어내고 추론할 수 있다. 글로벌 성능 평가(벤치마크)에서 엑사원 4.5는 경쟁사들을 압도하는 성과를 냈다. 시각 능력 평가 13개 지표 평균 점수에서 미국 오픈AI의 GPT-5 미니(mini), 앤트로픽의 클로드 소넷(Claude Sonnet) 4.5, 중국 알리바바의 큐웬(Qwen)3-VL을 모두 상회했다.
과학·기술·공학·수학(STEM) 역량을 묻는 5개 지표 평균에서는 77.3점을 기록해 최고 수준을 달성했다. 대표적인 코딩 평가 지표인 라이브코드벤치(LiveCodeBench)에서도 81.4점을 획득해 80점을 얻은 구글의 최신 모델 젬마(Gemma) 4를 따돌렸다. LG AI연구원 측은 “단순히 이미지 속 글자를 인식하는 수준을 넘어 복잡한 차트를 분석하고 맥락을 파악해 스스로 답을 도출하는 최고 수준의 이해력을 갖췄다”고 설명했다.
성능은 키웠지만 몸집은 대폭 줄였다. 엑사원 4.5의 매개변수(파라미터) 규모는 330억 개로 기존 대형 모델인 K-엑사원의 7분의 1 수준에 불과하다. 독자적인 하이브리드 어텐션 구조와 고속 추론 기술을 적용해 적은 컴퓨팅 자원으로도 최고 수준의 텍스트 이해 및 추론 능력을 발휘하도록 효율을 극대화했다. 지원 언어 역시 한국어와 영어를 비롯해 스페인어와 독일어, 일본어, 베트남어 등 6개국어로 확장했다. LG는 전작인 엑사원 3.0에 이어 이번 엑사원 4.5 역시 글로벌 오픈소스 플랫폼인 허깅페이스(Hugging Face)에 연구·학술용 오픈 웨이트로 무상 공개하며 글로벌 AI 생태계 확장을 주도한다는 방침이다.
LG AI연구원의 시선은 이제 가상 환경을 넘어 물리적 세계를 스스로 인지하고 행동하는 피지컬 인텔리전스로 향하고 있다. 이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 텍스트를 넘어 시각 정보까지 포용하는 멀티모달 시대로의 본격 진입을 알리는 신호탄”이라며 “향후 음성과 영상은 물론 물리적 환경까지 이해의 폭을 넓혀, 산업 현장에서 스스로 판단하고 행동하는 실천적 AI를 완성할 것”이라고 포부를 밝혔다.
한국 고유의 맥락을 가장 잘 이해하는 ‘토종 AI’로서의 정체성도 한층 강화한다. 현재 동북아역사재단 등과 협력해 한국의 역사와 문화 데이터를 집중 학습 중이다. 김명신 LG AI연구원 신뢰안전사무국 총괄은 “자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 역사와 문화까지 깊이 헤아리는 가장 신뢰할 수 있는 AI로 진화시켜 나갈 것”이라고 강조했다.
엑사원 4.5 글로벌 동급 모델들과의 STEM 벤치마크 성능 비교. LG
엑사원 4.5 언어 처리 및 추론 성능 비교. LG
엑사원(EXAONE) 로고. LG