[취재] 통신업계, 한국어 특화 LLM 오픈 소스 공개로 ‘한국적 AI’ 확산 선도 경쟁...통신 가치 실현·소비 리딩

2025-07-04 강진일 기자

통신업계가 한국어 특화 LLM 오픈 소스 공개로 국내 AI 생태계에 ‘한국적 AI’ 확산 선도 경쟁에 나섰다. ⓒ왼쪽 SKT, 오른쪽 KT/ 각사 제공

[컨슈머와이드-강진일 기자] 통신업계가 한국어 특화 LLM 오픈 소스 공개로 국내 AI 생태계에 ‘한국적 AI’ 확산 선도 경쟁에 나섰다. 이들 업체는 각자의 AI 기술이 최상급의 한국어 처리 능력을 전면에 내세웠다. 이는 ‘소버린 AI(국가주권형 AI)’를 이루는 통신 가치 실현·소비다.

SKT가 3일 한국어 특화 LLM 오픈 소스를 공개했다. ⓒSKT

3일 SK텔레콤(이하 SKT)과 KT가 한국어 특화 LLM 오픈 소스를 공개하고 국내 AI 생태계에 ‘한국적 AI’ 확산 선도 경쟁에 돌입했다.

이날 SKT는 한국어 특화 LLM인 A.X(에이닷 엑스) 4.0을 오픈소스로 공개했다. 세계적인 오픈소스 커뮤니티 허깅페이스(Hugging Face)를 통해 공개된 오픈소스는 A.X 4.0의 표준 모델과 경량 모델 2종이다. A.X 4.0은 세계 최고 수준의 한국어 처리 능력을 가진 한국어 특화 LLM로 최상급의 한국어 처리 효율성, 데이터 보안을 고려한 설계, 로컬 환경에서의 운영 가능성 등이 강점으로 꼽힌다.

구체적으로 보면, 우선 A.X 4.0에는 SKT가 문장의 구조를 분석해 토큰으로 분할하는 작업 도구인 토크나이저를 자체 설계 및 적용해 자체 테스트 결과 같은 한국어 문장을 입력했을 때 GPT-4o보다 A.X 4.0이 약 33%가량 높은 토큰 효율을 기록했다. A.X 4.0이 다른 LLM 대비 높은 정보 처리용량은 비용 절감으로 이어진다. 경제성도 확보했다는 소리다.

A.X 4.0은 한국 문화 이해도를 입증했다. 한국어 대규모 다중과제 언어 이해 평가인 KMMLU에서 78.3점을 기록하여, GPT-4o(72.5점)보다 우수한 성능을 보였다. 한국어 및 한국 문화 벤치마크인 CLIcK에서도 83.5점을 획득해, GPT-4o(80.2점)보다 높았다.

A.X 4.0는 클라우드가 아닌 자체 전산 서버에 직접 설치하고 운영하는 방식인 온프레미스를 제공해 기업들이 데이터 보안에 대한 걱정을 덜 수 있다. 이용자들이 목적에 맞춰 선택적으로 이용할 수 있도록 표준 모델은 720억 개(72B), 경량 모델은 70억 개(7B)의 매개변수를 갖추고 있다. 기업들은 파생형 모델을 개발할 수 있고, 연구 분야에서도 활용할 수 있어 AI 기술을 보다 쉽게 활용할 수 있는 새로운 선택지가 될 것으로 SKT는 기대하고 있다.

SKT 관계자는 “ 이번 A.X 4.0 지식형 모델의 오픈소스 공개와 동시에 추론형 모델도 발표할 예정”이라면서 “이달 중 수학 문제 해결과 코드 개발 능력이 강화된 추론(Reasoning)형 모델을 공개하고, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 수준까지 모델을 업데이트할 계획이다. 또한 소버린 AI 관점에서 A.X 3.0에 적용한 프롬 스크래치(From Scratch)5) 방식도 병행하여 개발을 진행하고 있다. 후속 모델도 순차적으로 공개할 예정”이라고 밝혔다.

그러면서 “기업 시장에서 한국어 특화 LLM으로 국내 비즈니스 환경에 최적화된 모델이 될 수 있도록 지속적인 기술 개발을 추진할 계획”이라고 덧붙였다.

KT도 이날 허깅페이스를 통해 LLM ‘믿:음 2.0’의 오픈소스를 공개했다. ‘믿:음 2.0’은 ‘한국적 AI’의 철학을 담아 자체 개발한 LLM 믿:음 두번째 버전이다. 믿:음은 사전 학습부터 자체적으로 만든 한국적 독자 AI 모델로 첫 번째 버전은 AI 고객센터, 니TV, AI 전화, 100번 고객센터 등 다양한 서비스에서 폭넓게 활용돼 왔다. 믿:음 모델은 한국어와 한국 문화 및 사회 등의 전문 분야에서 이해력과 생성 성능을 입증했다. KT와 고려대학교가 공동 개발한 한국어 AI 역량 평가 지표인 ‘Ko-Sovereign(코-소버린)’ 벤치마크에서 유사 규모의 국내 기성 모델을 비롯해 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다. ‘KMMLU’와 한국어 언어모델 평가 지표인 ‘HAERAE’에서도 믿:음은 국내외 주요 오픈 소스 모델보다 더 우수한 성능을 기록했다.

믿:음 두 번째 버전은 한국적 AI라는 철학이 담겼다. 모델은 ▲115억 파라미터 규모의 ‘믿:음 2.0 Base’ ▲23억 파라미터 규모의 ‘믿:음 2.0 Mini’ 2종이다. 모두 한국어와 영어를 지원한다.

믿:음 2.0은 KT가 자체 개발한 토크나이저를 적용해 한국어 사용자에 최적화된 언어 이해 능력과 정밀한 표현력을 갖췄다. 또한 학습은 국내 교육용 도서와 문학 작품 등의 발간물, 법률 및 특허 문서, 각종 사전 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터를 활용했다. 이 과정에서 저작권 이슈가 있는 데이터는 KT의 Responsible AI 원칙에 따라 모두 제거했다. 이처럼 믿:음 2.0은 AI의 윤리성 및 신뢰성도 겸비했다.

KT는 향후 마이크로소프트와의 협업으로 GPT-4에 한국적 사고를 추가 학습시키는 방식의 모델 또한 순차 공개할 예정이다.

KT 관계자는 “ 믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델이다.110억 파라미터 이상의 한국어 범용 LLM을 누구나 상업적으로 활용할 수 있는 오픈소스로 공개한 것은 KT가 처음으로 국내 AI 생태계 활성화에 긍정적인 역할을 할 수 있을 것으로 기대한다”면서 “국내 사용자들에게 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하는 한편 글로벌 경쟁력을 갖추게 될 중요한 발판이 될 것”이라고 말했다.