KT, 한국형 AI 벤치마크 개발…"한국 문화에 맞춰 안전성 검증"

고려대와 공동 개발한 국내 최대 규모 AI 안전성 평가 데이터셋
전세사기·독도 등 한국 사회 이슈 반영해 AI 안전성 검증

최연돈 기자

cancin@naver.com | 2026-06-16 14:20:11

[소셜밸류=최연돈 기자] KT가 한국 사회의 문화와 맥락을 반영해 인공지능(AI)의 안전성을 평가할 수 있는 한국형 AI 검증 기준을 공개했다.

KT는 고려대학교와 공동 개발한 멀티모달 대형언어모델(MLLM, Multimodal Large Language Model) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다.

▲KT 직원들이 ‘KSAFE-MM’ 개발을 진행하고 있다./사진=KT 제공

멀티모달 대형언어모델은 텍스트뿐 아니라 이미지, 음성 등 다양한 형태의 데이터를 함께 이해하고 처리하는 AI 모델이다.

KSAFE-MM은 글로벌 공통 위험 요소를 한국 문화 맥락에 맞게 변환한 'KSAFE-MM-G'와 전세사기, 독도 분쟁 등 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성됐다.

총 1만4135개의 평가 샘플로 이뤄진 국내 최대 규모 한국어 멀티모달 AI 안전성 평가 데이터셋으로, 구글의 젬마(Gemma)와 네이버의 하이퍼클로바X(HyperCLOVA X) 등 12개 멀티모달 AI 모델을 검증했다.

이번 연구의 특징은 데이터 수집부터 평가까지 전 과정을 자동화한 체계를 구축했다는 점이다.

기존 AI 안전성 평가는 사람이 직접 검수하는 방식이 많아 시간과 비용이 많이 들었다. 반면 KSAFE-MM은 민감한 주제 수집, 질문 생성, 합성 이미지 제작, AI의 안전 장치를 우회하는 이른바 '탈옥(Jailbreak) 질문' 생성까지 전 과정을 4단계 자동화 체계로 구현했다.

KT와 고려대 공동 연구진은 같은 방식을 일본어 환경에 적용한 실험도 진행해 다른 국가와 문화권에도 활용할 수 있음을 확인했다고 설명했다.

연구 결과와 벤치마크는 논문 공개 사이트 아카이브(arXiv)와 AI 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개돼 누구나 활용할 수 있다.

KT는 Responsible AI 전담 조직을 중심으로 안전 위험 분류 체계 설계와 평가 지표 개발 등 연구 전반을 수행했다. 앞서 다국어 AI 안전성 평가 도구인 텍스트 벤치마크 'XL-SafetyBench'를 공개한 데 이어 이번에는 한국형 멀티모달 AI 안전성 평가 체계를 선보였다.

KT AX미래기술원 Frontier AI Lab장 박재형 상무는 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.

한편, KT는 올해 AICT(AI+정보통신기술) 기업 전환 전략에 따라 AI와 클라우드 사업을 핵심 성장축으로 육성하며 AI 기술 경쟁력 강화에 나서고 있다.

KT, 한국형 AI 벤치마크 개발…"한국 문화에 맞춰 안전성 검증"

고려대와 공동 개발한 국내 최대 규모 AI 안전성 평가 데이터셋 전세사기·독도 등 한국 사회 이슈 반영해 AI 안전성 검증

고려대와 공동 개발한 국내 최대 규모 AI 안전성 평가 데이터셋
전세사기·독도 등 한국 사회 이슈 반영해 AI 안전성 검증