45GB 규모 금융 데이터, 오는 3월 31일부터 시범 공개

금융위원회가 생성형 인공지능 시대를 겨냥한 대규모 한글 말뭉치를 제공한다고 밝혔다. /자료제공=금융위원회
금융위원회가 생성형 인공지능 시대를 겨냥한 대규모 한글 말뭉치를 제공한다고 밝혔다. /자료제공=금융위원회

[환경일보] 박준영 기자 = 금융위원회가 생성형 인공지능(AI) 시대를 겨냥한 대규모 ‘금융 특화 한글 말뭉치’ 제공을 시작하며 국내 금융권 AI 개발에 본격적인 기반을 제공한다고 밝혔다. 이번 말뭉치는 총 1만2600건, 약 45GB에 달하는 금융 전문 데이터로 구성됐다.

금융 특화 한글 말뭉치는 금융 법규, 제도 설명자료, 금융 용어 사전 등 금융 공통분야에 특화된 언어자료로, AI가 금융 전문지식을 정확하게 학습하고 적용할 수 있도록 가공됐다. 금융위원회는 이를 통해 국내 금융회사들이 보다 신뢰성 높고 전문화된 AI 서비스를 개발할 수 있을 것으로 기대하고 있다.

이번 제공은 지난해 12월 금융위원회가 발표한 '금융권 생성형 AI 활용 지원 방안'의 후속조치다. 금융회사들은 그동안 ChatGPT, HyperCLOVA 등 외국계 AI 모델을 주로 활용해왔지만, 한국어 금융 데이터 부족으로 인해 금융 특화 서비스 구현에는 어려움을 겪어왔다.

새롭게 제공되는 말뭉치는 AI 학습 목적에 따라 사전학습용(6700건), 추가학습용(1100건), 검색증강생성(RAG)용(3800건), 평가지원용(1000건) 등 네 가지 유형으로 구성됐다. RAG 기술은 AI가 최신 법규나 정책 정보를 검색해 반영하도록 하는 방식으로, 법령 변화가 잦은 금융 분야에 특히 유용하다.

또한, AI가 잘못된 정보를 생성하는 '환각(hallucination)'이나 성별·인종 편향 문제 등을 줄이기 위해 별도의 평가용 말뭉치도 마련됐다. 이를 통해 AI의 정확성과 윤리성을 사전에 검증할 수 있도록 했다.

금융위원회는 이번 말뭉치를 금융결제원의 데이터 공유 플랫폼을 통해 제공하며, 6월 말까지 시범사업 기간 동안 무료로 운영할 예정이다. 향후 수요와 피드백을 반영해 2025년 하반기에는 말뭉치의 유형과 범위를 확대하고, 2026년부터는 업권별 특화 말뭉치 제공으로 범위를 넓힌다는 계획이다.

금융위 관계자는 “공동 말뭉치 구축을 통해 개별 금융회사의 개발 비용과 시간을 절감하고, 국내 금융제도에 최적화된 AI 서비스를 빠르게 구현할 수 있는 기반을 마련했다”며 “지속적인 협업을 통해 금융 AI 생태계를 주도적으로 조성해 나가겠다”고 밝혔다.

저작권자 © 환경일보 무단전재 및 재배포 금지