globalmakers

AI가 정리하는 지역 별 일상대화, '일상대화 말뭉치 구축사업'

center
사진=클립아트코리아
[글로벌메이커스 박정현 기자] 우리말로 ‘정구지’가 ‘솔’과 같은 말이라는 것을 아는 사람은 흔치 않다. 또 이들 단어가 결국 ‘부추’를 뜻하는 우리말이라는 것도 대부분의 사람은 잘 모른다. 이들 단어가 각기 경상도와 전라도의 사투리이기 때문이다.

해당 지역 사람들이 아니고서야 ‘정구지김치’나 ‘솔지’라는 말이 같은 ‘부추김치’라는 말이라는 것을 알 수 있을 턱이 없다. 전라도 사람과 경사도 사람이 만나 같은 부추김치를 두고 말할 때, 각기 전혀 다른 말을 사용하게 된다는 뜻이다.

하지만 앞으로는 이러한 문제가 AI를 통해 해결될 것으로 보인다. 인공지능(AI) 전문 기업 솔트룩스는 국립국어원과 우리나라 지역 방언까지 알아들을 수 있는 AI 개발을 위해 '일상대화 말뭉치 구축사업'에 착수한다.

‘일상대화 말뭉치 구축’ 사업은 작년부터 진행한 국가 말뭉치 구축사업의 일환이다. 말뭉치는 약 500시간의 대화를 지칭한다. 솔트룩스는 약 2천명의 대화를 수집하며, 방송에서 자주 쓰이는 표준어보다는 실제 각 지역에서 일상적으로 사용하는 대화를 더 비중있게 다룰 예정이다.

수집된 음성대화는 데이터로 가공하기 위해 텍스트 형식으로 옮겨져야 하는데, 이 과정에서는 ‘소리자바’가 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공되어 국립국어원이 요구한 메타 정보가 함께 심어지게 된다.

국립국어원 측은 "말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것이다"고 밝혔다.

news@globalmakers.co.kr
<Copyright ⓒ GlobalMarkers co, Ltd. 무단 전재 및 재배포 금지>

영상