globalmakers

AI가 구현하는 사진, 실제 인간 같아...묘사 구체화

[글로벌메이커스 이성수 기자] 최근 AI가 묘사해 구현하는 인물 사진이 실제 인물과 거의 비슷한 수준에 이르렀다. 지난 20일 마이크로소프트는 자사 이미지캡셔닝 인공지능(AI)이 인간 수준의 이미지 묘사능력을 갖게 됐다고 밝혔다.

이미지캡셔닝은 컴퓨터가 사진이나 삽화를 보고 적절한 설명을 자동으로 붙이는 기술을 말하는 컴퓨터비전 업계 용어다. 마이크로소프트에서는 ‘알트텍스트’라는 이미지캡셔닝 기술을 이용한다.

이 기술은 다양한 이미지를 인식 및 분석해 콘텐츠를 자연어로 해설한다. 지난 2015년부터 활용된 이 기술은 이번 업데이트로 사람과 비슷한 수준에 도달했다. 이는 자동화를 통해 검색 엔진부터 프레젠테이션에 삽입된 이미지까지 중요한 콘텐츠를 쉽게 이해할 수 있도록 하는 것이 특징이다.

마이크로소프트는 AI에게 그림책으로 아이를 교육하는 방식으로 접근했고, 대규모 AI 모델에 단순 어휘들이 태깅된 이미지들을 다량의 데이터 세트로 제공했다. 각각의 태그는 이미지의 특정 개체에 매핑해 사전교육을 했고 정밀교정을 거쳐 문장 작성법을 학습하도록 했다.

center
진화된 마이크로소프트 이미지 캡셔닝 기술은 현재 '애저 코그니티브 서비스'을 통해 이용할 수 있다. 사진= 클립아트코리아


이러한 방식은 완성된 문장을 사용하는 훈련보다 더욱 효과적이었다. 결국 AI는 보다 정확한 캡셔닝이 가능해졌고, 지난 2015년부터 이용한 모델 대비 2배 이상 정확도가 향상됐다.

예를 들면, 과거 들판에 핀 보리 사진을 '곡물 확대 사진'이라고 표현했던 것을 이제는 '들판 속 보리 확대 사진'이라고 설명해 더욱 정확한 표현을 했다. 또 바다 바위 위에서 서프보드를 들고 있는 남성 사진에 대해서는 '산 정상 위 남자'로 설명했던 것을, '서프보드를 들고 있는 남성'으로 더욱 구체화됐다.

이처럼 진화된 마이크로소프트 이미지 캡셔닝 기술은 현재 '애저 코그니티브 서비스'을 통해 이용할 수 있다. 회사는 오는 연말 윈도우와 맥 환경의 워드, 아웃룩, 파워포인트 등에서도 해당 기능을 이용할 수 있게 한다는 계획이다. 파워포인트는 웹 환경에서도 제공된다.

이 기능은 시각장애인에게 주변 환경, 인물, 사물, 글자, 이미지 등을 설명해 주는 모바일 애플리케이션(앱) '시각AI'와도 호환된다. 이를 통해 시각 장애인이나 시력이 좋지 않은 이용자들은 더 풍성한 사진 묘사를 느끼게 된다.

사킵 사이크 마이크로소프트 AI 플랫폼 그룹 소프트웨어 엔지니어링 매니저는 "모두가 알트텍스트 기능을 문서, 웹, 소셜미디어 등의 이미지에 적용한다면, 시각장애인도 콘텐츠를 더욱 쉽게 이해하고 사람들과의 대화에 참여할 수 있을 것"이라고 말했다.

news@globalmakers.co.kr
<Copyright ⓒ GlobalMarkers co, Ltd. 무단 전재 및 재배포 금지>

영상