머니브레인 장세영 대표, AI 영상합성 기술 세계 최고 수준...글로벌 역량 위한 R&D 강화에 집중
상태바
머니브레인 장세영 대표, AI 영상합성 기술 세계 최고 수준...글로벌 역량 위한 R&D 강화에 집중
  • 이광희 기자
  • 승인 2020.01.18 13:50
  • 댓글 0
이 기사를 공유합니다

영상 보정없이 순수 딥러닝 기술만으로 구현한 세계 최초 기술
글로벌 사업화 역량을 갖추기 위한 R&D 강화에 집중, 2022년 매출 1000억원 달성 목표
해외 기업들과 경쟁하는 젊은 AI 스타트업들에게 더 많은 투자 필요
머니브레인 장세영 대표
머니브레인 장세영 대표

본지는 4차산업 기술에 기반한 스타트업 발굴과 지원에 노력하고 있다. 잠재력 있는 스타트업을 소개하고 제품과 서비스를 알려 기업의 성장을 지원함과 동시에 투자 유치를 위한 홍보를 돕고 있다. 2020년 새해를 맞아 AI 영어회화 서비스를 기반으로 중국시장에 진출하고, 글로벌 AI튜터 시장을 개척하면서 유니콘기업으로의 도약을 준비하는 머니브레인 장세영 대표의 비전을 들어보았다.    

머니브레인 영상합성 기술은 세계 최고 수준...영상 보정없이 순수 딥러닝 기술만으로 구현한 세계 최초 기술

머니브레인의 AI 영상합성 기술은 중국, 미국과 함께 전세계에서 3곳만 성공한 기술적 난이도가 높은 딥러닝 기술이다. 특히 우리가 개발한 기술은 중국에 비해 자연스러운 얼굴 움직임을 구현했고, 미국팀의 오바마 합성과 다르게 별도의 영상 보정없이 순수 딥러닝 기술만으로 구현한 세계 최초 기술이라고 할 수 있다.

기존 음성 합성 기술은 텍스트 음성 변환(TTS)를 활용해 음소를 잘라 말하기 때문에 다소 어색했다면, 요즘 딥러닝 모델은 자연스러운 말투와 억양을 한번에 학습해 원래 말하는 사람의 말투와 어조를 따라한다. 훨씬 더 사람에 가까운 모습을 구현할 수 있게 되었다.

AI 합성 아나운서를 구현할 때 오히려 음성은 영상보다 구현하기 쉽다. 음성 분야는 TTS, 챗봇 등 관련 데이터가 쌓이고 연구가 많이 진행되면서 사람의 발성과 유사하게 들릴 수 있는 기술이 많이 나와 있다. 과거 AI 음성은 글자를 하나씩 쪼개서 다시 결합해 발음하는 유니셀렉션 방식이었다면, 요즘엔 단어와 문장 그 자체로 학습한다. 그 결과 훨씬 더 적은 시간으로 사람과 가까운 방식으로 음성을 만들 수 있다.

과거엔 며칠이 걸렸다면 요즘은 딥러닝 기술을 이용해 30분 정도면 원하는 목소리로 말하는 AI 음성을 만들어 낼 수 있다. 다화자 합성 기술이라고 해서 여러명이 말하는 내용을 동시에 데이터를 취합해 딥러닝으로 학습하는 식이다. 기계처럼 보이지 않고 자연스러운 말투로 들리기 위해 노력을 많이 하고 있다.

머니브레인은 시퀀스-투-시퀀스 기반의 모델을 사용해 텍스트 입력 문장을 특정인의 목소리로 변환한다. 여기에 딥러닝 기반 모델을 이용해 음성 합성 문장을 알파벳 단위(한글 자모 단위)로 쪼개 각 단위의 임베딩을 학습하고, 인코더와 디코더로 구성된 신경망을 거쳐 음성 스펙트로그램을 학습했다.

딥러닝 음성 합성 기술. 출처:머니브레인
딥러닝 음성 합성 기술. 출처:머니브레인

그리고 이렇게 만들어진 음성 합성을 영상에 입히기 위해 음성 스팩트로그램을 시퀀스-투-시퀀스 기반 모델을 사용해 입술좌표로 변환했다. CNN(Convolutional Neural Network : 합성곱 신경망) 학습을 통해 이미지를 분석하고, GAN(Generative adversarial network : 생성적 적대 신경망) 기술을 이용해 얼굴을 합성했다. 타 데이터의 확률분포를 추정하고, 인공신경망이 그 분포를 만드는 GAN 기술을 적용한 것이다. GAN은 언뜻 보면 진짜 같은 ‘그럴듯한 가짜’를 만들어서 진짜와 구분하지 못하게 될 때까지 학습을 반복하는 딥러닝 모델이다.

"자연스러운 목소리"에서 더 나아가 사람이 "친밀감을 느낄 수 있는 표정"을 만들기 위해 노력을 많이 했다. 예전처럼 얼굴을 인식해 좌표처럼 넣는 게 아니라 사람이 말하는 영상 그 자체를 학습 엔진에 넣어, 말을 할 때 표정이 어떻게 바뀌고 얼굴 근육이 어떻게 달라지는지를 학습했다. 그리고 이렇게 나온 AI 영상에 AI 음성을 입힌 것이다.

머니브레인의 AI는 얼굴 표정을 인식할 수 있는 랜드마크를 만들고, 이 랜드마크를 인식할 수 있는 알고리즘을 사용해 프레임 단위로 나눠 영상을 인식해 학습한다. 사람이 실제로 말하는 것과 같은 인상을 주기 위해 사람의 표정을 딥러닝 기술로 학습해 피사체의 얼굴표정이나 표현감정을 판별해 재생하는 기술까지 구현했다.

딥러닝 영상 합성 기술. 출처:머니브레인
딥러닝 영상 합성 기술. 출처:머니브레인

감정 정보를 비롯한 다양한 음성 특성들을 효과적으로 학습하기 위해 계층적 구조를 가지는 VAE(Variational AutoEncoder) 방식을 구현하고 이에 대한 효율적인 학습 방식을 독자적으로 개발했다. 이렇게 학습한 모델에 여러 말하는 영상을 넣어, 사람이 말할 때 짓는 표정을 구현할 수 있는 영상 알고리즘을 개발했다. 특히 CNN 계열의 새로운 알고리즘을 만들어서 얼굴 합성 부분에 적용하고 있다.

실시간 대화형 AI 영어회화 앱 '스픽나우' 성공적 안착...중국, 대만, 일본도 서비스 제공 예정

머니브레인은 2019년 하반기 AI 영어회화 앱 '스픽나우'를 성공적으로 론칭한데 이어 출시 두 달만에 구글 플에이스토어 교육분야 1위를 달성했다. 스픽나우는 학습자와 AI튜터가 실시간 대화를 주고 받으며 영어회화 실력을 향상시키는 앱 서비스다. AI 기술이 학습자의 발화에 따라 학습 주제 안에서 유연하게 대화할 수 있도록 챗봇 기술과 음성인식 및 합성 기술을 접목했다.

이에 따라 스픽나우는 학습자의 취향에 따라 의사표현, 비지니스, 여행 등 다양한 학습주제 선택이 가능하고, 학습자의 수준에 따라 300개 이상의 상황별 학습모드를 제공한다. 3D 영상 기반 AI튜터와의 대화를 통해 학습자가 꾸준히 흥미를 가지고 영어회화 실력을 향상시킬 수 있다.

한국뿐 아니라 일본과 대만지역에서도 스픽나우 서비스를 받을 수 있도록 개발이 되었다. 한 발 더 나아가 중국 본토에도 2020년 상반기 중에 스픽나우 서비스를 선보일 예정이다. 이를 바탕으로 한국, 중국, 일본 등 3개국어를 기반으로 한 영어회화 서비스를 제공할 계획이다. 

스픽나우 서비스 이미지. 출처:머니브레인
스픽나우 서비스 이미지. 출처:머니브레인

사람을 닮은 AI 아나운서, 속도와 비용절감 강점 지녀

머니브레인이 확보한 기술의 첫 번째 장점은 빠른 속도다. 텍스트로 뉴스를 한번 작성하면 일일이 관련 영상과 자료를 찾아 편집하지 않아도 빠르게 AI 합성 영상을 제작할 수 있어, 일각을 다투는 속보 경쟁에서 우위를 차지할 수 있다.

또한 자동으로 영상을 제작할 수 있는 기술을 통해 그동안 시간과 인력 부족으로 제작하지 못했던 텍스트 중심의 기사를 영상으로 전환할 수 있어 물량 경쟁에서도 강점을 가질 수 있다. 

더불어 실제 아나운서나 앵커가 아닌 가상의 캐릭터를 사용하는 만큼 인물의 스케줄에 상관없이 영상을 제작할 수 있을 뿐 아니라 스튜디오 대여 등 촬영에 필요한 비용도 절감할 수 있다는 장점도 가진다.

머니브레인은 영어 등 교육 서비스에도 해당 기술을 활용하고 있다. 실제 영어 교육앱 스픽나우는 AI가 적용된 캐릭터가 사용자와 실제 대화하듯이 영어를 가르쳐 주는 방식으로 오픈한지 2개월 만에 10만 다운로드를 기록할 정도로 인기를 얻고 있다.

보이스 피싱, 페이크 뉴스 등 악용 가능성에 대해서는 정책적, 기술적 보완장치 필요

사람과 닮은 AI 합성 아나운서의 인기가 마냥 높은 건 아니다. ‘사람과 꼭 닮았다’라는 점 때문에 때문에 경계의 대상이 되기도 한다. AI 기술을 활용해 오바마를 구현한 ‘오바마 페이크 뉴스’ 사건부터 시작해서, AI가 학습을 기반으로 임의로 디자인한 ‘이 사람은 존재하지 않습니다’라는 웹사이트 등장까지 AI가 빠르게 학습하면 할수록 그로 인한 부작용도 존재할 수 있다.

인공지능 문재인 태통령. 출처:머니브레인
인공지능 문재인 태통령. 출처:머니브레인

AI 음성 및 얼굴합성이 많이 쓰이게 되면, 보이스 피싱 또는 페이크 뉴스에 악용될 수 있다는 우려가 있는 것도 사실이다. 최근에는 이러한 것을 방지하기 위한 기술도 같이 개발되고 있다. 즉 AI로 만들어진 음성이나 영상을 판별할 수 있는 기술들이다. 또한 국가적 차원에서 AI 음성과 영상에 보이지 않는 식별자를 넣도록 하여 부작용은 줄이면서도 기술의 발전을 장려하는 방향으로 논의도 되고 있다.

AI 학습을 통해 만들어지는 ‘닮은꼴 사람’들이 실제 사람과 헷갈리지 않게, 사람들이 구별할 수 있는 방지 기술을 탑재하는 식의 표준화 작업이 이루어 지기를 기대한다. 정책이나 제도로 AI 닮은꼴 사람을 실제 사람과 헷갈리지 않게, AI 임을 식별할 수 있는 기술을 탑재하는 식이다.

글로벌 사업화 역량을 갖추기 위한 R&D 강화에 집중, 2022년 매출 1000억원 달성 목표

머니브레인은 2017년 20억원 투자 유치 후 2019년 11월 포스코기술투자, KB인베스트먼트 등에서 50억원의 투자를 유치했다. 이후 한 달 만에 20억의 신규 추가 투자를 유치하여 누적 투자 금액 90억원으로 두 번째 투자라운드를 성공적으로 마무리했다.

투자라운드를 진행하면서 수익성 부분에 대한 부정적 시각이 있었지만, 영어회화 서비스 등 사업화가 빠르게 진행되면서 당초 계획보다 매출과 이익이 빠르게 늘어날 것으로 보여 우려는 해소될 것으로 본다.

2022년까지 매출 1000억원을 달성한다는 목표를 가지고 있다. 기업공개(IPO)도 당장 추진하지 않을 계획이다. 기술특례 상장제도를 활용하면 IPO도 가능하지만 우선적으로 AI 영상기술에 대한 논문 발표와 특허 확보를 시작으로 글로벌 사업화 역량을 갖추기 위한 R&D 강화에 집중하려고 한다. 

콘텐츠 개발로는 AI 뉴스처럼 실제 사람을 합성한 서비스로 유명 연예인 캐릭터를 선보일 예정이다. 또한 최근 한류 열풍이 일고 있는 동남아시아 시장을 대상으로 한국어 교육 서비스도 선보일 준비를 하고 있다.

이 밖에도 약국 체인인 온누리 H&C와 계약을 맺고 건강 식품 관련 광고 영상을 제작하는 등 광고 분야로도 범위를 확장하고 있다.

해외 기업들과 경쟁하는 젊은 AI 스타트업들에게 더 많은 투자 필요 

얼굴 영상합성 기술은 세계 수준에 근접한 한국의 몇 안되는 AI 기술이며, 중국과 미국의 AI 기술 회사들과 경쟁하고 있다. AI 기술이 앞선 해외 기업들과 경쟁하고 있는 우리나라 젊은 AI 스타트업들에게 더 많은 투자가 이루어졌으면 좋겠다.

동영상 콘텐츠가 빠른 속도로 보급되면서 머니브레인의 AI 영상합성 기술을 적용할 수 있는 곳이 늘어나고 있다. 세계적 수준에 이른 영상합성 기술을 바탕으로 글로벌 사업화에도 힘써 유니콘기업으로 도약하겠다.

* 머니브레인 개요

2016년 7월 설립된 머니브레인은 대화형 AI 기술을 개발하는 스타트업이다. 인간과 가장 비슷하게 대화하는 AI기술 개발에 주력하고 있다. 2017년 금융권 AI 챗봇을 구축했고, 올해 5월 사람처럼 자연스러운 딥러닝 기반 음성합성 기술을 공개했다. 사람의 행동에 가까운 AI 합성 아나운서를 개발한 곳으로 유명하다.  AI 영어회화 앱인 '스픽나우'를 서비스하고 영상 합성 기술로 제작한 AI 뉴스를 유튜브에 선보이고 있다.  


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토