Sans-serif

Aa

Serif

Aa

Font size

+ -

Line height

+ -
Light
Dark
Sepia

데이터로 사람을 재설계하다, Digital Human Remodeling

  • 올해 초, 우리를 눈물바다 속으로 빠트린 다큐멘터리가 있었다. 어린 나이에 난치병으로 세상을 떠난 아이의 흔적들을 모아 가상현실 (VR) 속에서 복원하는 과정을 기록한 내용이었다. 딸을 잃어버린 아픔을 가진 어머니와 만나게 한 일련의 과정들은 시청자들로 하여금 슬프면서도 기술에 대한 경외감을 느끼게 하였다.
  • 우리를 충격에 빠트린 소식도 있었다. 음란물에 지인이나 연예인들의 얼굴을 합성하여 소셜 미디어 상에 유포하는 범죄 행위가 수면 위로 떠오른 것이다. 따지려고 들지 않고 본다면 가짜인지 진짜인지 구분할 수 없을 정도로 정교하게 만들어진 영상과 사진이 버젓이 유통되고 있었다.

기술이 발달한 오늘날, 먼 미래에서나 가능할 것 같았던 가상현실 상에서만 존재하는 사람의 데이터 혹은 인격 그 자체를 창조하는 시도가 계속되고 있다. 한편으로는 사람에 대한 데이터를 학습하고 그와 유사하게 재현하려는 시도가 이어져오고 있다. 현실에 실재하는 사람의 데이터를 수집하고 가공하여 말이다.

Digital Human Remodeling

Digital Human Remodeling (이하 DHR)는 디지털화된 사람, 즉 한 사람의 데이터를 재창조하는 분야를 의미한다. 사실 이는 완전 새롭지는 않은 개념이다. 오래 전부터 이미지를 합성하는 방식으로 우리에게 이미 익숙하다. 이미지 외에도 영상을 합성하거나, 사람의 음성 데이터를 합성/변조하거나, 기계에게 학습시켜 활용하는 등의 시도가 있었다.

AI의 발전은 DHR 분야를 급속하게 발전시키는 계기가 되었다. AI가 스스로 데이터를 해석하고 학습하며 발전해나가는 딥러닝 기술을 탑재하게 되면서, 사람이 손수 제작하는 것에 비해 시간을 단축할 수 있으며 심지어 끊임없이 학습을 통해 어색한 부분을 개선해나갈 수도 있다.

학습할 이미지와 영상 데이터가 넘쳐나는 DHR의 황금 시대는 다소 불순한 의도로부터 열리게 되었다. 앞서 소개한 음란물 사례가 바로 대표적인 사례이다. 특히 재구축을 통해 현실에 일어나지 않았던 새로운 영상, 즉 가짜 영상을 만들어내는 기술을 딥러닝 (Deep Learning)과 페이크 (Fake)라는 단어의 합성어, ‘딥페이크(Deepfake)’ 기술이라 칭한다. 현재 DHR 영역에서 가장 널리 알려진 기술이라 하겠다.

2018년 미국의 뉴미디어 버즈피드에서는 딥페이크 기술의 위험성을 알리기 위해 오바마 대통령과 코미디언을 합성한 영상을 제작하여 공개하였다 출처: BuzzFeedVideo

이 기술은 음란물, 가짜 뉴스 등에 이용되어 주로 좋지 못한 이슈로 알려지곤 하기 때문에 막연하게 나쁜 기술로 느껴지곤 한다. 그러나 오용되고 있는 만큼 새로운 시도가 이뤄지고 있기도 하다.

Charli XCX의 1999 뮤직비디오에 숨겨져 있던 비밀

레트로 열풍이 한창 시작되고 있던 2018년, Charli XCX는 “1999”라는 앨범을 발매했다. 앨범 제목이자 타이틀곡인 “1999”는 21세기 주류 세대에게는 추억으로 남게 된 90년대를 추억하는 노래로 가사 전체가 90년대 유행했던 브랜드와 유명인, 그 시대의 문화로 가득 차 있다.

뮤직 비디오 역시 90년대로 꽉 차있다. 그 시대의 아이콘이었던 유명인사들과 브랜드, 미디어 광고들을 찰리 XCX와 트로이 시반이 그대로 재현한다. 스티브 잡스, 타이타닉, 노키아 3310광고 등 한 시대를 대표했던 주요 장면들을 재현하는 가운데 딱 2가지 장면에서 딥페이크 기술이 사용되었다. 찰리가 스파이스 걸스의 뮤직 비디오를, 트로이 시반이 백스트리트 보이즈의 뮤직 비디오를 재현하는 장면에서 말이다. 위 뮤직비디오의 1:07, 1:23 구간을 주목해서 보자. 백댄서들이 어디서 많이 보던 얼굴이다.

출처: https://www.theverge.com/

자세히 보면 센터에서 노래를 부르고 있는 찰리와 트로이 시반의 등 뒤로 보이는 백댄서들의 얼굴이 모두 똑같다. 센터에서 노래를 연기하는 두 가수를 제외하고는 모두 각기 다른 사람들이 스파이스 걸즈와 백스트리트 보이즈 맴버들과 유사하게 분장하여 촬영한 후, 그들의 얼굴에 찰리와 트로이 시반의 얼굴을 합성한 것이다. 뮤직비디오 감독이었던 Pomp&Clout 스튜디오의 Ryan Staake의 인터뷰에 따르면 이 시도는 파격적인 시도이면서도 현실적인 판단이었다고 한다. 딥페이크 기술을 사용하는 것에 대한 고민도 있었지만, 당시 현장 상황을 고려했을 때 다섯 명이나 되는 멤버를 재현하기 위해 다섯 번 복장을 갈아입고 분장하는 것보다 경제적이었기 때문이었다.

데이비드 베컴이 9개 언어로 참여를 독려하는 말라리아 캠페인

전 세계를 대상으로 하는 공익 캠페인은 사람들의 이목을 끌기 위해 글로벌 스타를 섭외하기 마련이다. 2019년 진행되었던 말라리아 극복 관련 캠페인 ‘Malaria Must Die’ 역시 유명인의 도움을 받은 한편, 여기에 새로운 기술을 적용했다.

이 캠페인 영상에서 데이비드 베컴은 9가지 언어로 말라리아의 위험성에 대해 경고하며 목소리 녹음을 통한 캠페인 참여를 독려한다. 중국어, 아랍어, 힌디어, 스와힐리어, 다양한 아프리카 지역어를 포함하여 무려 총 9가지 언어로 담담하게 말라리아에 대해 이야기한다. 9가지 언어를 원어민처럼 말한다니, 얼마나 많은 시간 노력이 필요했을까!

눈치채셨겠지만, 이 캠페인은 딥 페이크 기술을 이용해 제작된 캠페인이다. 베컴이 영어로 말하는 장면을 먼저 촬영해 얼굴의 움직임을 학습시킨다. 여기에 캠페인을 위해 목소리를 기부한 말라리아 생존자 9명의 음성과 얼굴 움직임을 녹화해 베컴의 말하는 얼굴 움직임에 입혀 9개국어로 전달되는 말라리아 캠페인 영상이 완성되었다. 생각해보자. 낯선 외국어를 통해 이야기하는 것보다는 나의 모국어를 통해 듣는 이야기가 더욱 진정성 있게 들릴 것이다.

Remodeling, 악의적인 ‘개조’와 건설적인 ‘재설계’ 사이

앞선 두 사례와 동일한 맥락으로, 사람이 곧 가치가 되는 엔터테인먼트 분야에 적용된다면 거대한 가치를 가져올 수 있을 것이다. 컨텐츠 제작 측면에서 촬영과 편집 과정을 단축시키는 효과를 가져올 수 있다. 영화나 드라마 컨텐츠에서 다국어 더빙이 각광받는 시대가 올 지 모른다. 입이 맞지 않는 어색한 더빙이 아닌 자연스러운 더빙이 원본과 동시에 공개되어 자막보다 선호되는 일이 생겨날 수도 있다.

혹은 아이돌, 셀럽의 언어와 동작을 학습해 다른 사람의 영상에 대입하거나 역으로 특정 키워드만 교체하여 대입하는 방식은 어떨까. 그들이 실제 말하는 것처럼 보이는 영상을 만들어 타겟팅 광고 영상을 제작하는 곳에도 사용할 수 있을 것이다.

엔터테인먼트 분야와 유사한 맥락으로, 교육 분야에서도 긍정적으로 활용될 수 있다. 같은 내용을 강의하더라도 아인슈타인의 입으로 나오는 물리학을 배운다면, 같은 동작을 배우더라도 올림픽 메달리스트에게 배운다면 훨씬 생동감 있게 배울 수 있지 않을까? 말도 되지 않는 상상들이 현실화될 가능성이 앞으로 열려 있다.

현실 속 사람의 데이터를 기반으로 컨텐츠가 제작된다는 점에서, 앞으로 사회적으로나 법적으로나 구성원들의 동의를 받기에는 아직 나아가야할 길이 멀기는 하다. 특히 현재는 대상이 되는 사람의 동의 없는 악의적인 컨텐츠 제작에 사용되는 경우가 대다수이기 때문에 더욱 반감이 거셀 수 밖에 없다. 이러한 이유로 DHR 분야는 주로 제작물의 진위를 판별하는 기술은 분야에 집중되어 있다. 그러나 또 한편으로 다양한 분야에서의 적용을 고려하면 충분히 긍정적인 가치를 지닌 분야이다. 칼이 사용하는 사람에 따라 흉기가 되기도 요리를 돕는 도구가 되기도 하 듯, 악의적인 ‘개조’가 아닌 긍정적인 ‘설계’의 도구로서 사용하기 위한 시도들을 기대해본다.

댓글 남기기

This site uses Akismet to reduce spam. Learn how your comment data is processed.