생성형AI와 멀티모달리티, 그리고 컨텐츠 & 미디어의 미래

생성형AI와 멀티모달리티, 그리고  컨텐츠 & 미디어의 미래
Photo by Prateek Katyal / Unsplash

본 포스트는 코드 구현이나 테크니컬 디테일 보다는 ChatGPT를 필두로한 새로운 생성형AI 모델들로 인해 나타날 변화에 대해 사유합니다.

저는 주로 현직 엔지니어나 개발자분들을 대상으로 강의를 하기 때문에, LLM 또는 Transformer 의 원리나 실제 코드로 시스템을 구축하는 방법 등을 다룹니다.  

그러던 24년 4월, 우연한 기회로 서울대학교 현대사회와 미디어 강의에서 생성형AI 관련 특강을 진행했습니다.  교양 강의로 대학생들을 대상으로 강의를 하다 보니 디테일한 부분 보다는 기술의 발전 흐름, 그로 인한 사회의 영향을 고민해 보는 시간을 가지게 되었고, 저 스스로도 많은 것들을 돌아보게 되었네요.

나름대로 결론을 내린 예측들이 고작 2달이지만 시간이 흐르며 맞아가는 것을 보고 생각을 정리하여 기록을 남겨봅니다. 누군가에게는 도움이 되길 바라며.


기술의 흐름

생성형AI (Generative AI) , LLM (Large Language Model) , GPT 이런 키워드들이 대중의 관심을 많이 받고 있죠. ChatGPT 의 상업적인 성공은 너무나 강렬하고, 제 개인에게는 주요 밥벌이 수단이기도 하며, 주식시장에서는 NVIDIA 의 고공 행진을 이끌고 있죠. 얼마나 많은 이용자들이 ChatGPT 를 사용하냐면, 전세계의 제일 비싼 GPU를 아주 많이 쓸어간 OpenAI 의 컴퓨팅 자원도 서양 친구들이 활동할 시간이면 이용자가 몰려 자원이 부족해 ChatGPT 가 멈춥니다.  (당연히 유료 사용자도)

조금만 자세히 들여다 보죠.  

2017년 Tranformer 구조가 세상에 나옵니다. 그 유명한 "Attention is all you need" 가 논문 제목입니다. 지금 와서 돌이켜보면 이 당시에는 큰 주목은 못 받았습니다. 구글에서, 그리고 OpenAI 에서 Transformer 를 기반으로 많은 것들을 만들었는데 대표적인 것이 GPT 이고, 이는 현재까지도 모든 LLM 의 기본 구조로 자리 잡았습니다.

처음엔 왜 주목을 많이 못 받았고, 지금은 왜 이렇게 인기가 높을까요? 왜 성공했을까요?

💡
Transformer 는 데이터를 흡수할 수 있는 능력을 가진 구조라 학습을 시키면 시키는 대로 좋아집니다!

현재까지도 계속 더 똑똑해지고 있고, 앞으로 얼마나 더 똑똑해질 지 모릅니다. 반면, 데이터를 많이 넣기 전까지는 두각을 나타내지 못하기 때문에 처음에는 이만큼 주목을 받지 못했죠. 이전 시대의 구조 (대표적으로 CNN, RNN) 들과 비교하여, inductive bias 가 없기 때문인데 이건 어려운 이야기니까 여기서 생략하겠습니다.

중요한 점은 아직 끝을 만나지 않았다는 점입니다. 앞으로도 발전 여지가 많이 남아있어요.

멀티모달리티 (Multi Modality)

현재를 기준으로 보겠습니다. GPT 로 대표되는 LLM 은 랭귀지 모델입니다. 언어 모델, 텍스트를 기반으로 합니다. 이 LLM 은 당분간 계속 똑똑해 질 예정입니다. 그런데, 더 중요한 점이 있습니다.

GPT 는 이제  LLM 이 아닙니다. Multi-Modal Model 입니다.

24년 5월 13일 OpenAI 가 GPT-4o 를 발표했습니다. 5월 14일 구글이 Gemini 1.5 를 발표했습니다. 공통점은 멀티모달리티, 언어 뿐 아니라 눈과 입, 귀가 달렸다는 것이죠.

예를 들어, 스마트폰에서 ChatGPT 앱을 켜고 음성 모드를 써보겠습니다. 이제까지는 오디오 신호는 Whisper 라는 Speech Recognition 모델을 통해 text 로 인식이 되고 text 가 GPT로 전달되어 text가 나옵니다. GPT 가 생성한 대답은 text 이고 다시 TTS를 통해 음성으로 변경되어 스피커로 재생되죠. GPT 는 LLM, 랭귀지 모델이니까요. 이러면 단점은 무엇이냐. 오디오에 담겨있는 말투, 뉘앙스, 짧은 pause 같은 정보들이 모두 소실됩니다. 오로지 텍스트에 담길 수 있는 정보만 살아서 전달이 되죠.

기존의 동작 방식

이번에 발표한 GPT-4o 는 멀티 모달리티 모델입니다. 텍스트를 받는 언어 모델이 아니고, 텍스트, 오디오, 이미지 (영상) 을 함께 가리지 않고 받는 모델이에요. 앞서 지적한 문제들이 모두 사라집니다. 24년 6월 현재는 아직 이 기능이 지원되지 않지만, 곧 출시 예정입니다. GPT4가 인간어를 다루는 모델이라면, GPT-4o는 인간데이터를 다루는 모델이라고 요약할 수 있겠습니다.

이는 데모 영상에서 드러납니다. 언어가 아님 숨소리의 의미도 파악하고, 말투 변경 요청도 수행하죠. 데모 영상에는 오디오 뿐 아니라 vision 내용도 담겨있으니 안보셨다면 한번 영상을 보시는 것을 추천 드립니다.

멀티모달리티 모델의 포텐셜을 생각해볼까요.

인간은 센서를 늘릴 수 없습니다. GPT 는 늘릴 수 있습니다.

Input 으로는 오감이 끝이죠. 현재 GPT-4o 는 촉각/후각을 쓰지는 않지만... 어찌 됐든 이 디지털 뇌는 센서를 맘대로 늘릴 수 있습니다. 자율주행 차량의 예를 보면 이미 lidar 센서를 쓰고 있죠? 이런 것들이 종류를 막론하고 추가가 가능합니다. 인간보다 다양한 데이터 타입이 처리가 가능하죠. 물론 데이터를 충분히 확보할 수 있어야 하겠지만.

다시, 인간을 기준으로 돌아와서 멀티모달리티 타입의 데이터 중 우리가 가장 많이 즐기는 것이 있습니다. 바로 동영상이죠. 24년 초에 OpenAI 에서 Sora 라는 모델이 정말 말도 안되게 영상 능력을 보였는데, 5월 구글에서도 Veo 라는 모델을 발표했습니다. 이 Sora 모델도 Tranformer 기반의 구조라고 합니다. (이미지 생성은 Diffusion 이라는 또 다른 구조의 모델이 있는데 이에 관련한 디테일은 생략하겠습니다.)

컨텐츠의 변화

이제 기술 이야기는 살짝 접어두고, 컨텐츠와 미디어에 대해 이야기 해보겠습니다. 누가 봐도 생성형AI 가 컨텐츠와 미디어에 지대한 영향을 끼칠 것은 자명한데, 어떻게 끼칠지 한번 생각해보죠.

제가 어렸을 때, 약 15년 전을 생각해보면 친구들, 친척들이 거의 같은 컨텐츠를 즐겼습니다. 주말엔 할아버지, 할머니도 같이 무한도전을 보고, 학교에 가면 지난 주 무한도전 이야기를 했어요. 이것이 매스미디어, 대중매체의 영향력이었죠.

현재를 보죠. 친척들이 모이면 각자 다 다른 것을 봅니다. 할머니는 정치 유투브를 보십니다. 같은 세대인 사촌들도 저랑 다른 것을 봅니다. 제 유투브 시청기록에는 사나고/MKBHD/카파시 이런 것들이 있고, 사촌형 시청 기록엔 저는 본적도 없는 천만 먹방 유투버들이 있습니다. 저는 동생들 유투브 구독 목록을 항상 염탐하여 따라가려고 노력합니다.  추천 시스템을 기반으로 개인화 미디어 시대라고 볼 수 있습니다. (참고로 유투브 추천 시스템도 딥러닝 기반...) 그래도, 누군가는 제가 본 유투브 영상을 같이 봅니다. 내 옆 사람이 아닐 뿐.

그래서 미래는?

그렇다면 미래는 어떻게 될 까요? 저는 이렇게 예상합니다.

우리는 모두가 다 다른 컨텐츠를 볼 것이고, 미디어는 그 컨텐츠들을 무한히 생성해줄 것이다.

가까운 미래를 생각해보겠습니다. 저는 강의를 현재 본업으로 삼고 있기 때문에, 강의라는 컨텐츠 생산자 이기도 합니다. 제 강의에는 가끔 외국인 분들도 오십니다. 최근에는 일본인 분이 오신 적이 있었는데, 제가 일본어를 못하기에 질답을 영어로 했습니다. 만약에 제가 한국어로 강의를 하고 있지만, 바로바로 일본어로 동시 통역되어 수강생 분에게 전달이 된다면 어떨까요? 한국분들과 일본분은 같은 강의를 다른 컨텐츠로 소비하고 계신 것이죠.

제가 강의 영상을 올렸는데, 언어별로 다르게 합성되어 제공된다면, 사용자의 시청 기록 또는 요청 사항을  기반으로 영상 내용도 재편집되어 배달된다면, 하나의 생산된 컨텐츠가 사용자마다 맞춤형으로 변경되어 배달이 되는 미디어가 되는 것이죠. 음성인식과 번역, 그리고 영상 립싱크 합성이 있으면 가능한데, 이미 서비스가 출시된 사항입니다.

그 다음 미래는, 하나의 생산된 컨텐츠가 맞춤 변형되는 것이라 아니라, 생산부터 소비자에 맞게 생성 될 것입니다. 저는 무협 소설을 좋아하고, 많이 소비합니다. 만약에  미디어가 저한테 맞는 소설을 계속 생산해서 제공해 준다면, 저는 작가가 있겠지... 하면서 재밌게 소설을 즐길 것 같습니다. 소설은 필명만 존재하기에 작가의 실체를 확인하기가 힘들죠. 사실 이미 GPT 를 이용해서 만들어진 작품들이 많이 있을 것으로 추정됩니다. 제가 즐기는 소설 중에 의심 가는 작품들도 있고요.

노래도 이미 SunoAI 와 같은 서비스로 양질의 음악이 생성되고 있고, 그림은 이미 옛적에 미드저니로 만들어진 그림이 미술대회에서 우승을 했죠. 우리가 마주하는 많은 컨텐츠들의 생산 비용이 생성형AI 로 인해 확 떨어질 것이고, 이는 맞춤형 컨텐츠로 사용자에 맞게 생산이 될 것이라고 예상합니다.

💡
우리 모두는 각자 다른 컨텐츠를 즐기는 세상이 곧 오겠죠.

생성된 컨텐츠도가 점점 더 큰 비중을 차지하게 될 것이 당연합니다. 실제로 유투브나 라이브 방송에서는 버튜버가 이미 큰 인기가 있고, 버추얼 가수인 플레이브는 MBC 음악 프로그램에서 이미 수상을 했죠. 이러한 흐름은 이미 시작 되었습니다.

대중들은 이런 컨텐츠에 거부감을 느낄까요? 그렇다면 어떤 대체제를 찾을까요? 인간은 사회적 동물이니까 거부감을 느낄 것이고, 그에 따라 오프라인 모임이 반대 급부로 더 활성화 될 것이라고 생각합니다. 오프라인 참가가 가능하거나 조작이 어려운 라이브 같은 형식. 실체가 보증된 형태의 컨텐츠가 더욱 중요해질 것이라고 예상합니다. 그래서, 저도 텍스트로만 전달하는 블로그를 넘어 라이브를 시작하려고요.

위와 같은 결론에 따라 본 포스트는 AI 의 도움을 하나도 받지 않은 오로지 제 손과 머리로만 작성했습니다