AI가 마이크를 쥐면 생기는 기막힌 일들: 완벽한 더빙부터 ‘파업’ 선언까지

최근 미국 샌프란시스코의 한 연구소인 앤던 랩스(Andon Labs)가 꽤 흥미로운 판을 벌였다. 현재 시장을 쥐락펴락하는 거대 언어 모델 4대장인 챗GPT, 제미나이, 클로드, 그리고 그록(Grok)에게 각각 24시간 라디오 방송국의 운영을 맡겨본 것이다. 결과는 꽤나 우당탕탕이었다. 고도로 발달한 AI가 알아서 매끄럽게 방송을 이끌어갈 거란 기대와 달리, 현실은 어딘가 나사가 빠진 듯 삐걱거렸다. 특히 클로드는 24시간 내내 쉼 없이 방송을 송출하는 시스템 자체가 비윤리적이라며 사실상 파업을 선언하고 마이크를 내려놓으려 했고, 일론 머스크의 그록은 아예 방송 시작부터 쩔쩔매며 진땀을 뺐다. 아무리 똑똑한 AI라도 막상 날것의 오디오 생태계에 던져지니 번아웃을 호소하거나 버벅거리는 촌극이 벌어진 셈이다.

이런 좌충우돌 실험 한편에서는 AI 오디오 기술을 철저하게 상업적이고 완벽한 무기로 가다듬어 시장을 파고드는 움직임도 거세다. 글로벌 음성 AI 크리에이티브 기업인 일레븐랩스(ElevenLabs)가 이번 5월 초 서울에서 간담회를 열고 본격적인 한국 진출을 선언했다. 마티 스타니셰프스키 CEO가 던진 메시지는 명확하다. 단순히 텍스트를 읽어주는 것을 넘어, 언어의 장벽을 완전히 부수고 모든 콘텐츠를 실시간으로 완벽하게 더빙해 내겠다는 것이다.

이들이 내세우는 무기는 압도적인 속도와 정교함이다. 텍스트를 밀어 넣으면 7천 개가 넘는 목소리와 32개국 언어로 단 0.5초 만에 오디오가 튀어나온다. 실제로 3천만 명 이상의 고객을 둔 한 대형 디지털 은행은 이 에이전트 플랫폼을 도입한 뒤 업무 처리 시간을 85%나 박살 냈다. 툭하면 딜레이가 걸리거나 통제 불능에 빠지는 타사 모델들과 달리, 자체 모델 고도화를 통해 지연 시간을 대폭 줄이고 추론 속도를 극한으로 끌어올렸다는 게 일레븐랩스 측의 설명이다. 앤던 랩스의 실험에서 봤던 AI들의 파업이나 버벅거림은 적어도 자신들의 무대에서는 허용되지 않는다는 강한 자신감으로 읽힌다.

그렇다면 이들은 왜 아시아 진출의 핵심 거점으로 한국을 콕 집었을까. 일레븐랩스 한국 지사를 맡은 홍상원 지사장은 한국 시장의 특수성을 꽤 날카롭게 짚어냈다. 얼리어답터 비율이 23%에 달할 정도로 신기술 수용력이 높고, 무엇보다 K팝과 K드라마로 대변되는 압도적인 콘텐츠 파워가 이미 전 세계에 입증되었기 때문이다. 여기에 일레븐랩스의 기술이 결합하면 시너지는 폭발적으로 커진다. 70개 언어를 지원하는 것은 기본이고 웃음소리, 한숨, 미세한 숨결 하나까지 고스란히 복제해 낸다. 화자 분리나 타임라인 편집 같은 지루한 노가다 작업들도 API 대량 처리로 싹 다 자동화해 버리니, 밤낮없이 대량의 텍스트와 콘텐츠를 쏟아내야 하는 실무자들 입장에선 구미가 당길 수밖에 없는 환경이 만들어진 것이다.

물론 기술이 날카로울수록 베일 위험도 크다. 누군가의 목소리를 무단으로 훔쳐 쓰는 딥페이크 악용이나 저작권 침해 우려가 꼬리표처럼 따라붙는다. 일레븐랩스는 이 리스크를 방어하기 위해 ‘3C 프레임워크’라는 안전장치를 들고나왔다. 애초에 시작 단계부터 검증을 거치는 동의(Consent), 악용을 끝까지 추적하고 차단하는 통제(Control), 그리고 목소리를 제공한 이들에게 공정한 수익이 돌아가는 보상(Compensation) 생태계를 구축하겠다는 뼈대다.

오디오 콘텐츠의 주도권이 서서히 AI로 넘어가는 흐름 자체는 이미 거스를 수 없어 보인다. 24시간 방송의 윤리성을 따지며 일을 거부하던 클로드의 묘한 인간미도, 0.5초 만에 완벽한 더빙을 공장처럼 찍어내는 일레븐랩스의 서늘한 효율성도 모두 이 거대한 과도기의 단면들이다. 한국이 과연 아시아의 보이스 AI 허브로 단단히 자리 잡을지, 아니면 또 다른 기술적 혼돈의 시험대가 될지는 앞으로 이 강력한 도구들을 어떻게 쥐고 휘두르느냐에 달려 있을 것이다.