어떤 느낌인지 아실 겁니다.
늦은 밤, 브랜드 캠페인 영상을 네 번이나 수정했습니다. AI가 히어로 샷의 조명은 완벽하게 잡아냈지만, 오늘 밤에만 세 번째로 모델의 얼굴이 미세하게 바뀌었습니다. 의상은 같은데 사람이 달라졌습니다. 이대로는 출시할 수 없습니다. 고칠 수도 없습니다. 결국 처음부터 다시 시작합니다.
자정이 넘어가면, 더 이상 영상을 편집하는 게 아닙니다. 도박을 하고 있는 것이죠.
내러티브의 연속성을 유지하려는 모든 이들에게 — 여러 컷에 걸쳐 같은 모델이 등장해야 하는 제품 데모, 장면마다 동일한 강사가 나와야 하는 강의 영상, 컷마다 동일한 가수가 등장하는 뮤직비디오 등 — 캐릭터 드리프트(character drift)는 모든 AI 비디오 툴의 보이지 않는 암살자였습니다. AI 비디오가 상용화되지 못하고 그저 "멋진 데모" 단계에 머물러 있었던 이유도 바로 이것 때문입니다.

2026년 5월 19일, I/O 2026에서 구글의 Gemini Omni는 이 시대가 저물고 있음을 보여주었습니다.
이 혁신의 핵심은 구글 DeepMind 제품 페이지의 단 한 줄로 요약됩니다. "사용자가 만드는 모든 편집은 이전 단계에서 이어지며, 일관되고 결합력 있는 장면을 유지합니다."
역사를 새로 쓴 바이올리니스트 데모
이번 I/O 발표에서 가장 중요한 순간은 굴러가는 공도, 거품 조각상도 아니었습니다. 바로 바이올리니스트였습니다.
구글이 무대와 블로그를 통해 공개한 실제 시퀀스는 다음과 같습니다.
- 1단계: 무대에서 연주하는 바이올리니스트의 기본 영상 생성.
- 2단계: 프롬프트 입력 — "바이올리니스트를 이미지 속 환경으로 옮겨줘." 결과: 배경은 바뀌었지만 얼굴, 자세, 활을 쥔 손, 손목 각도까지 동일하게 유지됨.
- 3단계: 프롬프트 입력 — "카메라 앵글을 바이올리니스트의 어깨 너머 시점으로 바꿔줘." 결과: 새로운 프레이밍 적용. 동일한 바이올리니스트. 동일한 정체성. 동일한 연주.
세 번의 수정. 하나의 피사체. 제로 드리프트(Zero drift).
기존 AI 비디오 툴을 사용해 본 사람이라면 이것이 마치 속임수처럼 보일 것입니다. 하지만 속임수가 아닙니다. 영화 제작자, 광고주, 교육자들이 기다려온 멀티턴 리파인먼트(multi-turn refinement) 워크플로우가 기술적으로 구현 가능해졌다는 첫 번째 공개 증명입니다.
왜 멀티턴 일관성이 AI 비디오의 고질적인 문제였나

바이올리니스트 데모가 중요한 이유를 이해하려면, 다른 AI 비디오 모델들이 어디에서 실패해왔는지 알아야 합니다.
기존의 생성형 비디오 파이프라인에서는 새로운 프롬프트를 입력할 때마다 이전 프롬프트와 새 프롬프트를 결합해 장면을 완전히 새로 생성합니다. 모델은 편집 단계 사이의 실질적인 연속성을 기억하지 못합니다. 얼굴이 변하고, 배경 소품이 사라지며, 조명이 바뀝니다. 세 번째 수정 단계쯤 되면 결과물이 원래의 의도와 너무 멀어져서 결국 포기하고 다시 시작하게 됩니다.
근본 원인은 아키텍처에 있습니다. 대부분의 비디오 모델은 멀티턴 에이전트가 아닌 일회성 생성기로 학습되었습니다. 이들은 이전 작업을 기억하고 이를 개선하는 방식이 아니라, 하나의 프롬프트에서 최상의 결과물을 뽑아내는 데 최적화되어 있었습니다. 따라서 "편집"을 요구하면 추가적인 컨텍스트를 제공받아 처음부터 다시 시작할 뿐이었고, 이 과정에서 오차가 누적되어 드리프트가 발생한 것입니다.
Omni의 접근 방식은 다릅니다. _상태 유지형 편집기(stateful editor)_로 구축되었기에, 각 단계마다 장면의 상태를 지속적으로 업데이트하며 결과물을 유지합니다.
"장면이 기억한다"는 것의 진정한 의미
테크 업계의 반응은 한 가지 결론으로 수렴하고 있습니다.
Decrypt는 이번 돌파구를 가장 명쾌하게 설명했습니다: "구글은 Omni가 사용자의 수정 작업 이후에도 등장인물, 배경, 움직임을 일관되게 유지할 수 있다고 말합니다. 이는 기존 AI 비디오 모델들이 고전하던 부분입니다."
Android Central은 기술적 핵심을 짚었습니다: "또한 이 모델은 다단계 수정 과정에서 이전 명령을 기억하므로, 반복적인 편집 과정이 훨씬 덜 혼란스러워질 수 있습니다."
TechRadar는 영화적 관점에서 표현했습니다: "캐릭터는 그대로 유지됩니다. 장면의 연속성은 유지됩니다. 프롬프트가 바뀔 때마다 동작이 초기화되지 않고 일관되게 이어집니다."
Phandroid는 이 모든 능력을 다섯 단어로 압축했습니다: "장면이 이전 내용을 기억합니다(The scene remembers what came before)."
이것이 핵심입니다. 장면이 기억한다는 것. 바로 이 단 하나의 특징이 AI 비디오를 단순한 장난감에서 실질적인 도구로 바꿔놓는 차이입니다.
Sora, Veo, Seedance와 비교한 Omni의 일관성
2026년 5월 기준, 주요 AI 비디오 모델들의 멀티턴 일관성 비교는 다음과 같습니다.
| 모델 | 멀티턴 편집 | 대화형 개선 | 캐릭터 일관성 | 현재 상태 |
| Gemini Omni Flash | 상태 유지, 멀티턴 | 기본 제공(채팅 방식) | (3/5) | 2026년 5월 19일 출시 |
| Sora 2 (OpenAI) | 일회성 재생성 | 제한적 | 중단됨 | Sora 앱 종료, 2026년 9월 API 지원 종료 |
| Veo 3.1 (Google) | 부분 지원 | 텍스트 + 이미지 전용 | Omni보다 낮음 | 출시 완료, Omni로 대체 예정 |
| Seedance 2.0 (ByteDance) | 참조 기반, 반복 불가 | 제한적 | (4/5) | 서비스 중, AI 영상 분석 1위 |
솔직히 말하자면, 진정한 상태 유지형(stateful) 멀티턴 편집 기능을 갖춘 모델은 Omni가 유일합니다. Seedance는 최대 9장의 참조 이미지를 사용하여 캐릭터 일관성 면에서 더 높은 점수를 받지만, 편집 세션 전반에 걸쳐 일관성을 이어가지는 못합니다. Sora는 소비자 서비스에서 퇴출되었고, Veo는 Omni에 흡수되는 추세입니다.
"다시 생성"에서 "개선"으로 — 워크플로우의 변화

여기서 진정한 가치는 데모 그 자체가 아니라 워크플로우의 혁신에 있습니다.
Blockchain.news는 상업적 영향을 이렇게 평했습니다: "배치 편집(Batch editing)은 여러 영상 세그먼트에 걸쳐 동시에 수정 작업을 수행할 수 있게 하여, AI 콘텐츠의 품질 표준을 유지하면서도 제작 속도를 가속화합니다. 영화, 광고, 교육 콘텐츠 제작자들은 비용 절감과 내러티브의 신뢰성 향상이라는 큰 이점을 얻게 될 것입니다."
마지막 문구인 **내러티브 신뢰성(narrative reliability)**은 콘텐츠를 다루는 모든 이들에게 가장 중요한 부분입니다.
지금까지 AI 비디오는 단 하나의 좋은 클립을 만드는 데 그쳤습니다. 동일한 주인공, 같은 브랜드 자산, 일관된 시각적 언어를 가진 '캠페인'을 만들 수는 없었습니다. 모든 편집이 도박이었기 때문입니다. 이제는 편집이 누적됩니다.
TechTimes는 공개된 기능을 이렇게 요약했습니다: "사용자 촬영 영상의 피사체 및 객체 편집, 실사 및 애니메이션 스타일 전환, 멀티턴 개선, 설명형 영상 생성."
DataCamp의 실사용 리뷰 또한 멀티턴 기능을 확인해주었습니다: "Omni는 멀티턴 편집을 지원하므로, 장면의 일관성을 유지하면서 세부 사항, 환경, 카메라 앵글을 단계별로 개선할 수 있습니다."
워크플로우의 변화는 작아 보일지 모르지만 실제로는 엄청납니다. 생성 → 재생성 → 재생성 → 포기라는 과정이 생성 → 개선 → 개선 → 출시로 바뀌는 것입니다.
개발자들도 이를 주목하고 있습니다. 중국의 개발자 커뮤니티 V2EX에서 Omni를 테스트한 한 엔지니어는 이렇게 썼습니다: "생성 속도와 일관성이 내 기대를 뛰어넘었다."
AI 엔지니어들과 현장 제작자들이 출시 몇 시간 만에 같은 의견을 내놓고 있다는 것은, 이것이 단순 마케팅이 아닌 실질적인 기술적 진보라는 것을 의미합니다.
솔직한 회의론 — Omni도 완벽하진 않다
일관성 문제가 완전히 해결되었다고 선언하기 전에 냉정해질 필요가 있습니다.
Medium의 AI Analytics Diaries 리뷰어는 Omni와 Seedance 2.0을 비교 테스트한 결과 Omni의 캐릭터 일관성에 5점 만점에 3점을 주었습니다.
모든 AI 비디오 제품 관리자가 기억해야 할 대목입니다: "두 모델 모두 여러 컷에 걸친 캐릭터 일관성 유지에는 고전하고 있다. 이것은 여전히 AI 비디오의 아킬레스건이다."
즉, Omni는 단일 편집 세션 내의 멀티턴 개선 작업에 있어서 다른 모든 공개 모델보다 확실히 뛰어납니다. 하지만 전체 카테고리 관점에서 완벽하게 해결된 문제는 아닙니다.
아직 해결해야 할 과제는 무엇일까요?
- 단일 장면 내에서의 멀티턴 일관성은 매우 훌륭합니다(바이올리니스트 데모).
- 교차 컷(Cross-cut) 일관성(동일 캐릭터가 다른 장면, 조명, 앵글에서 등장하는 경우)은 여전히 불완전합니다.
- 미세한 얼굴 디테일, 손의 움직임, 특정 의류 질감 등은 여러 번의 편집 과정을 거치며 조금씩 변할 수 있습니다.
- 현재 Omni Flash의 10초 클립 제한 때문에, 장편 내러티브 작업에서의 멀티턴 일관성은 아직 대규모 테스트를 거치지 않았습니다.
대부분의 활용 사례(단일 장면 개선, 소셜 미디어용 콘텐츠, 마케팅 자산)에서 Omni는 이미 충분히 상용 가능한 수준입니다. 하지만 30개 이상의 컷이 포함된 영화 등급의 내러티브 작업에서는 여전히 약간의 수동 편집 과정이 필요합니다.
산업별 변화 — 무엇이 달라지는가
멀티턴 일관성이 해결되었거나 해결 단계에 있다면 다음과 같은 변화가 일어납니다.
브랜드 광고주: 캠페인의 연속성. 패션 브랜드는 재촬영이나 추가 섭외, 수동 수정 없이도 10가지 설정에서 동일한 모델이 등장하는 다양한 버전을 생성할 수 있습니다. 소셜 미디어 위주의 콘텐츠 제작 비용과 효율이 획기적으로 개선됩니다.
교육 및 튜토리얼 제작자: 시리즈의 일관성. AI 강사 한 명이 1강부터 12강까지 전체 과정을 진행해도 시청자는 이질감을 느끼지 않습니다. 그동안 AI 강사 도입을 가로막았던 "일관된 얼굴 유지" 문제가 해결되었습니다.
영화 제작자: 대규모 프리비주얼 작업. 동일한 배우가 여러 장면, 조명, 앵글에 등장하는 영상을 단일 세션에서 생성하고 반복적으로 개선할 수 있습니다. "아이디어를 감독에게 보여주기까지" 걸리는 시간이 며칠에서 몇 분으로 단축됩니다.
이커머스 팀: 다양한 리스팅에서 일관된 제품 샷 사용. 같은 모델, 6가지 의상, 라이프스타일 샷, 스튜디오 샷 등 모든 결과물이 일관된 상태로 생성됩니다.
게임 개발자: 컷신마다 동일하게 보이는 NPC 구현. 그동안 게임 내 AI 시네마틱의 아킬레스건은 장면마다 주인공의 외형이 조금씩 변하는 것이었습니다. Omni의 상태 유지 편집 기능으로 캐릭터 고정(Character locking)이 가능해졌습니다.
신뢰성의 긴장감 — 더욱 정교해지는 가짜 영상
이러한 돌파구에는 주의해야 할 어두운 측면도 있습니다.
멀티턴 일관성이 향상될수록 가짜 영상을 잡아내기는 더 어려워집니다. 컷 사이에서 얼굴이 변하거나, 손 모양이 달라지거나, 머리카락 색이 변하는 등 기존 AI 영상의 허점이 일관성 기술로 보완되기 때문입니다. Omni와 그 후속 모델들이 내부 연속성을 완벽하게 구현할수록 "분명한 AI 제작"과 "진짜와 구분 불가능한 영상" 사이의 경계는 빠르게 좁혀집니다.
바로 이 때문에 모든 Omni 생성 영상에는 생성 시점부터 구글의 보이지 않는 SynthID 워터마크와 C2PA 콘텐츠 자격 증명이 삽입됩니다. 이는 Gemini 앱, 크롬, 검색 엔진 내에서 검증 가능하며, 옵션이 아닌 필수 사항입니다.
또한 구글이 기존 영상의 음성 및 오디오 편집 기능을 신중하게 공개한 것도 같은 이유입니다. "이 기능을 책임감 있게 사용자에게 제공하기 위해 더 많은 테스트가 필요합니다." 즉, 일관된 얼굴에 변조된 목소리가 더해졌을 때 발생할 딥페이크 위험이 안전장치 없이 상용화하기에는 너무 높다는 뜻입니다.
브랜드와 제작자에게 게임의 규칙이 바뀌고 있습니다. 인간의 눈으로 "가짜" 콘텐츠를 식별하는 것이 불가능해짐에 따라, 암호학적 출처 검증(cryptographic provenance)이 콘텐츠 진위 여부의 새로운 표준이 될 것입니다. 모든 일관성 향상 기술은 그에 따르는 출처 책임과 함께 제공될 것입니다.
새로운 병목 현상은 품질이 아니라 모델의 난립
AI 비디오 제품을 개발하는 모든 이들에게 이번 변화는 전략적인 의미를 갖습니다.
주요 모델 간의 기술 격차는 빠르게 좁혀지는 동시에, 분산되고 있습니다. 2026년 중반 기준:
- Gemini Omni는 멀티턴 일관성과 대화형 편집에서 선두를 달립니다.
- Seedance 2.0은 영화적 움직임과 스타일화된 애니메이션, 참조 기반 캐릭터 일관성에서 강점을 보입니다.
- 기타 전문 모델들은 장편 생성, 정밀한 캐릭터 제어, 오디오 싱크, 저비용 배치 처리에서 강점을 갖습니다.
현재 가장 일관성 있는 모델이 내일은 영화적 움직임에서 뒤처질 수 있습니다. 물리 법칙을 가장 잘 구현하는 모델이 오디오 싱크에서는 부족할 수 있습니다. 또한 모든 모델은 저마다의 SDK, 인증 방식, 가격 체계, 호출 제한, 계약 조건을 가지고 있습니다. 새로운 모델이 나올 때마다 엔지니어링 스프린트를 낭비하고, 모델이 폐기될 때마다 다시 작업해야 합니다.
이것이 바로 Atlas Cloud가 해결하고자 하는 문제입니다. 저희는 300개 이상의 모델을 단일 통합 엔드포인트로 제공합니다. 모든 주요 파운데이션 모델, 오픈 소스, 이미지/비디오/오디오 및 추론 분야의 특화 모델들을 포함합니다. Gemini Omni는 향후 몇 주 내에 Atlas Cloud에 추가될 예정입니다. 따라서 스택을 교체할 준비가 되는 순간, 통합 작업은 이미 완료되어 있을 것입니다.
실제 팀이 얻게 되는 이점은 다음과 같습니다:
- 단 한 줄의 코드로 모델 교체 — 새로운 최신 모델(SOTA)이 나올 때마다 SDK 통합을 재작성할 필요가 없습니다.
- 동일한 프롬프트로 병렬 평가 수행 — 예산을 투입하기 전에 우리 팀의 특정 사용 사례에 어떤 모델이 가장 적합한지 즉시 확인합니다.
- 기능별 최강 모델 활용 — 오늘의 일관성 1위 모델, 내일의 영상미 1위 모델을 필요에 따라 자유롭게 선택합니다.
- 통합 대시보드로 관리 — 12개의 개별 계정을 관리할 필요 없이 과금, 상태 모니터링, 호출 제한을 한곳에서 처리합니다.
2026년 AI 비디오 제품을 출시하는 개발자들에게, "Omni에 올인"하는 것은 똑똑한 건축적 선택이 아닙니다. _"무엇이 승리하든 교체할 수 있는 추상화 계층을 구축하는 것"_이 핵심입니다. Gemini Omni가 Atlas Cloud에 탑재되면, 한 줄의 코드 수정 없이도 Seedance와 비교하고, 차세대 돌파구 모델과 비교할 수 있습니다.
일관성, 물리 법칙, 영상미, 오디오 충실도 등 기능별로 승자가 다른 시장에서 특정 모델에 종속되는 것은 최악의 기술 부채입니다. Atlas Cloud는 이러한 난립을 성장의 동력으로 바꿔주는 추상화 레이어입니다.
핵심 통찰
멀티턴 일관성이 중요한 이유는 데모 자체 때문이 아니라, 그것이 열어준 가능성 때문입니다.
지난 5년간, _"AI 비디오는 언제 상용화되는가?"_라는 질문은 언제나 **"캐릭터가 편집 전반에 걸쳐 일관성을 유지할 수 있는가?"**라는 벽에 막혔습니다. 이제 그 벽이 허물어졌습니다.
바이올리니스트 데모는 단순한 보여주기식 이벤트가 아닙니다. 주요 AI 연구소에서 실제로 작동하는 멀티턴 편집 워크플로우를 무대 위에 올린 첫 번째 사례입니다. 다음에 마케팅 팀이 6가지 상황에서 동일한 제품이 등장하는 6개의 클립을 요청한다면, 이제는 서로 다른 얼굴이 아닌 6개의 완벽한 결과물을 기대할 수 있게 되었습니다.







