Google은 2026년 I/O에서 Gemini Omni를 공개했습니다. 이는 타임라인이나 키프레임 편집 방식이 아닌, 일상적인 대화를 통해 영상을 편집하는 멀티모달 모델입니다. 버블 조각상, 액체 거울, 바이올리니스트 영상 등 바이럴 데모가 증명하듯, 이 기술의 진정한 핵심은 단순히 텍스트를 영상으로 만드는 것이 아니라 이미 가지고 있는 영상을 텍스트로 편집하는 것에 있습니다. 이는 영상 제작 분야의 '아이폰 카메라 모먼트'와 같습니다. 음성, 오디오 편집 기능과 Pro 티어가 의도적으로 제외된 점도 눈에 띕니다.
새벽 1시입니다. 30초짜리 클립을 4시간째 편집 중입니다. 프로젝트 파일에는 레이어가 47개나 쌓여 있고, 키프레임을 붙잡고 씨름하느라 손목이 아파옵니다. 이때 클라이언트로부터 메시지가 옵니다. "조명을 좀 더 따뜻한 느낌으로 바꿔볼 수 있을까요?" 당신은 다시 처음부터 작업을 시작할 준비를 합니다.
그게 바로 영상 편집자의 일상이었습니다. 과거형이죠.
2026년 5월 19일, 구글은 그 일상을 조용히 은퇴시켰습니다.
I/O 2026에서 구글은 Gemini Omni를 발표했습니다. 영상 편집을 대부분의 사람들이 10년 뒤에나 가능할 것이라 여겼던 수준, 즉 **'평범한 대화'**로 바꾸어 놓는 멀티모달 모델입니다.
핵심 요약: 영상을 '조작'하지 말고 '대화'하세요.
이 기술의 핵심을 한 문장으로 정리하면 이렇습니다. 이제 영상을 직접 조작할 필요 없이, 원하는 바를 말하기만 하면 됩니다.
구글의 발표는 군더더기 없이 설명합니다. "모든 지시는 이전 작업의 맥락 위에서 이루어집니다. 캐릭터는 일관성을 유지하고, 물리는 정확하며, 장면은 이전에 무엇이 있었는지 기억합니다."
이는 단순한 Veo 업데이트가 아닙니다. 구글 딥마인드 제품 페이지는 더 이해하기 쉽게 설명합니다. "Gemini Omni를 영상판 'Nano Banana'라고 생각하세요." 작년, Nano Banana는 텍스트 입력만으로 사진 편집을 쉽게 만들었습니다. 이제 Omni가 움직이는 이미지에 그 기능을 수행합니다.
이 제품군의 첫 번째 모델인 Gemini Omni Flash는 이미 Gemini 앱, Google Flow, YouTube Shorts에서 사용할 수 있습니다.
이 카테고리를 바라보는 관점을 완전히 바꿔줄 TechCrunch와 딥마인드 팀의 인터뷰에서, 리서치 엔지니어 게이브 바스-마론(Gabe Barth-Maron)은 사용자들이 Omni로 만드는 결과물을 *"개인화된 밈"*이라고 표현했습니다.
이것이 핵심입니다. 영상 제작은 이제 '기술(craft)'에서 '표현(expression)'의 영역으로 넘어갔습니다. 마치 아이폰이 DSLR의 성벽을 무너뜨렸을 때 사진 산업이 겪었던 변화와 같습니다.
트위터를 뒤흔든 데모 영상들
마케팅 문구는 읽기 지루할 뿐입니다. 이번 발표를 성공시킨 것은 단연 데모였습니다. 현재 가장 화제가 되는 3가지 영상입니다:
- 버블 조각상: 석상 클립을 Omni에 입력하고 *"조각상을 비눗방울로 만들어줘"*라고 하면, 구도와 조명, 그림자는 그대로 유지된 채 조각상만 주변 빛을 반사하는 투명한 비눗방울 질감으로 변합니다.
- 액체 거울: 손이 거울을 만지는 영상에서 *"거울이 액체처럼 아름답게 출렁이게 하고, 사람의 팔을 거울 소재로 바꿔줘"*라고 요청합니다. Windows Report가 보도했듯, 파동은 물리적으로 자연스럽게 퍼져나가고 팔의 크롬 표면에는 실제 방의 모습이 반사됩니다.
- 연쇄 편집: 구글의 바이올리니스트 데모는 무대 → 이동한 환경 → 어깨 너머 카메라 앵글로 이어지는 3단계 편집 과정을 보여줍니다. 세 번의 수정에도 인물, 얼굴, 자세, 악기를 잡은 손 모양까지 완벽하게 일관성을 유지합니다.

이것은 텍스트-투-비디오가 아닙니다. 이미 있는 영상을 텍스트로 편집하는 것입니다. 작은 차이 같지만, 모든 것을 바꿉니다.
크리에이터들이 열광하는 이유
다른 모델 출시와 달리 이 기술이 강력하게 다가오는 이유는 단순합니다. Omni가 생성형 영상 제작의 최악의 반복 작업을 제거했기 때문입니다.
기존 방식: 생성 → 결과물 불만족 → 프롬프트 수정 → 90초 대기 → 여전히 결과물 불만족 → 반복.
새로운 방식: 생성 → "조명을 골든 아워로 바꿔줘" → 완료 → "이제 카메라 무빙을 느리게 해줘" → 완료.

Android Central의 평가는 냉정했습니다. "Gemini Omni는 기존의 영상 편집 앱들을 구시대의 유물로 만들 수 있다." TechRadar 또한 편집 과정에서도 모션이 초기화되지 않고 일관성 있게 유지된다는 점을 높게 평가했습니다.
개발자들도 움직이고 있습니다. 개발자 커뮤니티 V2EX의 한 중국인 개발자는 출시 당일 테스트 후 *"영상 내 객체를 채팅 기반으로 수정하는 방식은 분명한 미래다. 속도와 일관성이 기대 이상이다"*라고 평했습니다. 면역학자이자 AI 평론가인 Dr. Derya Unutmaz는 X에 *"구글 딥마인드가 정말 놀라운 멀티모달 모델 Gemini Omni를 내놓았다. 영상 퀄리티가 대단하다! 당장 써봐야 한다!"*라며 즉각적인 반응을 보였습니다.
AI 전문가들과 개발자 커뮤니티가 동시에 한목소리를 낸다는 것은 변곡점에 도달했음을 의미합니다.
구글이 조용히 뒤로 숨긴 것들
장밋빛 찬사만 늘어놓는 것은 무책임한 일입니다.

Engadget은 문제점을 지적했습니다: "Veo 3.1 등 기존 모델이 가진 '불쾌한 골짜기' 현상은 여전하다. 과연 실제 결과물이 구글의 호언장담만큼 품질이 나올지 지켜봐야 한다."
DataCamp의 실사용 테스트에서는 투석기가 물체를 뒤로 발사하는 등 물리 법칙 오류가 발견되기도 했습니다. 또한 객관적인 벤치마크 점수가 공개되지 않아 외부 검증까지는 시간이 더 걸릴 것으로 보입니다.
또한, 기존 영상 내 음성 및 오디오 편집 기능은 의도적으로 제외되었습니다. 구글은 *"책임감 있게 이 기능을 사용자에게 제공할 방법을 모색 중"*이라고 밝혔습니다. 쉽게 말해, 딥페이크 위험 때문에 가장 위험한 기능은 아직 꽁꽁 숨겨둔 것입니다.
모든 Omni 클립에는 구글의 보이지 않는 SynthID 워터마크와 C2PA 콘텐츠 인증 정보가 포함됩니다. 이는 Gemini 앱, 크롬, 검색 내에서 출처를 확인할 수 있습니다. 이제 이것은 선택이 아닌 필수입니다.
당신의 워크플로우에 의미하는 것
거품을 걷어내고 나면 본질만 남습니다:
- 도구는 곧 대화가 됩니다. 타임라인도, 레이어도, 키프레임도 필요 없습니다. 오직 당신의 언어뿐입니다.
- 피드백 루프가 붕괴됩니다. 90초 걸리던 재생성 과정이 10초짜리 미세 조정으로 바뀝니다.
- 전문가의 진입 장벽이 낮아집니다. 감각만 있다면 슬랙 메시지 보내듯 빠르게 영상을 수정할 수 있는 시대, 이제 경쟁력은 숙련도가 아니라 아이디어에서 나옵니다.
마케팅 팀, 인디 크리에이터, 교육자 등 "빠르게 10초짜리 클립 하나가 필요한" 모든 이들에게, 지금이 바로 그 변곡점입니다. 모델이 완벽해서가 아닙니다. 상호작용 방식이 드디어 제대로 구현되었기 때문입니다.
미래의 영상 편집에는 소프트웨어가 아닌, 당신의 어휘력이 필요할 것입니다.
프로덕션 영상 생성을 위한 통합 API
구글이 일반 사용자를 위해 Gemini 앱과 Google Flow에 Gemini Omni Flash를 배포하는 동안, 자체 워크플로우에 영상 엔진을 직접 통합하려는 개발자와 팀에는 안정적이고 예측 가능한 API가 필요합니다.
Atlas Cloud는 Gemini Omni Flash를 OpenAI와 호환되는 통합 API로 제공합니다. 300개 이상의 이미지, 영상, LLM 모델과 함께 제공되므로, 벤더별 계정이나 SDK 관리의 번거로움 없이 구글의 멀티모달 모델을 바로 통합할 수 있습니다.
Gemini Omni Flash의 두 가지 버전이 Atlas Cloud에 출시되었습니다:
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
| 버전 | 용도 | 입력 | 해상도 | 길이 | 시작 가격 |
| Gemini Omni Flash Text-to-Video (Developer) | 프롬프트 기반 영화급 생성 | 텍스트 (최대 20,000자) | 720p / 1080p / 4K | 4, 6, 8, 10초 | $0.2 + $0.1/초 |
| Gemini Omni Flash Image-to-Video (Developer) | 실제 참조를 활용한 피사체 일관성 영상 생성 | 텍스트 + 참조 이미지 최대 7장 | 720p / 1080p / 4K | 4, 6, 8, 10초 | $0.2 + $0.1/초 |
퀵 스타트 — 5줄의 코드로 Gemini Omni Flash 영상 생성하기:
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "A misty forest at golden hour, cinematic dolly shot", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
API는 즉시 예측 ID를 반환하며, /api/v1/model/prediction/{id}를 폴링하여 렌더링된 MP4 URL을 확인할 수 있습니다. 전체 스키마, 7개 언어의 코드 샘플, 노코드 플레이그라운드는 위 링크에서 확인할 수 있습니다.
마지막으로, 실제로 빌드하는 분들을 위해
이런 모델들이 출시될 때마다 겪는 불편한 현실이 있습니다. 다음 분기가 되면 또 다른 "세계 최고의 영상 모델"이 세 개씩 쏟아질 것입니다. 각각 다른 SDK, 인증 방식, 레이트 리미트, 가격 정책을 가지고 말이죠. 팀은 모델마다 온보딩에 1주일을 쓰고, 이전 모델을 폐기하는 데 1주일을 쓰게 될 것입니다.
그게 바로 Atlas Cloud가 해결하는 문제입니다.
개발자들에게 300개 이상의 모델에 접근할 수 있는 단일 엔드포인트를 제공합니다. 주요 파운데이션 모델부터 최신 오픈소스, 그리고 영상 및 추론 분야의 특화 모델까지 모두 포함합니다. 코드 한 줄로 모델을 교체하세요. SDK를 재통합할 필요 없이 사이드-바이-사이드 벤치마크를 실행하세요. 오늘 핫한 모델을 출시하고, 다음 달에 무엇이 뜨든 수정 없이 즉시 교체하세요.
현재 AI 시장에서 유일하게 확실한 것은 '리더보드는 매주 바뀐다'는 사실뿐입니다. 그 변화에 맞춰 빌드하세요.







