2026년 5월 19일, Google I/O에서 DeepMind는 Gemini Omni를 공개했습니다. 같은 날, DeepMind의 문서 사이트에는 Omni Flash 모델 카드와 API 노트 사이에 Gemini Omni 프롬프트 가이드가 게시되었습니다. 대부분의 사람들은 키노트 데모를 시청했고, 이 문서는 거의 읽히지 않았습니다.
핵심 요약부터 살펴보겠습니다. Gemini Omni는 DeepMind의 새로운 멀티모달 생성 모델입니다. 첫 번째 제품인 Gemini Omni Flash는 텍스트, 이미지, 오디오, 비디오 입력을 조합하여 최대 10초 분량의 영상을 생성합니다. 모든 결과물에는 SynthID 워터마크가 포함됩니다. AI Plus, AI Pro, AI Ultra 구독자는 즉시 액세스할 수 있으며, YouTube Shorts 및 YouTube Create 앱 사용자는 출시 주간부터 무료로 이용할 수 있습니다(Gagadget 보도). Google에 따르면 API 액세스는 "수주 내" 제공될 예정입니다.
다시 프롬프트 가이드로 돌아와서, Google DeepMind의 가이드는 "World understanding(세계 이해)" 섹션에서 변화의 방향을 직접적으로 설명합니다.
Veo를 사용할 때는 최상의 결과를 얻기 위해 정밀한 지침을 제공해야 했습니다. 하지만 Gemini Omni를 사용할 때는 프롬프트를 지나치게 세세하게 작성할 필요가 없습니다. 대신 Omni에게 무엇을 만들고 싶은지 말하기만 하면, 모델의 추론 능력과 세계 지식이 세부 사항을 생생하게 구현하는 것을 확인할 수 있습니다.
한마디로 '더 짧게 쓰라'는 뜻입니다.
ByteDance와 Kuaishou가 각자의 비디오 모델을 위해 발행한 프롬프트 가이드와 비교해 보십시오. 표현 방식은 다르지만 같은 방향을 가리키고 있습니다.

ByteDance는 국제 개발자 플랫폼을 통해 Seedance 2.0에 대한 BytePlus ModelArk 프롬프트 가이드를 제공합니다. 권장 구조는 다음과 같습니다: 피사체 + 움직임 (+ 환경 + 미학 + 카메라 움직임/컷 + 오디오). 모든 구성 요소가 필수는 아니며, 샷에 적합한 요소를 선택하면 됩니다.
Kuaishou의 AI 프롬프트 가중치 가이드(Kling AI Prompt Weighting guide)는 5W1H 공식(누가, 무엇을, 어디서, 언제, 왜, 어떻게)을 사용합니다. '누가'에 해당하는 피사체는 보통 가장 높은 우선순위를 가지며 프롬프트의 맨 앞에 배치됩니다. Kling 3.0에서는 단어 위치가 가중치를 결정하므로, 가장 먼저 나오는 단어가 가장 많은 컴퓨팅 자원을 할당받기 때문입니다. 매체나 시점 같은 스타일 선택은 맨 뒤에 배치하여 이미 설정된 장면 위에 필터처럼 적용하는 것이 효과적입니다. 이 가이드는 무분별하게 요소를 쌓지 말라고 경고합니다. 상충하는 키워드가 너무 많으면 품질이 저하되기 때문입니다.
세 회사가 독립적으로 이러한 결론에 도달했다는 것은, 각 모델이 거의 비슷한 시기에 유사한 역량 수준에 도달했음을 시사합니다. Google은 더 짧게 쓰라고 하고, ByteDance는 대부분의 요소를 선택 사항으로 분류하며, Kuaishou는 양보다 단어의 순서를 강조합니다. 구체적인 표현은 다르지만, 세 연구소 모두 크리에이터들에게 더 자유롭고 자연스러운 프롬프트를 작성하도록 유도하고 있습니다.
이제 Gemini Omni 프롬프트 가이드가 실제 현장에서 어떻게 작동하는지 알아보겠습니다.
Gemini Omni 프롬프트 구조: Google DeepMind가 사용하는 5가지 차원
가이드는 다음과 같은 완전한 예시로 시작합니다.
평온한 호수를 부드럽게 가로지르는 광각 추적 샷. 거대하고 반사되는 크롬 느낌의 콩 모양 물체가 공중에 떠 있으며, 천천히 회전하며 장엄한 절벽과 그 아래 맑고 푸른 물속에 부분적으로 잠긴 유사한 작은 물체의 왜곡된 반사 모습을 드러낸다. 떠 있는 물체 뒤로 찬란한 태양이 솟아오르며, 선명하고 영묘한 일광으로 장면 전체를 비추고 생생한 파란색과 녹색 톤을 띤다. 외계 풍경의 광활함과 신비로움을 강조하는 장엄하고 초현실적인 관현악 연주가 깔리며, 떠 있는 물체에서 희미하고 깊은 윙윙거리는 소리가 들린다.
90단어가 넘는 분량입니다. 이를 분석하면 5가지 차원으로 나뉩니다.
- 샷 구성 및 움직임: 광각, 미디엄, 클로즈업 중 무엇인가? 카메라가 부드럽게 미끄러지듯 움직여야 하는가, 갑자기 빠르게 이동해야 하는가? 두 동사는 출력 결과에서 눈에 띄는 차이를 보이므로, 원하는 움직임 느낌을 찾기 위해 몇 번의 시행착오를 거치는 것이 좋습니다.
- 스타일: 사실적인, 영화 같은, 영묘한, 장엄한? 이 차원에는 세부 정보가 필요 없습니다. 모델에게 감정적인 톤만 전달해도 충분합니다.
- 조명: 빛은 어디서 오는가? 태양, 가로등, 카메라 안쪽인가 아니면 화면 밖인가? 선명한, 따뜻한, 또는 영묘한 느낌인가?
- 장면: 가이드의 이 한 문장은 강조할 가치가 있습니다. "Omni는 사용자의 전반적인 의도에 맞춰 작업하므로 모든 작은 세부 사항을 일일이 설명할 필요가 없습니다." 이는 Seedance와 Kling의 공식 문서와 일치합니다.
- 동작 및 상호작용: 장면에 등장하는 인물과 사물이 무엇이며, 어떻게 움직이고 상호작용하는지 기술합니다.
Gemini Omni의 대화형 편집 vs Veo의 프롬프트 재작성
Omni와 Veo는 비슷한 수준의 생성 품질을 보여줍니다. 진정한 차이는 영상 생성 이후에 무엇을 할 수 있느냐에 있습니다.
이전에는 하나의 세부 사항을 변경하려면 전체 프롬프트를 다시 작성하고, 재생성하고, 프레임 간 일관성이 유지되기를 기도해야 했습니다. Omni는 이 단계를 '대화'로 대체합니다.
공식 가이드는 몇 가지 예시를 제공합니다.
작은 소년이 등장하는 스톱모션 스타일의 영상입니다. 첫 번째 편집: "나비를 벌로 바꿔줘." 다음: "벌을 작은 반딧불이 떼로 바꿔줘." 한 번의 대화마다 하나의 요소가 변경되며, 다른 프레임은 자동으로 보존됩니다.
카메라 작업도 동일한 방식으로 작동합니다. 바이올리니스트 영상에 세 가지 명령을 순차적으로 내립니다: "바이올리니스트를 이미지 환경으로 옮겨줘", "바이올린을 보이지 않게 해줘", "카메라 각도를 바이올리니스트의 어깨 너머로 바꿔줘". 환경 변경, 객체 제거, 카메라 위치 변경이 모두 자연어 대화만으로 이루어집니다.
주의할 점도 있습니다. 외부 리뷰어들은 편집 지시가 너무 모호할 경우 Omni가 과도하게 편집하여 유지하고 싶었던 요소까지 변경하는 경향이 있다고 지적합니다. Google의 권장 사항은 한 번에 하나의 변수만 변경하고, 무엇을 유지해야 하는지 명시적으로 밝히라는 것입니다.
교차 모달 동기화 예시는 더 흥미롭습니다. 아파트 건물의 야간 영상에 "음악 비트에 맞춰 아파트 불빛이 켜지기 시작해"라는 지시를 추가합니다. 모델은 사운드트랙의 비트를 분석하여 창문 불빛을 이에 맞춥니다. After Effects에서 이를 수행하려면 타임라인, 메트로놈, 프레임별 수동 키프레임 작업이 필요합니다.
Gemini Omni의 4가지 고급 기능: 세계 지식, 텍스트 렌더링, 동작 참조, 다중 입력
가이드의 후반부에서는 4가지 기능을 세분화합니다.
응용 세계 지식 (Applied world knowledge)
예시 프롬프트: 일반 컴퓨팅과 양자 컴퓨팅의 차이를 설명해 줘. 미니멀한 벡터 도형과 풍부한 유기적 질감이 어우러진 현대적인 플랫 미디어 스타일을 사용하여 이 문장을 시각화해 줘. 미학은 짙은 네이비 배경에 대비가 강한 '일렉트릭' 컬러 팔레트(네온 핑크, 시안, 라임)로 정의돼. 이 스타일의 특징은 점묘법과 거친 그라데이션을 사용하여 단순한 기하학적 형태에 리소그래프와 같은 촉각적인 느낌을 더하는 거야. 날카로운 모서리와 부드러운 얼룩덜룩한 변화를 결합하여 장난스럽고 편집적인 느낌을 줘.
모델은 이미 양자 중첩이 무엇인지 알고 있으며, 일련의 비교 샷을 통해 이를 전달하는 방법을 알고 있습니다. 사용자는 양자 역학을 설명할 필요 없이 시각적인 톤만 제시하면 됩니다.
이 기능이 가능한 이유는 Omni가 최첨단 추론 모델을 기반으로 구동되기 때문입니다. 이는 생성 전용 비디오 모델이 따라올 수 없는 부분입니다. I/O 이후 Semafor와의 인터뷰에서 Demis Hassabis는 Omni를 실제 세계를 더 잘 이해하는 AI를 구축하려는 프로젝트의 한 단계라고 설명했습니다. 그는 Alphabet의 자율주행 부서인 Waymo가 이미 자율주행차에 예측 불가능한 상황을 처리할 수 있는 일종의 '상상력'을 부여하기 위해 유사한 세계 모델을 테스트하고 있다고 언급했습니다. 비디오 생성은 그 아키텍처의 가장 가시적인 응용 사례일 뿐입니다.
텍스트 렌더링 (Text rendering)
예시 프롬프트: 한 단어씩 화면에 표시해 줘. 각 단어마다 다른 애니메이션 스타일을 적용하고, 리듬에 딱 맞는 완벽한 속도로 진행되는 릴 영상을 만들어 줘.
복잡한 동작 참조 (Complex action reference)
프롬프트 예시: 기존 요소를 모두 유지하면서 스케이트보드에서 나오는 애니메이션 모션 효과를 추가해 줘.
다중 입력 참조 (Multi-input reference)
프롬프트 예시: 영상 속 새들이 이미지에 기반한 불완전한 새 모양을 대략적으로 형성하게 해 줘. 새들은 오디오의 음악에 맞춰 움직이다가 날아가며 흩어져.
스타일 전환 (Style transfer)
프롬프트 예시: 비디오 레퍼런스를 사용하여 4단계 스타일 변화를 만들어 줘. 처음에는 풍부하고 왁스 같은 질감이 살아있는 크레용 미학으로 시작해. 거친 종이 배경에 손으로 그린 듯한 캐릭터 디자인이 특징이야. 이어서 질감이 있는 종이 위로 흑연 연필 스케치로 자연스럽게 전환해. 교차 해칭, 다양한 선 굵기, 12fps의 '라인 보일링' 효과를 사용해 수작업 느낌을 강조해 줘. 그다음, 미니멀한 스튜디오 환경 내에서 빛의 복잡한 굴절, 커스틱 패턴, 부드러운 내부 광채가 특징인 초현실적인 3D 반투명 유리 스타일로 변해. 마지막으로 제한된 3색 팔레트, 거친 하프톤 질감, 복고풍 기계식 마감을 위한 의도적인 등록 오버레이를 적용한 촉각적인 리소그래프 인쇄물 느낌으로 마무리해 줘.
스토리보드 참조 (Storyboard reference)
프롬프트: 이 스토리대로 보여줘. 왼쪽 상단부터 순서대로 정확하게 스토리를 따라가. 전체 스토리는 10초 내로. 영화처럼.
교차 샷 일관성 (Cross-shot consistency)
Gemini Omni, ByteDance Seedance, Kuaishou Kling의 프롬프트 조언이 수렴하는 이유
앞선 관찰로 돌아가 보겠습니다. Seedance, Kling, Omni의 프롬프트 조언이 유사한 것은 서로 베꼈기 때문이 아닙니다. 이 세대 모델들이 독자적으로 비슷한 수준의 역량에 도달했기 때문일 가능성이 훨씬 큽니다.
모델이 장면 수준에서 자연어를 처리하고, 세계 지식으로 세부 사항을 보완하며, 사용자의 의도를 추론할 수 있게 되면, 지나치게 상세한 지시는 오히려 병목 현상이 됩니다. 세 연구소는 얼마나 많은 구조를 다시 추가할지에 대해서는 의견이 갈리지만, 그 해답이 프롬프트를 계속 길게 쓰는 것은 아니라는 점에는 동의합니다.
이는 대규모 언어 모델과 공동 학습된 확산 모델(diffusion model) 2년의 결과입니다. Omni는 이 결과를 상대적으로 완성된 상태까지 밀어붙였습니다.
Atlas Cloud를 통한 Gemini Omni 활용: Seedance, Kling, Veo를 위한 통합 API
Gemini Omni는 Atlas Cloud에 곧 추가될 예정입니다. Atlas Cloud는 텍스트, 이미지, 비디오, 오디오 전반에 걸쳐 300개 이상의 AI 모델을 통합합니다. 이미 Seedance 2.0, Kling 3.0, Wan 2.7, Veo 등 주요 비디오 모델이 플랫폼에서 작동 중입니다. 나란히 비교하려면 Atlas Cloud의 Wan 2.7 vs Seedance 2.0 vs Kling 3.0 심층 분석을 확인하십시오.
계정 하나로 전체 파이프라인을 운영할 수 있습니다. 여러 지역 플랫폼에 등록하고, 결제하고, API 키를 관리할 필요가 없습니다. 플레이그라운드는 대화형 디버깅을 지원하며, OpenAI와 호환되는 통합 API로 기존 워크플로우에 즉시 연결할 수 있습니다.
Atlas Cloud의 프롬프트 라이브러리에는 애니메이션, SF, 미스터리, 음식, 브이로그 형식 등 20개 이상의 카테고리에 걸쳐 즉시 사용 가능한 프롬프트가 준비되어 있습니다. 각 프롬프트는 예시 영상과 파라미터 노트를 함께 제공합니다. 복사해서 단어 몇 개만 바꾸고 실행해 보십시오.







