Gemini Omni 프롬프트 가이드: Google DeepMind의 5가지 차원, 4가지 고급 기능, 대화형 편집 워크플로우

Google DeepMind는 2026년 5월 19일 I/O에서 Gemini Omni 프롬프트 가이드를 공개했습니다. 이 가이드에는 5가지 프롬프트 차원, 대화형 편집, 4가지 고급 기능에 대한 분석과 함께, 왜 영상 AI 연구소들이 공통된 조언으로 수렴하고 있는지에 대한 이유가 담겨 있습니다.

Gemini Omni 프롬프트 가이드: Google DeepMind의 5가지 차원, 4가지 고급 기능, 대화형 편집 워크플로우

2026년 5월 19일, Google I/O에서 DeepMind는 Gemini Omni를 공개했습니다. 같은 날, DeepMind 문서 사이트에는 Omni Flash 모델 카드와 API 노트 사이에 Gemini Omni 프롬프트 가이드가 게시되었습니다. 대부분의 사람들은 키노트 데모를 시청했고, 이 문서는 거의 읽히지 않았습니다.

핵심부터 살펴보겠습니다. Gemini Omni는 DeepMind의 새로운 멀티모달 생성 모델입니다. 첫 번째 제품인 Gemini Omni Flash는 텍스트, 이미지, 오디오, 비디오 입력의 조합으로 최대 10초 분량의 영상을 생성합니다. 모든 결과물에는 SynthID 워터마크가 포함됩니다. AI Plus, AI Pro, AI Ultra 구독자는 즉시 액세스 권한을 얻었으며, (Gagadget 보도에 따르면) 출시 첫 주부터 YouTube Shorts 및 YouTube Create 앱 사용자에게도 무료 액세스가 제공됩니다. Google에 따르면 API 액세스는 "수주 내" 제공될 예정입니다.

다시 프롬프트 가이드로 돌아와 보겠습니다. Google DeepMind의 프롬프트 가이드는 "세계 이해(World understanding)" 섹션에서 변화를 직접적으로 설명합니다.

Veo를 사용할 때는 최상의 결과를 얻기 위해 정밀한 지침을 공유해야 합니다. 하지만 Gemini Omni에서는 프롬프트에 대해 그렇게 규범적일 필요가 없습니다. 대신 Omni에게 만들고 싶은 것을 말하고, 모델의 추론과 세계 지식이 디테일을 어떻게 구현하는지 지켜보세요.

한마디로 요약하면: 짧게 쓰라는 것입니다.

ByteDance와 Kuaishou가 자체 비디오 모델을 위해 발행한 프롬프트 가이드와 비교해 보십시오. 표현 방식은 다르지만 지향하는 바는 같습니다.

Seedance 2.0 및 Kling 3.0 AI 비디오 모델의 프롬프트 구조 비교 다이어그램.

ByteDance는 자사 국제 개발자 플랫폼의 BytePlus ModelArk 프롬프트 가이드를 통해 Seedance 2.0을 문서화했습니다. 권장 구조는 다음과 같습니다: 피사체 + 동작 (+ 환경 + 미학 + 카메라 움직임/컷 + 오디오). 모든 구성 요소가 필수는 아니며, 장면에 맞는 요소를 선택하면 됩니다.

Kuaishou의 AI 프롬프트 가중치(Prompt Weighting) 가이드는 5W1H 공식(Who, What, Where, When, Why, How)을 통해 이를 설명합니다. 가장 높은 우선순위를 가지는 'Who(피사체)'가 보통 프롬프트의 맨 앞에 옵니다. Kling 3.0에서는 단어 위치가 가중치를 결정하기 때문에, 가장 먼저 언급된 단어가 가장 많은 연산 자원을 할당받습니다. 매체나 시점과 같은 스타일적 요소는 이미 설정된 장면에 필터처럼 작용하도록 마지막에 배치하는 것이 좋습니다. 또한 무분별하게 요소를 쌓지 말라고 경고합니다. 상충하는 키워드가 너무 많으면 품질이 저하되기 때문입니다.

세 기업이 독립적으로 이런 결론에 도달했다는 것은, 이들의 모델이 비슷한 시기에 유사한 수준의 역량을 확보했음을 시사합니다. Google은 짧게 쓰라고 하고, ByteDance는 대부분의 요소를 선택 사항으로 간주하며, Kuaishou는 양보다 단어 순서를 강조합니다. 세부적인 프레임은 다르지만, 세 연구소 모두 크리에이터들에게 더 자유롭고 자연스러운 프롬프트를 사용할 것을 권장하고 있습니다.

이제 Gemini Omni 프롬프트 가이드가 실제 현장에서 어떻게 적용되는지 살펴보겠습니다.

Gemini Omni 프롬프트 구조: Google DeepMind가 사용하는 5가지 차원

가이드는 다음과 같은 완전한 예시로 시작합니다.

광각 추적 샷이 평온한 호수 위를 부드럽게 미끄러지듯 지나간다. 거대하고 반사율이 높은 크롬 질감의 콩 모양 물체가 공중에 떠 있으며, 천천히 회전하면서 웅장한 절벽과 맑고 푸른 물속에 반쯤 잠긴 비슷한 모양의 작은 물체를 왜곡된 반사로 드러낸다. 떠 있는 물체 뒤로 찬란한 태양이 솟아오르며 전체 장면에 선명하고 신비로운 일광을 비추고, 생동감 넘치는 푸른색과 녹색 톤을 더해 영화적이고 경외심을 불러일으키는 분위기를 연출한다. 거대하고 이계적인 느낌의 오케스트라 배경음악이 외계 풍경의 광활함과 신비로움을 강조하며, 떠 있는 물체에서는 희미하고 낮은 웅웅거리는 소리가 들려온다.

90단어가 넘는 분량입니다. 이를 분해하면 5가지 차원이 도출됩니다.

  • 카메라 프레이밍 및 움직임: 광각, 미디엄, 클로즈업 중 무엇인가? 카메라는 부드럽게 미끄러져야 하는가, 아니면 급격하게 움직여야 하는가? 사용하는 동사에 따라 결과물이 눈에 띄게 달라지므로, 적절한 움직임 느낌을 찾으려면 몇 번의 시행착오가 필요합니다.
  • 스타일: 사실적, 영화적, 신비로운, 웅장한 등. 이 차원은 세부 묘사가 필요 없습니다. 모델에게 감정적인 톤만 알려주면 충분합니다.
  • 조명: 빛은 어디서 오는가? 태양, 가로등, 카메라 방향 혹은 오프스크린? 조명 느낌은 선명해야 하는가, 따뜻해야 하는가, 아니면 몽환적이어야 하는가?
  • 장면: 가이드의 한 문장을 강조하고 싶습니다. "Omni는 사용자의 전반적인 의도에 맞춰 작업하기 때문에 모든 작은 디테일을 일일이 설명할 필요는 없습니다." 이는 Seedance와 Kling의 공식 문서와 일맥상통합니다.
  • 동작 및 상호작용: 장면에 누가, 무엇이 있는지, 어떻게 움직이고 어떻게 상호작용하는지 기술합니다.

Gemini Omni의 대화형 편집 vs Veo의 프롬프트 재작성

Omni와 Veo는 비슷한 수준의 생성 품질을 보여줍니다. 진정한 차이는 비디오 생성 이후의 작업에 있습니다.

이전에는 하나의 디테일을 수정하려면 프롬프트를 전체적으로 다시 작성하고 재생성하며 프레임 간 일관성이 유지되길 기도해야 했습니다. Omni는 이 단계를 대화로 대체합니다.

공식 가이드에서 몇 가지 예시를 제공합니다.

스톱모션 스타일의 어린아이 영상입니다. 첫 번째 편집: "나비를 벌로 바꿔줘." 다음: "벌을 작은 반딧불이 떼로 바꿔줘." 매 단계마다 요소 하나씩 변경되며 다른 프레임은 자동으로 보존됩니다.

카메라 작업도 동일합니다. 바이올리니스트 영상에 다음과 같은 3단계 명령을 순서대로 내립니다: "바이올리니스트를 이미지 환경으로 옮겨줘", "바이올린을 투명하게 만들어줘", "카메라 각도를 바이올리니스트의 어깨 너머로 바꿔줘." 환경 전환, 객체 제거, 카메라 재배치가 자연어를 통해 모두 수행됩니다.

주의할 점도 있습니다. 외부 리뷰어들에 따르면 편집 지시가 너무 모호할 경우, Omni가 의도와 달리 유지하고 싶었던 요소까지 과하게 수정하는 경향이 있다고 합니다. Google의 권장 사항은 한 번에 하나의 변수만 수정하고, 무엇을 유지해야 할지 명시적으로 언급하는 것입니다.

교차 모달 동기화 예시는 훨씬 흥미롭습니다. 아파트 건물의 야간 영상에 "음악의 비트에 맞춰 아파트 불빛이 켜지게 해줘"라는 지시를 추가하면, 모델이 사운드트랙의 비트를 분석하여 창문 불빛을 이에 맞춥니다. After Effects에서 이를 수행하려면 타임라인, 메트로놈, 프레임별 수동 키프레이밍 작업이 필요합니다.

Gemini Omni의 4가지 고급 기능: 세계 지식, 텍스트 렌더링, 동작 참조, 멀티 입력

가이드의 후반부에서는 4가지 기능을 상세히 다룹니다.

응용 세계 지식

예시 프롬프트: 일반 컴퓨팅과 양성 컴퓨팅의 차이를 설명해줘. 미니멀리스트 벡터 도형과 풍부한 유기적 질감이 어우러진 현대적인 플랫 미디어 스타일로 이 문장을 시각화해줘. 미학은 짙은 네이비 배경에 대비가 강렬한 '일렉트릭' 컬러 팔레트(네온 핑크, 시안, 라임)로 정의돼. 이 스타일의 특징은 점묘법과 거친 그라데이션을 사용하여 단순한 기하학적 형태에 택타일한 리소그래프 같은 질감을 더하는 거야. 날카로운 가장자리와 부드러운 점박이 전환을 결합하여, 일러스트레이션은 장난기 넘치고 에디토리얼한 느낌을 줘.

모델은 이미 양자 중첩이 무엇인지, 그리고 비교 장면을 통해 이를 어떻게 전달하는지 알고 있습니다. 사용자는 양자역학을 설명할 필요 없이 시각적 톤만 설정하면 됩니다.

이 기능이 작동하는 이유는 Omni가 프런티어 추론 모델 위에서 실행되기 때문입니다. 이는 비디오만 생성하는 모델은 따라올 수 없는 영역입니다. Demis Hassabis는 I/O 이후 Semafor와의 인터뷰에서 Omni를 실세계를 더 잘 이해하는 AI를 구축하려는 프로젝트의 한 단계라고 설명했습니다. 그는 Alphabet의 자율주행 부서인 Waymo가 이미 자율주행 자동차에 예측 불가능한 상황을 다룰 수 있는 일종의 '상상력'을 부여하기 위해 유사한 세계 모델을 테스트하고 있다고 언급했습니다. 비디오 생성은 그 아키텍처의 가장 가시적인 응용 사례일 뿐입니다.

텍스트 렌더링

예시 프롬프트: 단어 단위로, 한 번에 한 단어씩 화면에 표시해줘. 각 단어는 다른 애니메이션 스타일을 적용하고, 리듬에 맞춰 완벽한 페이싱으로. sizzle reel 스타일.

복합 동작 참조

프롬프트 예시: 기존 요소를 모두 유지하면서 편집하고, 스케이트보드에서 나오는 애니메이션 모션 효과를 추가해줘.

멀티 입력 참조

프롬프트 예시: 영상 속 새들이 이미지에 기반하여 새의 불완전한 형태를 느슨하게 형성하게 해줘. 새들은 오디오의 음악에 맞춰 움직이다가 날아가며 흩어지게 해줘.

스타일 전환

프롬프트 예시: 영상 참조를 기반으로 4단계 스타일 진화를 만들어줘. 첫 번째는 생동감 넘치는 크레용 미학으로 시작해. 풍부하고 왁스 질감이 느껴지는 선과 거친 종이 배경 위 장난스러운 손그림 캐릭터 디자인이 특징이야. 그 다음 질감이 있는 종이 위의 연필 스케치로 매끄럽게 전환해. 크로스해칭과 다양한 선 굵기, 손그림 느낌을 강조하는 12fps 'line boiling' 효과를 사용해. 그 다음 복잡한 빛의 굴절, 코스틱 패턴, 미니멀한 스튜디오 환경 속 부드러운 내부 광채가 특징인 초현실적 3D 반투명 유리 스타일로 변형해. 마지막으로 3색 팔레트, 거친 하프톤 질감, 복고풍의 기계적 마감을 위한 의도적인 레지스트레이션 오버레이를 적용한 택타일한 리소그래프 인쇄 느낌으로 마무리해.

스토리보드 참조

프롬프트: 이 이야기에 나를 보여줘. 왼쪽 상단부터 시작해서 정확히 순서대로 이야기를 따라가. 10초 안에 전체 이야기를 담아줘. 영화적으로.

교차 샷 일관성

Gemini Omni, ByteDance Seedance, Kuaishou Kling의 프롬프트 조언이 수렴하는 이유

앞서 언급한 관찰로 돌아가 봅시다. Seedance, Kling, Omni의 프롬프트 조언이 유사한 것은 서로 베꼈기 때문이 아닙니다. 이 모델들이 각자 비슷한 수준의 역량에 도달했기 때문일 가능성이 더 높습니다.

모델이 장면 수준에서 자연어를 처리하고, 세계 지식으로 디테일을 보충하며, 사용자의 진정한 의도를 추론할 수 있게 되면, 지나치게 상세한 지시는 오히려 병목 현상을 일으킵니다. 세 연구소는 구조를 어느 정도 다시 추가할지에 대해서는 의견이 갈리지만, 정답이 더 많은 글을 쓰는 것은 아니라는 점에는 동의합니다.

이는 대규모 언어 모델과 공동으로 훈련된 확산 모델의 2년이 낳은 결과입니다. Omni는 이 결과를 비교적 완성된 상태로 밀어붙입니다.

Atlas Cloud를 통한 Gemini Omni 사용: Seedance, Kling, Veo 통합 API

Gemini Omni는 Atlas Cloud에 제공될 예정입니다. Atlas Cloud는 텍스트, 이미지, 비디오, 오디오 전반에 걸쳐 300개 이상의 AI 모델을 통합합니다. 주요 비디오 모델인 Seedance 2.0, Kling 3.0, Wan 2.7, Veo 등이 이미 플랫폼에서 실행되고 있습니다. 사이드 바이 사이드 비교를 위해서는 Atlas Cloud의 Wan 2.7 vs Seedance 2.0 vs Kling 3.0 딥다이브를 확인해 보세요.

하나의 계정으로 전체 파이프라인을 운영할 수 있습니다. 여러 지역 플랫폼에 걸쳐 등록, 결제, API 키 관리할 필요가 없습니다. 플레이그라운드는 대화형 디버깅을 지원하며, OpenAI와 호환되는 통합 API가 기존 워크플로우에 바로 적용됩니다.

Atlas Cloud의 프롬프트 라이브러리에는 애니메이션, SF, 미스터리, 음식, 브이로그 포맷 등을 다루는 20개 이상의 바로 사용할 수 있는 프롬프트 카테고리가 있습니다. 각 프롬프트는 예시 영상과 파라미터 노트를 함께 제공합니다. 복사해서 몇 단어만 바꾸고 실행하면 됩니다.

프로덕션 비디오 생성을 위한 하나의 통합 API

Google이 일반 사용자를 위해 Gemini 앱 및 Google Flow 내에 Gemini Omni Flash를 출시하는 동안, 동일한 멀티모달 비디오 엔진을 자신의 워크플로우에 내장하려는 개발자와 제품 팀에게는 안정적이고 예측 가능한 API 계층이 필요합니다.

Atlas Cloud는 Gemini Omni Flash를 OpenAI와 호환되는 통합 API를 통해 300개 이상의 다른 이미지, 비디오 및 LLM 모델과 함께 제공합니다. 따라서 별도의 공급업체 계정, 결제 포털, SDK를 관리할 필요 없이 Google의 네이티브 멀티모달 모델을 통합할 수 있습니다.

Gemini Omni Flash의 두 가지 변형 모두 Atlas Cloud에서 즉시 사용 가능합니다:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}

      
변형용도입력해상도길이시작 가격
Gemini Omni Flash Text-to-Video (Developer)프롬프트 기반 시네마틱 생성텍스트 (최대 20,000자)720p / 1080p / 4K4, 6, 8, 10초USD0.2 + USD0.1/초
Gemini Omni Flash Image-to-Video (Developer)실사 기반 피사체 일관성 비디오텍스트 + 참조 이미지 최대 7장720p / 1080p / 4K4, 6, 8, 10초USD0.2 + USD0.1/초

빠른 시작 — 5줄의 코드로 Gemini Omni Flash 비디오 생성하기:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

API는 즉시 예측 ID를 반환하며, /api/v1/model/prediction/{id}를 폴링하여 렌더링된 MP4 URL을 확인할 수 있습니다. 전체 스키마, 7개 언어의 코드 샘플, 노코드 플레이그라운드는 위 링크된 모델 페이지에서 확인할 수 있습니다.

최신 모델

하나의 API로 모든 미디어 AI를.

모든 모델 탐색

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.