Gemini Omni 체험기: 인상적이지만 아직은 조금 부족하다

수주간 이어진 루머와 추측 끝에, Gemini Omni가 오늘 새벽 Google I/O 2026에서 마침내 공식 데뷔했습니다.

이 모델은 소문으로 돌던 전용 영상 생성 모델도, Veo 3의 계보를 잇는 "Veo 4"도 아니었습니다. Google DeepMind의 CEO 데미스 하사비스(Demis Hassabis)는 직접 무대에 올라 다음과 같이 발표했습니다.

“우리는 다음 단계의 중요한 도약을 이뤄냈습니다. 바로 모든 입력값으로부터 무엇이든 생성할 수 있는 새로운 모델, Gemini Omni입니다.”

Gemini Omni I/O 2026 비디오 편집 데모

즉, Gemini Omni는 어떠한 형태의 입력도 받아들이고 어떤 유형의 콘텐츠든 생성할 수 있는 진정한 의미의 "옴니(Omni)" 대규모 모델이며, 영상 생성은 그 역량의 일부일 뿐입니다.

Gemini Omni는 현재 모든 Google 제품에 적용되었습니다. AI Plus, Pro, Ultra 구독 플랜 사용자는 Gemini 앱이나 Google의 AI 영상 생성 플랫폼인 Flow를 통해 이를 이용할 수 있습니다.

저희는 곧바로 Google의 최상위 티어인 Ultra 멤버십을 구독하여 Gemini Omni를 직접 테스트해 보았습니다.

결론부터 말씀드리자면, 기대에 미치지 못했습니다.

Gemini Omni 테스트: 일관성 유지 능력은 합격점

Omni의 가장 큰 홍보 포인트 중 하나는 자연어 편집을 반복해도 시각적 일관성을 유지하는 능력입니다.

Google의 공식 데모에서는 실내에서 연주하는 바이올리니스트의 영상이 나옵니다. 배경 환경을 바꾸고, 카메라 각도를 전환하고, 심지어 바이올린을 아예 제거해도 연주자의 표정, 움직임, 조명, 그리고 손의 미세한 위치까지 모든 것이 음악과 함께 새로운 설정에 완벽하게 적응하는 모습을 보여줍니다.

편집의 정밀도와 주요 피사체의 일관성 모두 매우 인상적이었습니다.

그래서 저희도 환경과 분위기를 바꾸는 테스트를 직접 진행해 보았습니다.

첫 번째 프롬프트: 교차로에서 충돌하는 두 대의 자동차(그중 하나는 파란색 스포츠카), 긴장감 넘치는 분위기.

이후 더 상세한 편집 및 수정 작업을 진행했습니다. 프롬프트: "황금빛 노을로 배경을 바꾸고, 파란색 차를 빨간색으로 변경하며, 충돌 시 두 차가 색종이 조각과 풍선으로 터지게 하라. 전체적으로 가볍고 꿈결 같은 느낌으로."

지시대로 자동차의 색상과 조명은 변경되었고, 영상의 전체적인 구조와 움직임은 별다른 끊김이나 왜곡 없이 매끄럽게 유지되었습니다.

하지만 미세하면서도 확실한 문제가 하나 있었습니다. 바로 충돌 순간의 연출입니다. 두 영상 모두 차량이 마치 일부러 서로를 향해 돌진하는 듯한 느낌을 주었고, 충돌 직전에는 속도를 약간 줄이며 각도를 조정하는 등 인위적인 모습이 보였습니다.

한마디로 '작위적'이었습니다. 마치 보이지 않는 Omni의 손이 프롬프트를 완수하기 위해 차들을 강제로 배치하는 듯한 느낌이었습니다.

다음으로, 역동적인 움직임 속에서도 일관성을 유지할 수 있는지 테스트했습니다. 기준은 카메라 각도가 바뀌어도 인물의 얼굴 특징, 의상, 소품, 헤어스타일이 모두 안정적으로 유지되는지 확인하는 것입니다.

프롬프트: "낡은 기차역에서 붉은 드레스를 입고 현대무용을 하는 여성 댄서를 중간 거리에서 추적 촬영하다가, 점프 후 고정 와이드 샷으로 전환. 붉은 드레스와 기차역 배경은 일관되게 유지."

결과는 꽤 준수했습니다. 댄서의 움직임은 유연하고 자연스러웠으며, 실크 드레스의 물리적 움직임도 설득력이 있었습니다. 중간 추적 샷에서 고정 와이드 샷으로 넘어가는 전환도 비교적 매끄러웠습니다.

Omni는 자동으로 배경 음악을 추가했는데, 아주 뛰어난 분위기는 아니었지만 댄스의 전반적인 무드와는 적당히 어우러졌습니다.

이어서 배경 음악을 제거하고 무용 동작에 맞춘 발소리와 드레스가 사각거리는 소리만 남기라는 수정을 가했습니다.

여기서 문제가 발생했습니다. 영상 초반에는 드레스가 스치는 소리와 발이 바닥에 닿는 소리가 들렸지만, 후반부로 갈수록 배경 음악이 알 수 없는 이유로 다시 나타났습니다.

다음으로 복잡한 인물 관계와 공간 배치를 이해하는 능력을 테스트했습니다.

기준은 여러 인물이 상호작용할 때, 카메라 각도가 바뀌어도 각 인물의 외모나 복장이 서로 섞이거나 바뀌지 않아야 한다는 점입니다.

프롬프트: "실험실에서 홀로그램 투영을 보며 논의하는 4~5명의 과학자. 각자 뚜렷하게 다른 외모를 가지고 있으며 카메라는 천천히 회전함. 모든 인물의 외모와 의상은 끝까지 유지되어야 함."

아마도 다양한 과학자를 표현하라는 프롬프트를 충실히 따르려 한 덕분인지, Omni는 연령, 성별, 인종이 다양한 네 명의 캐릭터를 배치했습니다. 회전 샷 내내 캐릭터의 외모, 복장, 목소리, 상대적 위치는 대부분 일관성을 유지했습니다.

한 가지 아쉬운 결점은, 영상 후반부로 갈수록 흐름을 완전히 깨뜨리는 부자연스럽고 갑작스러운 컷 편집이 나타났다는 점입니다.

섬세한 제어? 아직 갈 길이 멀다

편집 및 수정 기능 역시 Google이 공식 쇼케이스에서 핵심으로 내세운 부분입니다.

그래서 바로 테스트에 들어갔습니다. 한국 소셜 미디어에서 큰 화제를 모았던 야구 관람 AI 생성 영상을 가져와, Google 데모 자료에 나온 애니메이션 스타일의 캐릭터 이미지를 입력하고 기존 인물을 이 캐릭터로 교체해달라고 요청했습니다.

결과는, 좋게 말해도 실망스러웠습니다.

교체된 캐릭터는 기존 인물과 거의 같은 위치를 유지했지만, 입술을 깨물거나 곁눈질을 하거나 카메라를 보며 짓는 작은 미소와 같은 미세한 표정 변화는 거의 완전히 사라졌습니다.

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

이러한 미세 조정 능력의 부족은 단발적인 사례가 아니었습니다.

어두운 방에서 거울 속 자신의 모습을 보며 "네 짓인 거 다 알아. 연기 그만해"라고 조용히 말하는 중년 남성의 영상을 생성하도록 했습니다.

초기 결과는 꽤 괜찮았습니다. 약간 어색한 중국어 억양을 제외하면 립싱크도 단어와 꽤 정확하게 맞았습니다. 하지만 인간의 감정을 제대로 전달했는지는 개인의 해석에 달린 문제일 것입니다.

하지만 대사를 수정하려고 시도하자 Omni의 시스템은 완전히 마비되었습니다.

프롬프트: "어두운 방의 중년 남성이 거울을 보며 조용히 말함: '벌써 5월 20일이네, 결혼기념일 축하해.'"

첫째로, '대사 수정'이라는 개념 자체를 이해하지 못한 채 새로운 문장을 단순히 화면 하단에 자막으로 띄웠습니다. 그 다음 시도에서는 원래 대사 절반과 새로운 대사 절반을 섞어서 내놓았습니다. 마지막 시도에서는 완전히 엉뚱한 결과가 나왔습니다.

조명은 조금 밝아졌고 표정은 미소를 짓는 것으로 바뀌었지만, 이제는 따뜻하게 웃으며 "네 짓인 거 다 알아. 연기 그만해"라고 말하는 기괴한 상황이 연출되었습니다. 배경 음악도 그대로라 원본보다 더 소름 끼치는 영상이 되어버렸습니다.

결론적으로, 정교한 제어 능력에 있어서 Omni는 아직 갈 길이 멉니다.

프로덕션급 영상 생성을 위한 통합 API

Google이 Gemini 앱과 Google Flow를 통해 일반 사용자에게 Gemini Omni Flash를 배포하는 한편, 자체 워크플로우에 다중 모달 영상 엔진을 통합하려는 개발자와 제품 팀은 안정적이고 예측 가능한 API 계층이 필요합니다.

Atlas Cloud는 Gemini Omni Flash를 OpenAI와 호환되는 통합 API로 제공하며, 300개 이상의 이미지, 비디오, LLM 모델과 함께 사용할 수 있습니다. 따라서 별도의 벤더 계정이나 결제 포털, SDK를 관리할 필요 없이 Google의 네이티브 다중 모달 모델을 즉시 통합할 수 있습니다.

두 가지 Gemini Omni Flash 버전을 Atlas Cloud에서 즉시 이용 가능합니다:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


버전	용도	입력	해상도	영상 길이	시작 가격
Gemini Omni Flash 텍스트-영상(개발자용)	프롬프트 기반 영화적 영상 생성	텍스트 (최대 20,000자)	720p / 1080p / 4K	4, 6, 8, 10초	USD0.2 + USD0.1/초
Gemini Omni Flash 이미지-영상(개발자용)	참조 이미지를 활용한 일관성 있는 영상 생성	텍스트 + 참조 이미지 최대 7장	720p / 1080p / 4K	4, 6, 8, 10초	USD0.2 + USD0.1/초

퀵 스타트 — 5줄의 코드로 Gemini Omni Flash 영상 생성하기:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

API는 즉시 예측 ID를 반환하며, /api/v1/model/prediction/{id}를 폴링하여 렌더링된 MP4 URL을 확인할 수 있습니다. 전체 스키마, 7개 언어로 된 코드 샘플 및 노코드 Playground는 위 링크된 모델 페이지에서 확인 가능합니다.

세계적 지식: 물리 법칙과 역사에는 강하나, 여전히 버그는 존재

마지막으로 세계적 지식과 추론 능력을 테스트했습니다.

Google의 공식 발표에 따르면 Gemini 플래그십 모델을 기반으로 하는 Omni는 중력, 운동 에너지, 유체 역학과 같은 물리 법칙은 물론 세계사, 과학, 수학에 대한 이해도가 크게 향상되었다고 합니다.

바로 "빠르게 움직이는 구슬이 연쇄 반응 트랙을 따라 굴러가는 영상"을 생성해 보았습니다.

결과는 매우 인상적이었습니다. Omni는 중력, 탄성, 원심력 등을 활용하여 꽤 복잡한 연쇄 반응 코스를 스스로 설계했으며, 모든 물리 현상이 설득력 있게 구현되었습니다.

다만, 영상 후반부에 한 가지 버그가 발견되었습니다. 갑자기 구슬 하나가 두 개로 갈라지는 현상이 나타났습니다.

또 다른 테스트: "U자형 트랙의 내벽을 따라 왔다 갔다 하다가 결국 가장 낮은 지점에 멈추는 공."

이 결과는 다소 어색했습니다.

공은 지시대로 U자형 트랙을 따라 왕복하다 바닥에 멈췄지만, 마치 지구가 아닌 다른 곳에서 일어나는 일 같았습니다. 공은 이상하리만큼 무게감이 없는 부유하는 듯한 느낌을 주었고, 때때로 트랙의 기하학적 구조를 살짝 뚫고 지나가는 클리핑 현상도 보였습니다.

마지막으로 짧고 강렬하며, 문화적 맥락이 뚜렷한 중국 역사 관련 프롬프트를 입력했습니다: "현무문에서 대치하는 당 태종과 그의 형의 모습."

음, 배경에 나오는 '현무문(Xuanwu Gate)' 한자가 약간 뭉개져 있었고, 두 당나라 인물은 미세하게 외국인 같은 억양으로 표준어를 구사했습니다. 하지만 Omni는 역사적 맥락을 정확히 파악하여 이세민과 이원길의 긴장감 넘치는 칼싸움 장면을 적절히 연출해 냈습니다.

최소한 세계 역사 지식에 있어서는 Omni가 공부를 꽤 한 것 같습니다.

최종 생각: Seedance 2.1을 기다리며

Omni에 대한 기대감은 오늘 발표 이전부터 이미 고조되어 있었습니다.

모든 것은 5월 초, 한 사용자가 Gemini의 영상 생성 페이지에서 "Powered by Omni"라는 작고 지나치기 쉬운 문구를 발견하면서 시작되었습니다. 이 작은 단서 하나가 전 세계 기술 커뮤니티에 추측의 파장을 일으켰습니다.

모두가 같은 질문을 던졌습니다. "Omni는 도대체 무엇인가? Google I/O 2025에서 공개된 Veo 3의 차세대인 Veo 4인가? 아니면 완전히 새로운 다중 모달 모델인가?" 이 때문에 초기 보고서는 "Gemini Omni"와 "Veo 4" 사이를 계속 오갔습니다.

이후 5월 11일, "칠판에 방정식을 풀고 있는 교수"가 담긴 내부 테스트 영상이 X(트위터)에서 240만 회 이상의 조회수를 기록하며 입소문을 탔습니다.

10초 남짓한 영상 속에서 교수의 뒷모습, 옆모습, 분필로 방정식을 적는 클로즈업 샷까지 다각도로 편집되었으며, 칠판 위를 긁는 분필 소리와 수학적으로 정확한 방정식까지 포함되어 기대치는 정점에 달했습니다.

당시 소문에 따르면 Omni는 이미 영화적 언어와 편집 감각을 완전히 내재화하여 다각도 컷, 배경 음악 삽입 등 "완성된 결과물을 즉시 생성할 수 있는 수준"에 도달했다고 알려졌습니다.

하지만 기대 끝에 마침내 도착한 Gemini Omni에 대한 대중의 반응은 다소 엇갈리고 있습니다.

이제 우리가 할 일은 Seedance 2.1이 언제 나올지 지켜보는 것뿐인 것 같습니다.

목록으로 돌아가기