Tutorial de Criação de Vibe: Transforme seus Sentimentos em Prompts de Vídeo com IA

Q: Vibe Creating é a mesma coisa que vibe coding?

Eles são primos, não a mesma coisa. Vibe coding, cunhado por Andrej Karpathy em 2025, é sobre gerar software descrevendo a intenção. Vibe Creating aplica a mesma filosofia de "descrever o resultado" ao vídeo, traduzindo um sentimento nas escolhas de filmagem que o produzem. Ambos mudam seu esforço de "como" para "o que eu quero".

Aquela imagem na sua cabeça, a que você consegue ver tão claramente. Por que a IA continua se recusando a filmá-la?

Na maioria das vezes, o problema não é o modelo falhando com você. É que algo está faltando entre você e o modelo: um tradutor.

Você já viu esse tipo de vídeo de IA antes. O rosto é nítido, os membros não se atravessam, a iluminação é até pensada. Você assiste e sua única reação é um "hã" desanimado, e então você desliza para passar. Algo está faltando. Você tenta usar palavras como "atmosfera", "cinematográfico", "textura", mas no momento em que as digita em um prompt, elas param de funcionar. Vinte reescritas depois, você torrou seus créditos apostando em novas tentativas.

Este guia faz duas coisas. Primeiro, ele mostra como um método chamado "Vibe Creating" (Criação de Vibe) traduz o sentimento que você não consegue nomear para uma linguagem que um modelo pode realmente executar. Segundo, ele oferece uma maneira de teste sem configuração para você mesmo gerar seu primeiro vídeo com "aquela sensação" em menos de dez minutos.

O que é Vibe Creating e por que isso corrige seus prompts?

Vibe Creating é a prática de descrever o resultado emocional que você deseja e deixar que um método o traduza nas escolhas técnicas de filmagem que o criam. Você continua no comando de "o que eu quero sentir". Ele cuida de "como filmar isso".

Se a formulação parece familiar, é de propósito. No início de 2025, Andrej Karpathy cunhou o termo "vibe coding" para descrever um fluxo de trabalho onde você para de escrever código linha por linha e, em vez disso, descreve a intenção para um modelo e deixa que ele gere a implementação (Vibe coding, Wikipedia, fevereiro de 2025). O termo se espalhou rápido o suficiente para que a Collins o nomeasse como uma das palavras do ano. O Vibe Creating aplica a mesma mudança ao vídeo. Você para de microgerenciar distâncias focais e começa a descrever a experiência.

Aqui está a armadilha que faz a maioria dos prompts falhar. Quando você quer que uma cena pareça perigosa, você instintivamente digita "atmosfera perigosa". O modelo recebe cinco palavras abstratas e lhe dá os elementos do perigo: um robô, uma arma, um céu escuro. Todos os ingredientes estão presentes e você não sente nada. A frase era abstrata demais para apontar qualquer mecanismo visual específico.

O Vibe Creating não tem pressa para gerar. Primeiro, ele trabalha o que realmente produz o sentimento de perigo, depois escreve o prompt como uma imagem sentida, em vez de uma lista de parâmetros. Essa distinção é todo o método; por isso, o restante deste tutorial de Vibe Creating percorre cinco exemplos reais dele em ação.

Tutorial de Vibe Creating Caso 1: Como o "Perigo" se torna um movimento de câmera

Comece com o quadro inicial de um curta de IA viral, um robô cowboy vagando por uma cidade zumbi. A trama cabe em uma frase, mas seu batimento cardíaco acompanha a câmera. A primeira tomada coloca o cano de uma arma bem contra a lente, e seu subconsciente recebe uma única mensagem: você está em perigo agora.

Você tenta recriar a cena. Digita "atmosfera perigosa" e obtém os adereços do perigo sem nenhum pavor.

Entregue a mesma intenção ao Vibe Creating e ele raciocina sobre três coisas que precisam acontecer ao mesmo tempo:

Trave o olho no cano da arma e desfoque o fundo até virar uma massa. Isso é a profundidade de campo rasa fazendo seu trabalho.
Faça você sentir como se estivesse ajoelhado e olhando para cima, para uma arma apontada para baixo. Isso é um ângulo baixo fazendo seu trabalho.
Empurre o cano quase para fora da tela e para o seu rosto. Isso é uma distorção de lente grande-angular suave fazendo seu trabalho.

Aqui está o movimento chave. O que finalmente entra no prompt não é "profundidade de campo rasa, ângulo baixo, distorção de grande-angular". Esses são os mecanismos. O que é escrito é a imagem sentida que esses mecanismos criam. O Vibe Creating traduz a técnica profissional em algo que tanto o modelo quanto um humano compreendem instantaneamente. Três efeitos disparam juntos, seu subconsciente registra genuinamente "você está em perigo" e sua mente consciente apenas pensa "que tomada incrível".

Essa é a natureza da atmosfera. A informação viaja através do canal subconsciente e ignora seu raciocínio. O Vibe Creating é o tradutor que constrói esse canal. Você diz o que quer. Ele descobre como filmar.

Tutorial de Vibe Creating Caso 2: Um jardim que parece errado de propósito

Agora um sentimento mais difícil. Aqui estava tudo na minha cabeça quando abri o gerador:

Uma garota de cabelos prateados em um vestido de gaze de cristal, parada no jardim em frente a uma cabine de madeira nórdica sob um céu de pôr do sol ardente. Cada quadro é lindo, mas algo sinaliza silenciosamente que não é seguro.

Eu genuinamente não sabia como fabricar o "inseguro". O Vibe Creating expressa isso como uma espécie de receita: beleza + 30% de vale da estranheza (uncanny valley) + adereços rituais + uma câmera voyeur + fonte de luz desencontrada = maldade sob uma pele de conto de fadas.

Cada termo nessa receita é um parâmetro que funciona no momento em que chega a um prompt. O único problema é se você consegue lembrar, descrever e fazer o modelo entender no instante em que se senta para criar. Se não conseguir, esse é exatamente o trabalho que o Vibe Creating tira das suas mãos. Ele pega aquela frase vaga e escreve a receita para você. O resultado é lido assim:

Note que a câmera nunca mostra o corpo do monstro, apenas os olhos, um membro e as sombras oscilantes. Essa contenção é uma tradução deliberada de "inseguro". Também é muito mais fácil para um modelo renderizar do que uma criatura completa, o que é parte do motivo pelo qual é gerado de forma limpa.

Tutorial de Vibe Creating Caso 3: Fazendo o vídeo de IA parecer um trailer de filme

Envie o próximo exemplo para um amigo que estudou cinema, esconda a fonte, e ele provavelmente adivinhará que é o trailer de um longa-metragem sobre balé. É uma única geração sem cortes. Sem edição, sem tratamento de cor.

A intenção era "me dê textura de nível de trailer" para uma jovem dançarina nos bastidores de um teatro que está vivo e pulsando antes de um show. Quando você entrega "textura de trailer" ao Vibe Creating, sua lógica funciona assim:

A abertura dos bastidores não é para se exibir, é uma estratégia narrativa. Empurrar de um bastidor escuro e bagunçado em direção ao palco iluminado é um caminho que Cisne Negro e Os Sapatinhos Vermelhos usaram. Caminhar em direção ao palco é, por si só, uma metáfora para o destino. O modelo não apenas renderiza a imagem, ele renderiza a decupagem (blocking).

Três variáveis precisam estar corretas ao mesmo tempo: o ângulo do reflexo no chão, a direção das sombras e o atraso sutil no movimento. Acerte qualquer uma delas errado e a qualidade onírica entra em colapso, virando filmagem de câmera de segurança.

O quadro onde o homem e a mulher se olham usa o modelo padrão de Hollywood de "o momento em que o amor acontece": luz de fundo lateral traçando seus contornos, lâmpadas de fundo derretendo em bokeh, foco raso empurrando o mundo para longe até que restem apenas duas pessoas. Isso prova uma coisa. O teto do que esses modelos podem fazer já atinge a qualidade de trailer de filme. O que o prendia nunca foi o modelo. É o prompt.

Tutorial de Vibe Creating Caso 4: Traduzindo "Solidão" em imagens

Esta é uma única palavra abstrata, e observar como ela é desmembrada é a parte mais útil de qualquer tutorial de Vibe Creating. O clipe é de uma astronauta em um planeta desconhecido, lembrando fragmentos felizes da vida na Terra. Você sente como se estivesse lá com ela. Como?

O Vibe Creating se recusa a renderizar a palavra "solitário". Ele autoexpandi a abstração em uma cadeia de escolhas concretas. Aqui está a tabela de tradução:

O que você disse	O que foi traduzido
Solitário	Um contraste de escala violento: uma pessoa minúscula contra um objeto flutuante vasto, sua insignificância diante de algo enorme
Solitário	Um deserto cinza-azul de baixa saturação com um horizonte cruelmente limpo, um ambiente que é, por si só, "ninguém aqui"
Solitário	Uma mão alcançando para tocar os fios de luz, porque os solitários desejam conexão até com uma coisa feita apenas de luz
Solitário	Memórias dentro da luz são conexão humana: a mão de uma mãe, uma criança correndo, uma avó regando flores
Solitário	Memória renderizada em ouro quente, realidade em cinza frio, temperatura de cor como as duas pontas de uma emoção
Solitário	O quadro final: ela está parada exatamente no centro, de frente para a câmera, sozinha

O método entende uma coisa que toda aula de escrita ensina, mas ninguém lembra de usar. Solidão não é vazio. Solidão é continuar lembrando de como era o calor. Você dá a ele uma palavra. Ele devolve uma estrutura de imagens que realmente carrega a palavra.

Tutorial de Vibe Creating Caso 5: O teste A/B que prova o ponto

Neste ponto, uma objeção justa aparece: se eu simplesmente escrever um prompt mais profissional, eu preciso disso? Então, aqui está o teste controlado, e o resultado é a evidência mais forte em todo este tutorial de Vibe Creating.

Input do Grupo A. Uma lista de tomadas pronta para produção. Tamanhos de plano rotulados, movimentos de câmera especificados, códigos de tempo, design de som, tudo. Três planos cobrindo uma garotinha em um beco chuvoso que hesita, depois pula em uma poça, a água explode, ela cai na gargalhada. No papel, a história está completa e o documento poderia ir direto para uma equipe de filmagem real.

Resultado do Grupo A. O paralelepípedo molhado, a névoa, os reflexos nas poças, tudo apareceu. Os parâmetros técnicos foram executados. Mas duas coisas quebraram:

A instrução "um par de botas de chuva entra lentamente no quadro" foi renderizada literalmente como um par de botas vazias paradas sozinhas no meio do beco, com uma figura surgindo através da neblina atrás delas. A lista de tomadas queria algo aconchegante e infantil. O resultado tornou-se a abertura de um filme de terror.
O arco emocional se dissolveu. O rosto da garota só mostrava lágrimas. A progressão de hesitação, resolução, explosão e risada sumiu.

Input do Grupo B. A mesma lista de tomadas, entregue ao Vibe Creating para reescrever. O método não adiciona coisas. Ele remove o ruído. Seu raciocínio é basicamente: este documento está escrito em estilo de pura execução, mas por baixo há uma narrativa emocional completa, então é um bom candidato para tradução. Mantenha a progressão de três batidas de se aproximar da poça, a breve batalha interna, a explosão súbita. Delete a maior parte dos termos técnicos de baixo valor, tamanhos de plano e códigos de tempo. Mantenha os detalhes que carregam peso emocional real: as botas amarelas, a pedra molhada, o salto, o gato laranja assustado, a risada e os olhos úmidos. Converta o design de som em linguagem experiencial natural. A reescrita diz:

A chuva acabou de parar. Uma névoa fria ainda paira pelo beco antigo, e poças cobrem o caminho de pedra, refletindo as paredes descascadas e cobertas de musgo de ambos os lados. Um par de galochas amarelas grandes demais entra lentamente no quadro. Uma garotinha cuidadosamente se dirige à maior poça e para, baixando a cabeça para observar o reflexo trêmulo abaixo. O ar carrega apenas o som abafado e oco do vento pós-chuva, o gotejar intermitente da água dos beirais e o rangido suave e delicado de suas botas contra a pedra molhada. Ela encara a poça, depois olha para suas botas, suas sobrancelhas franzindo fortemente, seus lábios pressionados de leve — como se estivesse travada em um duelo solene e infantil consigo mesma. Ela claramente quer pular, mas hesita no último momento. Sua respiração torna-se curta e rápida, e tudo ao seu redor parece drenado, deixando apenas aquela antecipação tensa e trêmula — a sensação de estar a um suspiro de pular, prestes a ter coragem. No segundo seguinte, a resolução a inunda. Ela bate os dois pés juntos e mergulha na poça. A água explode para o céu, despedaçando-se em brilhantes cacos de luz. Ao seu lado, um gato ruivo que estava cochilando acorda subitamente e foge em pânico, subindo em um muro mais alto. Quando o respingo desaparece, a garotinha está parada em meio aos restos de água, levanta a cabeça e cai na gargalhada — clara, brilhante, totalmente desinibida — com os olhos brilhando levemente com lágrimas, como se um mundo lavado pela chuva tivesse acabado de ser iluminado por suas próprias mãos.

Nem um único termo técnico. Mas você terminou de ler e a cena já se desenrolou na sua cabeça. O modelo lê da mesma forma.

Resultado do Grupo B. Uma garotinha de maria-chiquinha em uma capa de chuva verde e galochas amarelas, parando na poça, um close de hesitação com sobrancelhas franzidas, então os dois pés batendo, a água explodindo, o gato no muro fugindo, e seu rosto se iluminando em uma risada com olhos úmidos. O arco sobreviveu intacto.

Aqui está a comparação em uma tabela.

Dimensão	Grupo A: lista de tomadas	Grupo B: Reescrita de Vibe Creating
Formato do prompt	Cheio de tamanhos, movimentos, códigos	Uma narrativa emocional viva
O que o modelo lê	Metade é ruído	Tudo é imagem e emoção
Falha típica	Botas vazias paradas no beco	Nenhuma
Arco emocional	Colapsado em um "triste" vago	Hesitação, explosão, alívio, os três
Detalhes chave	Perdidos	Gato assustado e olhos úmidos mantidos

A lição é direta. Mais detalhes técnicos não ajudaram. Eles atrapalharam ativamente, porque metade era ruído através do qual o modelo tinha que lutar.

Como começar seu primeiro projeto de Vibe Creating em três passos

Você não precisa aprender nenhum prompt engineering. O fluxo de trabalho completo tem três passos, e a única parte paga é a renderização final.

Passo um: ensine a Skill ao seu assistente de IA. Copie a "Skill de Vibe Creating" no final deste artigo e cole em qualquer assistente de IA que você já use. Claude Code, Codex e TRAE funcionam. Se quiser um teste rápido, cole direto em qualquer caixa de chat de IA. Sem instalação, sem configuração, sem dependências. Ele lê uma vez e já sabe.

Passo dois: descreva o sentimento em palavras simples. Qualquer coisa funciona. Uma palavra, como "liberdade". Uma frase, como "quero aquela energia da abertura de Love Death and Robots". Ou um humor vago, como "vi o pôr do sol hoje e de repente quis filmar algo, não sei dizer o quê". A Skill descobre a qual família atmosférica seu sentimento pertence, faz uma pergunta ou duas se necessário, e então gera um prompt completo: câmera, luz, temperatura de cor, ritmo, adereços, estilo de referência, tudo escrito para você.

Passo três: renderize em um lugar que realmente possa executá-lo. Copie o prompt, cole em um modelo de vídeo Seedance 2.0 e gere.

whole process of vibe creating.png

Uma nota sobre onde renderizar, já que importa mais do que as pessoas esperam. Os vídeos de exemplo neste tutorial foram gerados no Seedance 2.0 na Atlas Cloud. O Seedance 2.0 é o modelo de áudio-vídeo da ByteDance que produz até 15 segundos de filmagem sincronizada a partir de inputs de texto e imagem, sendo o mesmo motor por trás do CapCut e do Dreamina. Por que ele se encaixa neste fluxo de trabalho:

Rostos permanecem estáveis e as expressões se mantêm, que é exatamente onde um vídeo de "vibe" vive ou morre. Uma ótima atmosfera entra em colapso no instante em que um rosto se distorce.
Acesso global sem lista de espera, para que você possa agir sobre um sentimento no momento em que o tiver.
Mais de 300 modelos atrás de uma única chave de API, o que facilita executar o mesmo prompt em modelos diferentes e comparar, ou conectar a geração em um pipeline existente.

Um minuto depois, a imagem que só existia na sua cabeça, aquela que você nunca conseguiu explicar para ninguém, aparece na tela pela primeira vez.

A Skill completa de Vibe Creating (Copie e use)

Esta é a parte genuinamente útil. Cole o bloco abaixo no seu assistente de IA e ele executará todo o método para você. Ele está escrito como uma especificação de Skill, então funciona tanto se você colocar em um assistente de codificação quanto em uma caixa de chat comum.

plaintext
1---
2name: vibe-creating-prompt
3description: Decide se o input de um usuário é adequado para Vibe Creating. Quando for, destile prompts de tomada única, descrições de múltiplas tomadas, cenas emocionais ou inputs mistos em prompts que geram vídeos melhores, preservando qualquer diálogo, locução, música, efeitos sonoros e outras restrições rígidas especificadas pelo usuário. Não serve para filmes narrativos longos com sincronia de diálogo, listas de execução industrial, demos de recursos ou tutoriais de interface.
4---
5
6# Skill de Prompt de Vibe Creating
7
8## Visão Geral
9O objetivo é destilar o que o usuário realmente deseja expressar, para que o modelo possa captar o centro visual, a direção emocional e a continuidade da experiência. Priorize a intenção criativa, o valor emocional, a imagem chave e a unidade visual. Desenfatize parâmetros técnicos de baixo valor e linguagem de execução mecânica.
10
11## Início Rápido
12Ao receber o input, execute três passos:
131. Primeiro, julgue se ele se adequa ao Vibe Creating (VC).
142. Então, julgue o melhor manuseio no momento: pass through, destilação leve, reescrita completa, perguntar antes, manter como está ou oferecer uma versão VC opcional.
153. Quando a informação for insuficiente, pergunte. Pergunte apenas o necessário para completar a ação atual. Não interrogue por mera classificação.
16
17## Julgamento de Cena e Expressão
18Primeiro use o julgamento de Cena (S) para decidir se o VC se encaixa, depois o julgamento de Expressão (E) para decidir o manuseio. A verificação de densidade de informação (I) tem prioridade sobre a ação específica: sempre que a informação chave estiver faltando, pergunte primeiro, depois prossiga.
19
20### S1: Encaixe nativo para VC
21- E1 (próximo à expressão VC): padrão reescrita completa; se o texto já estiver maduro, mude para destilação leve ou pass through.
22- E2 (expressão mista): padrão destilação leve, depois reescrita, preservando estrutura válida, ordem narrativa e progressão emocional.
23- E3 (expressão de controle preciso): trate como traduzível para VC; não rejeite só porque está escrito como execução. Remova o controle técnico de baixo valor e converta para linguagem visual natural que gera melhor.
24
25### S2: Encaixe parcial para VC
26- E1: padrão destilação leve; se já for utilizável, pass through.
27- E2: padrão oferecer uma versão VC opcional e deixar o usuário decidir.
28- E3: padrão manter o significado original e notar gentilmente que uma reescrita VC está disponível se desejado.
29
30### S3: Baixo encaixe para VC
31- E1: fique próximo ao original, não force o VC; mantenha como está se necessário.
32- E2: prefira manter como está ou limpeza muito limitada; apenas estilize localmente quando explicitamente solicitado.
33- E3: padrão manter como está; explique que essa necessidade se adequa a um fluxo de storyboard tradicional, não à reescrita VC contínua.
34
35Quatro regras rígidas durante o roteamento:
36- Informação insuficiente pergunta primeiro: por melhor que a cena se encaixe, se a âncora visual, ação principal ou direção de estilo estiver faltando, pergunte antes de escrever.
37- Restrições rígidas do usuário vencem: se o usuário exigir explicitamente manter diálogo, música, números de tomada, parâmetros, estrutura de parágrafo ou formato de entrega, não os delete; uma versão VC deve ser uma versão extra ou fornecida após o usuário concordar.
38- Múltiplas tomadas preservam a estrutura: quando o usuário já estiver expressando uma experiência unificada através de segmentos de tomada, não amasse em um bloco de prosa; mas não defina como padrão saída numerada a menos que o usuário solicite explicitamente.
39- Escrita de controle preciso não é o mesmo que uma cena de baixo encaixe: julgue o objetivo da cena primeiro, depois decida se traduz.
40
41## Verificação de densidade de informação
42Mesmo quando a cena se encaixa no VC, não force uma reescrita quando a informação chave estiver faltando. Pergunte primeiro se: não há âncora visual clara; apenas um sentimento abstrato sem personagem, objeto ou cena; um sujeito mas nenhuma ação ou estado; fragmentos visuais mas nenhum relacionamento principal ou direção de estilo; um input muito curto que tem sujeito e evento mas carece de direção de estilo clara, método de visualização ou momento chave; conteúdo de múltiplas tomadas com saltos óbvios onde a razão de pertencerem juntos não está clara.
43
44No Vibe Creating, um prompt deve satisfazer essas quatro camadas; preencha o que estiver faltando primeiro, sem necessidade de perguntar mecanicamente por tudo:
451. Âncora visual: o núcleo que mais precisa ser visto (pessoa / objeto / conceito nomeado / o efeito em si).
462. Ação ou estado: o que está acontecendo (escreva apenas um: ação / estado / trama).
473. Tom local: como esta batida soa (uma palavra de humor ou adjetivo).
484. Tema do vídeo: o caso de uso mais estilo visual.
49   - Caso de uso: curta conceito, micro-narrativa, previz de filme, expressão emocional, explicativo, clipe de efeitos.
50   - Estilo visual: hiper-real, cinematográfico, animação, claymation, tinta oriental, cyber, ilustrativo.
51
52Princípio de pergunta: a verificação de densidade não é um portão separado de S e E, ela roda em paralelo como uma verificação de estabilidade sobre se o input pode pousar diretamente na ação roteada. Preencha a informação mínima necessária para reescrever, geralmente uma rodada. Continue perguntando apenas quando uma lacuna bloquear claramente a imagem de pousar. Para input de imagem única, abstrato e muito curto, priorize converter a palavra abstrata na informação que uma imagem visível precisa; se a direção estiver clara, dê um julgamento inicial primeiro, depois pergunte sobre as 1 a 3 lacunas mais críticas.
53
54## Política de Interação
55Não exponha rótulos de classificação internos, mas complete internamente os três julgamentos: Cena (S), Expressão (E), Densidade de informação (I). Julgamentos iniciais são permitidos; não force uma classe quando a informação for insuficiente.
56
57Após julgar, decida a ação: pass through, destilação leve, reescrita completa, perguntar primeiro, manter como está, versão VC opcional.
58
59Princípios de manuseio:
60- Cena se encaixa no VC mas a informação é curta: preencha a informação mínima necessária para a ação atual.
61- Quando o input já tem um sujeito claro, estrutura, relacionamento temporal, imagem central e um objetivo emocional claro, e o texto já está fortemente pronto para geração, padrão pass through; apenas destile levemente para clareza se necessário, não reescreva ativamente.
62- Cena se encaixa no VC mas contém controle preciso não declarado: padrão desenfatizar, deletar ou traduzir; se você fez isso, deve notar e dizer ao usuário que ele pode especificar o que manter.
63- Encaixe parcial: não force VC por padrão; preserve o significado ou ofereça uma versão VC opcional.
64- Baixo encaixe: explique que é um descompasso de objetivo ou fluxo de trabalho, não uma rejeição da criatividade do usuário.
65- Diálogo, locução, música, efeitos sonoros, estrutura e requisitos de parâmetros especificados pelo usuário são preservados primeiro.
66
67## Política de Linguagem de Câmera
68Não delete a linguagem de câmera no atacado. O que deletar são os parâmetros técnicos de baixo valor que dizem ao sistema como filmar. O que manter ou traduzir é a intenção de câmera que diz ao espectador como sentir.
69
70Padrão desenfatizar ou deletar: distância focal, milímetros, jargão de posição de câmera, parâmetros de movimento de câmera, números de tomada, profundidade de campo, abertura, exposição, obturador, notas de equipamento, cam A/B, cobertura, instruções de edição puras.
71
72Quando o usuário solicitar explicitamente manter parâmetros, siga a restrição primeiro, depois decida se oferece também uma versão VC.
73
74Quando não está declarado se deve manter o controle preciso: não trate o controle técnico como algo que deve ser mantido; ainda processe como a versão criativa VC mais amigável à geração; preserve as partes que contribuem para a emoção, narrativa ou experiência de visualização; para controle de câmera puramente técnico, delete ou traduza em um resultado natural; não interrompa para confirmar primeiro, mas se você desenfatizou, deletou ou traduziu o controle técnico, deve notar brevemente e oferecer uma versão que preserva restrições se o usuário quiser parâmetros, estrutura ou batidas específicas mantidas.
75
76## Regras de Prioridade de Som e Restrição
77Diálogo, locução, música, efeitos sonoros, letras, narração e outros conteúdos sonoros explicitamente especificados superam a otimização criativa. A Skill pode reordenar, mas não deve reescrever a redação, substituir o conteúdo ou deletar um requisito de som explícito do usuário.
78
79Em conflito, execute nesta ordem:
801. Conteúdo especificado pelo usuário e restrições rígidas (diálogo, locução, música, SFX, estrutura de tomada, retenção de parâmetros, formato, limites de estilo).
812. Otimização criativa (destilar história, emoção, memória, imagem e experiência unificada sem quebrar restrições).
823. Consistência do paradigma VC (apenas após os dois primeiros, aperte a linguagem para que o prompt seja mais fácil de entender e gerar para o modelo).
83
84Suplementar: mantenha diálogo, locução, música ou SFX escritos pelo usuário na íntegra. Quando descrição visual e requisitos de som estiverem misturados, você pode reordenar, mas não alterar o conteúdo sonoro. Se a parte visual se encaixa no VC mas a parte sonora não, reescreva apenas a parte visual. Se tudo só se mantém unido com um diálogo longo, estrito e sincronizado palavra por palavra, padrão não reescrever com VC.
85
86## Modos de Reescrita
87Escolha o modo pelo fator dominante no input:
88- Reescrita narrativa: para inputs impulsionados por história, relacionamento ou evento. Saída de um prompt contínuo ou mantenha de 2 a 5 batidas segmentadas, preservando a ordem dos eventos e viradas emocionais.
89- Reescrita emocional: para inputs impulsionados por humor, sentimento ou estado. Concentre-se no ambiente, ritmo, textura e experiência de visualização; não force uma cadeia causal a parecer uma história.
90- Reescrita de memória: para recordação, flashback, antiguidade, desbotamento, coisas sendo lembradas. Preserve o borrão, o desbotamento, lacunas e fragilidade; fortaleça imagens recorrentes e a sensação de tempo passando.
91- Reescrita de fluxo de consciência: para associação, fragmentos, percepção subjetiva, expressão não linear. Incompletude é permitida, mas a imagem deve permanecer perceptível e a imagética internamente unificada.
92- Reescrita de experiência de múltiplas tomadas: para inputs de múltiplos segmentos, múltiplas cenas, múltiplos cortes que servem a uma experiência. Segmente naturalmente, ou agrupe por número apenas quando explicitamente solicitado, 1 a 3 frases cada; mantenha o fluxo da cena, a progressão emocional e os motivos visuais, descarte jargões de execução de baixo valor.
93- Destilação mista: para inputs que misturam conteúdo criativo com linguagem de execução. Mantenha a estrutura original e informações válidas tanto quanto possível, remova apenas ruído técnico, repetição e controle de baixo valor; não reescreva demais ou invente novas batidas.
94
95## Regras de Saída
96O objetivo é ajudar o usuário a expressar com mais precisão, não reescrever seu trabalho para uma peça diferente.
97
98Comprimento e forma:
99- Padrão não significativamente mais longo que o original, e não transforme um input muito curto em prosa longa.
100- Não adicione nada sem suporte, especialmente nenhum relacionamento inventado, reviravolta na trama, detalhes de cena ou mudanças emocionais.
101- Para saída de segmento único, aperte para um prompt que possa ser usado para gerar diretamente.
102- Preservar a estrutura não é preservar números; números de tomada, números de segmento ou formato de lista no input não contam, por si só, como uma solicitação para manter a numeração. Mantenha a saída numerada apenas quando o usuário solicitar explicitamente; caso contrário, padrão para segmentação natural.
103- Com informação suficiente e sem restrições extras, um único segmento ou tomada geralmente tem de 30 a 120 palavras; relaxe ao preservar a estrutura, diálogo ou progressão de múltiplos segmentos.
104- Quando o usuário solicitar explicitamente manter a estrutura original, preserve a estrutura em vez da brevidade.
105
106Formato visível ao usuário:
107- Não exponha rótulos internos como S1 + E2 ou Modo 5.
108- Padrão para uma saída de quatro partes, ordem fixa: Julgamento / Ação / Resultado / Notas (se houver).
109- Julgamento: declare brevemente se se adequa ao VC, se o original já é utilizável, se a informação é suficiente.
110- Ação: use explicitamente um rótulo: pass through / destilação leve / reescrita completa / perguntar primeiro / manter como está / versão VC opcional.
111- Resultado: a reescrita real, o texto mantido como está ou as perguntas.
112- Notas (se houver): controle técnico desenfatizado, deletado ou traduzido desta vez; restrições rígidas mantidas como diálogo, locução, música, SFX; ou um prompt que o usuário possa especificar parâmetros, estrutura ou batidas para manter.
113- A saída deve ser natural, concisa e se ajustar ao contexto da tarefa original do usuário.
114- Omitir a quarta parte quando não forem necessárias notas.

Perguntas Frequentes sobre Vibe Creating

Preciso saber prompt engineering para seguir um tutorial de Vibe Creating?

Não. O ponto principal do Vibe Creating é que você descreve o sentimento em palavras simples e o método lida com a tradução em câmera, luz e ritmo. A Skill complementar é um copiar-colar em qualquer assistente de IA, sem instalação ou configuração. É mais próximo do vibe coding, onde você descreve a intenção e deixa a ferramenta gerar a implementação (Simon Willison, "Not all AI-assisted programming is vibe coding", março de 2025).

Por que a lista detalhada de tomadas perdeu para o prompt mais simples no teste A/B?

Porque metade de uma lista técnica de tomadas é ruído através do qual o modelo tem que lutar. Tamanhos de plano, códigos de tempo e movimentos de câmera não carregam emoção, e podem ser mal interpretados, como "botas entram no quadro" virando um par de botas vazias paradas sozinhas. A reescrita do Vibe Creating manteve o arco emocional de três batidas e os detalhes significativos, então o modelo recebeu imagem e sentimento puros.

Vibe Creating é a mesma coisa que vibe coding?

Eles são primos, não a mesma coisa. Vibe coding, cunhado por Andrej Karpathy em 2025, é sobre gerar software descrevendo a intenção. Vibe Creating aplica a mesma filosofia de "descrever o resultado" ao vídeo, traduzindo um sentimento nas escolhas de filmagem que o produzem. Ambos mudam seu esforço de "como" para "o que eu quero".

Em qual modelo devo realmente renderizar após escrever o prompt?

Os exemplos aqui usaram o Seedance 2.0, o modelo de áudio-vídeo da ByteDance que gera até 15 segundos de filmagem sincronizada. Para trabalhos orientados por atmosfera, rostos e expressões estáveis são o que mais importa, que é onde ele se mantém bem. Você pode executá-lo através da Atlas Cloud sem lista de espera e comparar com outros modelos na mesma chave de API.

Quanto tempo leva todo o fluxo de trabalho do tutorial de Vibe Creating?

Aproximadamente dez minutos do início ao fim para sua primeira tentativa. Um minuto ou dois para colar a Skill, um minuto para descrever seu sentimento e obter um prompt finalizado de volta, e cerca de um minuto para renderizar um clipe. A maior parte da espera é a própria geração, não a configuração.

Conclusão

A coisa que ficava entre sua imaginação e a tela nunca foi o modelo. O teto dessas ferramentas já atinge a qualidade de trailer de filme, como mostrou o exemplo da dançarina. O que te para é a lacuna entre o sentimento que você tem e a linguagem que um modelo pode agir.

O Vibe Creating fecha essa lacuna. Você nomeia o sentimento, ele escreve a tomada. Os cinco casos aqui – perigo como movimento de câmera, um jardim que parece errado, decupagem nível trailer, solidão desempacotada em imagens e uma reescrita que venceu uma folha técnica completa – tudo se resume ao mesmo movimento: escreva como um espectador deve se sentir, não qual câmera usar.

Cole a Skill, descreva algo que você sempre quis filmar e renderize na Atlas Cloud. A janela de desconto fecha em 15 de junho, então estes são bons dias para ver aquela imagem na sua cabeça aparecer na tela pela primeira vez.

VOLTAR À LISTA

Por que seu vídeo de IA parece bom, mas não transmite nada: Um tutorial sobre como criar a "vibe" ideal