yxUS-H6oB1A
1. Cómo empezó todo: El choque de dos modelos
Abril de 2026.
OpenAI lanzó GPT Image 2, llevando al límite el renderizado de texto, el conocimiento del mundo y la estética.
"A partir de hoy, las imágenes generadas por IA, al igual que el texto generado por IA, han entrado oficialmente en una era donde la gente común ya no puede distinguirlas de las reales".
Al mismo tiempo, dos publicaciones de alto impacto surgieron en X:
@AI_Jasonyu:
GPT-Image 2 (beta) + Seedance 2.0: combina estos dos y tendrás una combinación letal. El flujo de trabajo es simple: GPT-Image 2 produce el guion gráfico primero; una vez confirmado, pásalo a Seedance 2.0 para ejecutar el vídeo de larga duración. Así es como debería funcionar el vídeo con IA.
@arrakis_ai:
El pipeline de Codex + GPT Image 2 es una auténtica revolución. Es el flujo de trabajo de IA más disruptivo que he visto este año. Introduje un manuscrito con una sola línea —"convierte esto en un cómic"— y obtuve un cómic completamente formado.
Ambas publicaciones apuntan a lo mismo: el mejor modelo de imagen + el mejor modelo de vídeo, encadenados en un mismo pipeline.
El problema: para ejecutar ese pipeline anteriormente, necesitabas una cuota de OpenAI GPT Image 2, acceso a ByteDance Seedance 2.0 y código personalizado para gestionar los prompts, el polling y el manejo de CDN de ambos extremos.
Ya no.
2. Atlas Cloud ahora incluye GPT Image 2: Una clave, todo conectado
Atlas Cloud acaba de añadir GPT Image 2 a su catálogo de modelos, ubicándose en el mismo entorno que toda la línea de Seedance 2.0 (Texto a vídeo / Imagen a vídeo / Referencia a vídeo / Rápido / Escalado).
| Antes | Ahora |
|---|---|
| Solicitar cuota de OpenAI + integrar Seedance por separado | Una sola API key de Atlas Cloud |
| Dos SDKs, dos sistemas de facturación, dos tipos de documentación | Endpoint unificado: text |
| Programar tu propio polling / CDN / manejo de errores | SDK oficial / MCP / Plantillas de Skill listas |
Realmente solo hay dos endpoints:
# Generar imágenes (GPT Image 2 / Seedream / Qwen Image ...) POST https://api.atlascloud.ai/api/v1/model/generateImage # Generar vídeos (Seedance 2.0 / Kling / Vidu ...) POST https://api.atlascloud.ai/api/v1/model/generateVideo # Endpoint de polling compartido GET https://api.atlascloud.ai/api/v1/model/prediction/{id}
Autenticación con Bearer token.
1export ATLASCLOUD_API_KEY=...Nota de cumplimiento: Cada personaje en este tutorial ha sido generado como un personaje digital fotorrealista por GPT Image 2. No se implica ni involucra la semejanza de ninguna persona real.
3. El mejor modelo de imagen GPT Image 2 + el mejor modelo de vídeo Seedance 2.0
La mayoría de los tutoriales de vídeo con IA siguen uno de estos dos enfoques:
Enfoque A: Texto a vídeo puro (prompt directo → vídeo de 15s)
- Problema: es una apuesta de un solo intento, gastas cómputo en cada reintento.
Enfoque B: Segmentos multiescena (6-12 tomas de 5s cada una, unidas)
- Problema: lento (6x generación de imagen + 6x generación de vídeo), costoso, la consistencia de personajes se rompe fácilmente.
1drama-directorEnfoque C: Una página de cómic de 9 paneles + un vídeo animado de 15 segundos
- GPT Image 2 genera una sola página de 9 paneles en cuadrícula 3x3 (9 fotogramas de guion gráfico dibujados en una sola imagen, como una página de cómic).
- Seedance 2.0 I2V toma esa página + un prompt de movimiento y produce un vídeo de 15s en una sola llamada. Seedance trata la imagen de 9 paneles como su ADN visual y referencia de guion gráfico (personajes, vestuario, ubicaciones, iluminación, paleta de colores bloqueados desde la imagen) y genera una toma cinematográfica de 15 segundos de la escena real; literalmente ves nanofilamentos tensos, un crucero entrando, losas de metal cortándose, columnas de agua erupcionando, no un "paneo de cámara sobre un cómic".
Las tres ventajas de esta combinación:
| Dimensión | Ruta de 9 paneles | Ruta segmentada de 6-8 tomas |
|---|---|---|
| Coste | 1 gen. de imagen + 1 gen. de vídeo | 6-8x gen. de imagen + 6-8x gen. de vídeo |
| Tiempo | ~3-5 min | ~8-15 min |
| Consistencia de personajes | Los 9 paneles en un solo lienzo: el modelo lo garantiza naturalmente | Cada toma generada independientemente, requiere referencia de vídeo para anclar |
| Coste de iteración | Ajustar image_prompt, regenerar una imagen | Un cambio en un panel afecta todo el pipeline |
| Resultado final | Un vídeo de drama en cómic completo, listo para publicar | Requiere edición de postproducción |
El punto 3 —consistencia de personajes— es el mayor problema en flujos de trabajo encadenados. Una cuadrícula de 9 paneles es, literalmente, "9 regiones en el mismo lienzo", por lo que GPT Image 2 mantiene naturalmente el aspecto del mismo personaje, con el mismo atuendo, en los 9 paneles. Esa decisión de diseño elimina una gran cantidad de trabajo de ingeniería posterior.
4. drama-director: Un mensaje, pipeline completo
Qué debes hacer
Dentro de Claude Code, solo necesitas:
Convierte este pasaje de novela en un drama de cómic:
Claude detecta los disparadores ("drama de cómic" / "guion gráfico" / "九宫格" / ...), carga la habilidad
1drama-director- Lee el material → lo resume en 9 momentos clave (orden de lectura 3x3)
- Crea un completo (descripciones de panel + restricciones de estilo) y te lo muestra para revisióntext
1image_prompt - Llamada única a GPT Image 2 → página de cómic de 9 paneles (context
1.json)text1image_url - Te muestra la imagen; una vez que apruebes, llamada única a Seedance 2.0 I2V → cómic animado de 15 segundos (context
1.json)text1video_url - Genera un informe en Markdown
Solo escribiste dos mensajes de principio a fin: el guion y "confirmar".
Modelos detrás del proceso
| Etapa | ID de modelo (por defecto) | Notas |
|---|---|---|
| Página de 9 paneles | text | Vuelve a text |
| Vídeo animado | text | 15s / 720p / 1:1, configurable |
| Variante rápida | text | Más barato, más rápido |
5. Instalación en 3 minutos
Paso 1 — Obtener una API Key
Regístrate en atlascloud.ai y genera una clave desde la página de API Keys.


export ATLASCLOUD_API_KEY="sk-tu-clave" echo 'export ATLASCLOUD_API_KEY="sk-tu-clave"' >> ~/.zshrc
Paso 2 — Instalar la habilidad drama-director
Clónala desde GitHub en el directorio de habilidades de Claude:
mkdir -p ~/.claude/skills git clone https://github.com/kianaliang-dev/drama-director-skill ~/.claude/skills/drama-director
Verifica:
ls ~/.claude/skills/drama-director/ # Esperado: SKILL.md scripts/
La habilidad es totalmente autónoma:
contiene el enrutador de arquetipos de escena (Impacto / Duelo / Persecución / Viaje / Atmósfera / Revelación / Confrontación, etc.), restricciones estrictas del motor Seedance y reglas de corte de doble contraste integradas. No se requieren otras habilidades.text1SKILL.md
Paso 3 — Prueba rápida de los scripts
python3 ~/.claude/skills/drama-director/scripts/generate_image.py \ --prompt "a cinematic 3x3 comic book page with 9 panels showing a cyberpunk chase scene, bold black gutters, film noir palette" \ --aspect 1:1
Después de ~30 segundos deberías ver un JSON con
1image_url6. Demo: Operación Guzheng de El problema de los tres cuerpos → Drama de cómic de 15s
Por qué esta escena
Una de las secuencias más explosivas visualmente de la novela de Liu Cixin: un crucero siendo cortado por nanofilamentos en el Canal de Panamá. Acción cinematográfica extremadamente densa, exactamente 9 momentos de material:
Canal de Panamá, noche. 50 nanofilamentos, cada uno con menos de una décima parte del diámetro de un cabello humano, están tensados sobre el agua como las cuerdas de un guzheng (cítara china) gigante.
El crucero Judgment Day se acerca. La proa hace contacto con la red de filamentos. El barco continúa hacia adelante y es cortado en 45 capas horizontales.
Las capas se desplazan, se desalinean y colapsan en secuencia. Enormes láminas de metal caen al canal como naipes, levantando columnas de agua de varios pisos de altura.
Todos en la orilla contienen el aliento. Es la primera vez en la historia de la humanidad que se utiliza tal método para aniquilar a cada alma a bordo de un barco masivo.
Cómo transcurre la conversación
Pegas en Claude Code:
Convierte este pasaje de El problema de los tres cuerpos en un drama de cómic (cuadrícula de 9 paneles + vídeo de 15s): Canal de Panamá, noche. 50 nanofilamentos tensados sobre el agua... (pasaje completo pegado)
Lo que hace Claude:
- Detecta los disparadores ("drama de cómic" / "cuadrícula de 9 paneles"), carga la habilidad .text
1drama-director - Divide el pasaje en 9 momentos (filamentos tensados → el barco se acerca → primer contacto → las capas comienzan a desplazarse → corte completo → colapso inclinado → el metal se derrumba → plano general de las secuelas → observadores en la orilla).
- Te muestra el completo para revisión:text
1image_prompt
Una página de cómic cinematográfica de 3x3 con 9 paneles representando la "Operación Guzheng" de El problema de los tres cuerpos: nanofilamentos cortando un crucero en el Canal de Panamá por la noche. Orden de lectura: de izquierda a derecha, de arriba abajo. Panel 1 (arriba izquierda): 50 nanofilamentos ultrafinos tensados sobre el oscuro Canal de Panamá a medianoche, invisibles al ojo humano, la luz de la luna captura sus hilos como cuerdas de guqin. Panel 2 (arriba centro): el crucero masivo "Judgment Day" se acerca, luces encendidas, sin saberlo. Agua negra, proa cortando espuma. Panel 3 (arriba derecha): primer contacto — la proa toca la red de nanofilamentos, sin resistencia visible, el barco continúa avanzando. Panel 4 (medio izquierda): corte transversal del interior, pasajeros a mitad de movimiento, los pisos superiores comenzando a deslizarse unos centímetros hacia adelante respecto a los inferiores. Panel 5 (medio centro, TOMA HEROICA): el barco entero visiblemente cortado en 45 capas horizontales, cada capa desplazándose ligeramente, manteniendo su forma, atrapado a mitad del colapso. Panel 6 (medio derecha): las capas comienzan a inclinarse, caos geométrico catastrófico, líneas de fractura de metal fotorrealistas, escombros comenzando a caer. Panel 7 (abajo izquierda): enormes losas de metal chocando contra el canal, explosiones de agua de cientos de pies de altura, chispas, reflejos. Panel 8 (abajo centro): plano general, el barco convertido en una pila de panqueques metálicos colapsando, noche iluminada por bengalas de emergencia. Panel 9 (abajo derecha): secuelas silenciosas — observadores en la orilla (siluetas) de pie congelados, campo de escombros flotando sobre el agua negra, luz de luna fría, un trozo de papel cayendo lentamente. Estilo: realismo cinematográfico fotorrealista, calidad de producción de Netflix, detalle de grado IMAX, iluminación dramática pero bien expuesta — luz de luna sobre el agua, luces de navegación del barco, bengalas de emergencia proyectando reflejos cálidos. Corrección de color rica (azules fríos en el agua, ámbares cálidos en las luces del barco), no demasiado oscuro, cada panel claramente legible. Bordes de panel negros gruesos con canaletas blancas finas, apariencia consistente del barco y el canal en todos los paneles. Siluetas de personajes digitales fotorrealistas en la orilla. Relación de aspecto 16:9, resolución ultra alta 8K, detalle hiperrealista.
Respondes "confirm".
- Se ejecuta → la página de 9 paneles regresa en ~1 minuto. Claude te envía latext
1generate_image.py.text1image_url - Dices "OK, continúa".
- Siguiendo su Enrutador de Arquetipos de Escena integrado, Claude elige Impacto (un momento decisivo único = los filamentos cortando el barco), aplica restricciones estrictas del motor Seedance (sin biomecánica articular, sin reflejos, cortes de doble contraste) + la estructura de tres secciones (Estilo y Estado de ánimo → Dinámico → Estático), y escribe un describiendo la acción de la escena en el mundo real — la imagen de 9 paneles aquí es solo ADN visual, no el sujeto filmado:text
1motion_prompt
Estilo y Estado de ánimo: Realismo cinematográfico fotorrealista, calidad de producción de Netflix, detalle grado IMAX. Paleta de medianoche — azules fríos en el agua del canal, reflejos ámbar cálidos de las luces de navegación del barco y bengalas de emergencia. Iluminación dramática pero bien expuesta, borde de luna sobre la superficie del agua, alto rango dinámico conservando detalles en las sombras. Destello de lente anamórfico en las luces. 16:9, texturas hiperrealistas 8K.
Descripción dinámica: Abre con toma aérea gran angular desde dron — el Canal de Panamá a medianoche, 50 nanofilamentos casi invisibles tensados sobre el agua, capturando la luz de la luna tenue como las cuerdas de un guqin, el crucero Judgment Day avanzando desde la derecha del encuadre, luces encendidas. Corte seco a plano estático gran angular a ras de agua — la proa toca la red de filamentos, sin resistencia visible, el barco continúa avanzando hacia el encuadre. Corte seco a plano medio corto cámara en mano al casco medio del barco — TOMA HEROICA — el casco ahora visiblemente cortado en 45 capas horizontales, cada capa desplazada unas decenas de centímetros, aún manteniendo la silueta del barco a mitad del colapso. Insert de primer plano extremo, estático — un filamento tensado captura un punto de luz de luna, una fina línea de luz de bengala de emergencia parpadeando junto a él. Corte seco a seguimiento estabilizado gran angular junto al casco — las 45 capas comienzan a inclinarse y deslizarse, losas de metal cizallándose, chispas arqueándose donde los conductos cortados hacen cortocircuito, luz ámbar cálida derramándose desde las brechas. Corte seco a plano general de grúa retirándose — losas de metal masivas chocando contra el canal como naipes caídos, columnas de agua erupcionando a varios pisos de altura, chispas, bengalas de emergencia iluminando la niebla en ámbares cálidos contra el agua azul fría. Corte seco final a plano medio en la orilla — una fila de figuras silueteadas permanece inmóvil, un trozo de papel desgarrado a la deriva cae desde la columna de escombros, capturando una suave luz de fondo, flotando hacia el agua negra y quieta al borde del encuadre.
Descripción estática: Canal de Panamá a medianoche, paredes de canal de concreto, agua negra quieta, niebla baja. Crucero Judgment Day — superestructura blanca, varios pisos, ventanas totalmente iluminadas. Red de nanofilamentos tendida entre dos anclajes de orilla, invisible excepto por brillos ocasionales de luz de luna. Bengalas de emergencia proyectando charcos cálidos a lo largo de las orillas del canal. Observadores en la orilla como figuras de personajes digitales fotorrealistas silueteadas, con luz de fondo.
Concepto clave a entender: Seedance I2V trata la imagen de 9 paneles como ADN visual (apariencia de personaje, vestuario, ubicación, iluminación, color, todo bloqueado desde la imagen), luego genera una toma cinematográfica del mundo real basada en el
— no "panea sobre un cómic". Por lo tanto, eltext1motion_promptdebe describir lo que realmente sucede en la escena, siguiendo la estructura preferida de Seedance: Estilo y Estado de ánimo → Descripción dinámica (plano a plano) → Descripción estática.text1motion_prompt
- 2-3 minutos después el vídeo está listo. Se entrega ytext
1video_url.text1/tmp/drama_output/report.md
Estimación de costes
| Elemento | Llamadas | Precio aprox. |
|---|---|---|
| GPT Image 2 página 9 paneles (1:1, 1024×1024) | 1 | Según precios actuales de Atlas Cloud |
| Seedance 2.0 I2V (15s / 720p / 1:1) | 1 | Desde ~0.101/seg×15s≈0.101/seg × 15s ≈ 0.101/seg×15s≈1.5 |
| Total | ~$1.5-2 por episodio |
En comparación con las apuestas de vídeo a texto de una sola toma o los pipelines segmentados de 6-8 tomas, el coste se reduce a 1/5 – 1/8.
7. Variantes comunes
| Necesidad | Solo añade |
|---|---|
| Cambiar a estilo anime | "Usa estilo anime japonés, paleta de Studio Ghibli" |
| Sensación de cómic de superhéroes | "Usa estilo de cómic de superhéroes americano" |
| Aspecto cinematográfico / Netflix | "Usa estilo cinematográfico fotorrealista de Netflix, 16:9, 8K" |
| Vertical para TikTok/Reels | "Usa diseño de 9 paneles 9:16" |
| Salida a 1080p | "Renderiza vídeo a 1080p" |
| Ahorrar dinero | "Usa seedance-2.0-fast" |
| Anclar personaje principal con foto real | "El personaje principal luce así: [URL de imagen], referencia este look en los 9 paneles" |
| 12 paneles en lugar de 9 | "Usa una cuadrícula de 4x3 de doce paneles" (funciona, pero 15s de I2V divididos en 12 se siente apresurado) |
8. MCP oficial + Repositorios de Skills de Atlas Cloud (Para desarrolladores)
Si quieres conectar tu propio pipeline o llamar herramientas atómicas desde Claude Desktop / otros agentes, Atlas Cloud mantiene recursos de código abierto:
Repositorio oficial de Skills
npx skills add AtlasCloudAI/atlas-cloud-skills
Repo: https://github.com/AtlasCloudAI/atlas-cloud-skills
Los archivos
1references/image-gen.md1references/video-gen.md1generate_image.py1generate_video.py1drama-directorServidor MCP oficial (9 herramientas)
claude mcp add atlascloud -- npx -y atlascloud-mcp
npm: https://www.npmjs.com/package/atlascloud-mcp
Una vez instaladas, estas 9 herramientas MCP estarán disponibles en Claude Desktop / Claude Code:
| Herramienta | Propósito |
|---|---|
text | Listar todos los modelos disponibles |
text | Búsqueda difusa de modelos por palabra clave |
text | Obtener especificaciones y precios del modelo |
text | Enviar generación de imagen |
text | Enviar generación de vídeo |
text | Palabra clave → generación de una toma (búsqueda automática de modelo) |
text | Chat LLM compatible con OpenAI |
text | Polling / obtener URL de resultado |
text | Subir archivo local → URL pública |
¿Qué camino deberías elegir?
| Tu intención | Camino recomendado |
|---|---|
| Convertir un guion en un vídeo de drama de cómic | Skill drama-director (este tutorial) |
| Construir tu propio pipeline o agente | MCP oficial |
| Necesitas plantillas de código para apps personalizadas | Repo oficial de skills |
| Todo lo anterior | Instalar los tres: no entran en conflicto |
9. Decisiones de diseño detrás del flujo de trabajo
1. ¿Por qué 9 paneles en lugar de 6 o 12? 3x3 equilibra la legibilidad y la densidad de información; los lectores lo analizan de un vistazo, y 9 momentos son suficientes para un arco dramático completo (configuración / ascenso / giro / resolución x2). 12 paneles hacen que cada celda sea demasiado pequeña; 4 paneles no pueden sostener una historia.
2. ¿Por qué una imagen + un vídeo es suficiente? La tabla anterior cubre coste, tiempo y consistencia. La razón más profunda: Seedance 2.0 I2V es lo suficientemente bueno ahora como para que, dada una cuadrícula de 9 paneles, produzca automáticamente movimiento de cámara y animación localizada; tareas que antes requerían edición de vídeo humana ahora se delegan al modelo generativo.
3. ¿Por qué el
1motion_prompt1motion_prompt1motion_prompt1drama-director4. ¿Por qué la skill prohíbe palabras de edad? Los descriptores funcionales unificados —"figura / personaje / personaje digital fotorrealista"— son amigables con el cumplimiento y producen resultados más estables en GPT Image 2. Las palabras sobre edad tienden a activar el modo conservador del modelo.
5. ¿Por qué 1:1 por defecto en lugar de 16:9? Una cuadrícula de 9 paneles es inherentemente una estructura cuadrada de 3x3. 1:1 hace que cada panel sea un cuadrado limpio. 16:9 estira cada panel en una cinta alta: malo para guiones gráficos de cómic. Usa 9:16 cuando necesites salida vertical.
10. Preguntas frecuentes
P: ¿Cuánto cuesta la API? R: Atlas Cloud es pago por uso, sin suscripción. Un episodio de 15s cuesta ~$1.5-2. Precios finales según la consola de Atlas Cloud.
P: ¿GPT Image 2 aún no está en la lista de modelos? R:
1generate_image.py1gpt-image-1.51gpt-image-2P: ¿La imagen de 9 paneles salió como una sola imagen grande? R: Refuerza el prompt: "bordes negros gruesos entre paneles, canaletas blancas claras, diseño de página de cómic 3x3, paneles claramente separados".
P: ¿El personaje se ve diferente entre paneles? R: Añade "mismo personaje en todos los paneles, mismo atuendo, mismo peinado", o antepón una descripción de hoja de personaje al principio del prompt.
P: ¿El vídeo parece una imagen fija? R: El
1motion_promptP: ¿Cuánto tiempo lleva un episodio? R: ~1 min para la imagen + ~2-3 min para el vídeo = 3-5 min para el vídeo finalizado. ¿Tienes prisa? Usa
1seedance-2.0-fastP: ¿El enlace de vídeo caducó? R: La CDN de Atlas Cloud tiene un TTL de 24 horas por defecto. Descárgalo a local rápidamente.
P: ¿Soporta guiones en chino? R: Sí. Claude reescribe automáticamente los guiones en chino a
1image_prompt1motion_promptP: ¿Puedo usar los resultados comercialmente? R: Los resultados de llamadas a la API son utilizables comercialmente según los términos de servicio de Atlas Cloud. Eres responsable de evitar la infracción de propiedad intelectual de terceros.
11. Próximos pasos
Después de instalar la skill, prueba estos prompts:
- Escenas clásicas de ciencia ficción: además de Operación Guzheng, intenta "Gota vs. la flota", "Ataque del Bosque Oscuro", "Folio bidimensional".
- Capítulos cumbre de novelas web: cualquier escena de pelea o clímax de una novela de fantasía/suspenso.
- Visualización de eventos de noticias: divide una noticia de última hora en un drama de cómic de 9 paneles para publicaciones sociales.
- Anuncios de historia de producto: divide las características del producto en 9 momentos, produce un anuncio de historia estilo cómic de 15s.
- Momentos históricos: batallas, golpes políticos, momentos de invención: todos hacen grandes dramas de 9 paneles.
¿Quieres extender la skill (añadir voz en off TTS, subtítulos incrustados, B-roll, cadenas de múltiples episodios)? Solo edita
1~/.claude/skills/drama-director/SKILL.md1scripts/Enlaces relacionados
- Consola de Atlas Cloud: https://atlascloud.ai
- Repositorio oficial de Skills: https://github.com/AtlasCloudAI/atlas-cloud-skills
- Servidor MCP oficial: https://www.npmjs.com/package/atlascloud-mcp
- Skill drama-director de este tutorial: text
1https://github.com/kianaliang-dev/drama-director-skill






