ERNIE Image API for Readable Text in Images

La API ERNIE Image lleva a tu stack el Diffusion Transformer 8B de pesos abiertos de Baidu, publicado por el ERNIE-Image Team bajo Apache 2.0. Encabeza LongTextBench con 0.9733, manteniendo legibles los titulares de pósteres y los globos de diálogo de cómics, mientras que una variante Turbo destilada reduce la inferencia de 50 pasos a 8. Atlas Cloud lo ofrece mediante un endpoint compatible con OpenAI, con precios transparentes de pago por uso. Empieza a construir hoy mismo.

Explorar Modelos Líderes

Atlas Cloud le proporciona los últimos modelos creativos líderes en la industria.

NEW

Texto a Imagen

TURBO

Baidu ERNIE Image Turbo Text-to-image

A fast, low-latency version of ERNIE Image by Baidu, optimized for rapid iteration and scalable image generation.Balances speed and quality, ideal for real-time and high-throughput scenarios.

FREE

Gratis

Comparativa de endpoints de ERNIE Image API: Standard y Turbo Text-to-Image

Adapta cada endpoint de texto a imagen a tus necesidades de velocidad y calidad.

Modalidad	Descripción
ERNIE Image API (Text To Image)	Mientras que el endpoint Turbo prioriza el rendimiento, la ERNIE Image API estándar se orienta a la máxima fidelidad de salida en la misma tarea de texto a imagen. Es adecuada para trabajos finales de producción, como pósteres, gráficos editoriales y diseños comerciales, donde conseguir cada detalle correcto pesa más que el tiempo de entrega.
ERNIE Image Turbo API (Text To Image)	Convierte un único prompt de texto en hasta diez imágenes por solicitud en siete relaciones de aspecto, desde un formato cuadrado de 1024 píxeles hasta 1376 píxeles en el lado largo. Optimizada para baja latencia, usa de forma predeterminada ocho pasos de inferencia e incluye un Prompt Enhancer integrado que amplía los prompts escuetos antes de la generación. Úsala cuando la iteración rápida, las vistas previas en tiempo real y las ejecuciones por lotes de gran volumen importen más que exprimir el último incremento de calidad.

Modalidad

Descripción

ERNIE Image API (Text To Image)

Mientras que el endpoint Turbo prioriza el rendimiento, la ERNIE Image API estándar se orienta a la máxima fidelidad de salida en la misma tarea de texto a imagen. Es adecuada para trabajos finales de producción, como pósteres, gráficos editoriales y diseños comerciales, donde conseguir cada detalle correcto pesa más que el tiempo de entrega.

ERNIE Image Turbo API (Text To Image)

Convierte un único prompt de texto en hasta diez imágenes por solicitud en siete relaciones de aspecto, desde un formato cuadrado de 1024 píxeles hasta 1376 píxeles en el lado largo. Optimizada para baja latencia, usa de forma predeterminada ocho pasos de inferencia e incluye un Prompt Enhancer integrado que amplía los prompts escuetos antes de la generación. Úsala cuando la iteración rápida, las vistas previas en tiempo real y las ejecuciones por lotes de gran volumen importen más que exprimir el último incremento de calidad.

Creada para texto, composición y control: la ERNIE Image API

Desde renderizado de texto líder en la industria y diseños estructurados de varios paneles hasta prompting bilingüe nativo, un mejorador de prompts activado por defecto, siete dimensiones de salida y lotes Turbo reproducibles, la ERNIE Image API convierte instrucciones precisas en imágenes listas para producción.

Renderizado de texto legible con la ERNIE Image API

Una puntuación líder en LongTextBench de 0.9733 permite al modelo renderizar texto legible y correctamente escrito directamente en las imágenes generadas. Los bocadillos de cómic, titulares de pósteres, etiquetas de infografías y textos de maquetas de UI se mantienen nítidos y fáciles de leer.

Diseños estructurados de varios paneles

Las primitivas de generación, edición, composición y escalado trabajan junto con la comprensión de relaciones espaciales basadas en cuadrículas. En conjunto, producen secuencias coherentes de varios paneles y diseños con formato que los diseñadores pueden dirigir desde un único pipeline centralizado.

Prompting bilingüe en la ERNIE Image API

Los prompts en inglés y chino se procesan de forma nativa mediante el mismo pipeline de encoder, capturando formulaciones idiomáticas en cualquiera de los dos idiomas. Esta doble fluidez permite una narrativa visual auténtica tanto para campañas globales como para contenido localizado.

Prompt Enhancer activado por defecto

Activado por defecto, un Prompt Enhancer ligero reescribe entradas breves y las convierte en descripciones más ricas y estructuradas antes de que lleguen al backbone de difusión. Desactívalo por solicitud cuando el control literal sobre la redacción exacta sea más importante.

Siete dimensiones de salida nativas

Siete tamaños de salida nativos abarcan desde un formato cuadrado de 1024x1024 y encuadres horizontales de hasta 1376x768 hasta formatos verticales de 768x1376. Cada relación de aspecto se genera directamente, por lo que el encuadre se mantiene intacto en todos los formatos.

La ERNIE Image API en modo Turbo

¿Necesitas volumen sin esperas? El modo Turbo ejecuta tan solo 8 pasos de inferencia y devuelve hasta 10 imágenes por solicitud, mientras que una seed explícita mantiene cada resultado reproducible.

ERNIE Image cara a cara: un prompt, tres modelos

Envía exactamente el mismo encargo al modelo insignia ERNIE Image, a un rival popular y a su hermano más rápido; luego compara cómo cada uno representa tipografía, composición y luz lado a lado.

Prompt

Bodegón flat lay cenital, cámara fijada perfectamente desde arriba mirando en línea recta hacia un mostrador de botica de olmo pálido desgastado, propio de una dispensaría tradicional china de infusiones herbales. Una luz dura y direccional de ventana de finales de la mañana entra rasante desde la derecha, la verdadera protagonista del encuadre: proyecta sombras largas, nítidas y alargadas que se extienden hacia la izquierda sobre la veta de la madera en bruto y funcionan como líneas guía. En el lado derecho, denso, frascos de vidrio transparente muy agrupados resplandecen cuando el sol los atraviesa: capullos translúcidos de crisantemo seco, bayas rojas de goji, cáscara de mandarina ámbar rizada (chenpi) y pétalos secos de roselle rojo carmesí intenso atrapando la luz. Una pequeña balanza manual de latón oxidado con pátina mate, un mortero y mano de piedra desgastados espolvoreados con polvo fino, y hojas de receta de papel escrito a mano de fibra gruesa con caracteres chinos de caligrafía a pincel pulcra en kaishu tradicional ("甘草三钱", "桂花蜜"), con bordes deshilachados y fibrosos. Momento capturado en plena acción: un bote de peltre volcado de lado, con la boca abierta, varias bayas de goji aún rodando y dispersándose hacia fuera, cada una proyectando su propia sombra fina y alargada como una aguja. La composición respira mediante densidad y vacío: el grupo compacto de la derecha se equilibra con una amplia extensión de espacio negativo de madera desnuda a la izquierda. Paleta cálida monocromática en toda la imagen —ámbar, naranja mandarina, dorado de latón envejecido— interrumpida por una única nota de rojo roselle oscuro. Las texturas deben resistir la ampliación: la fragilidad delgada de los pétalos secos, el latón oxidado mate, los bordes irregulares de la fibra del papel, el grano del polvo suelto. Luz natural direccional, sin resplandor artificial, sombras limpias y nítidas, representación realista de los materiales, sobria y elegante, fotografía de bodegón macrodetallada de alimentos y hierbas, tomada con un lente de 85mm, encuadre horizontal panorámico amplio, relación de aspecto 16:9 amplia, a sangre.

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Prompt

Una tira de manga horizontal de tres viñetas que sigue a una adolescente inventora en su abarrotado taller del ático. En la primera viñeta dibuja el boceto de una pequeña máquina voladora bajo la luz cálida de una lámpara; en la segunda, el artilugio chisporrotea y despega en el aire esparciendo tornillos; en la tercera, levanta ambos puños sonriendo triunfante. Globos de diálogo bilingües limpios incluyen letras nítidas en English y Japanese, dibujados con trazo de tinta seguro y sombreado de trama, con un resplandor ámbar cálido de lámpara equilibrado con sombras frías del taller. El diseño del personaje se mantiene coherente en las tres viñetas, los gestos siguen siendo expresivos y la historia se lee de izquierda a derecha con un flujo secuencial claro. Estilo de ilustración anime vibrante con cel shading y contornos limpios y marcados. Relación de aspecto 16:9 amplia, a sangre.

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Trabajo de producción real que gestiona ERNIE Image API

Desde pósteres con texto impecable y cómics de varias viñetas hasta campañas bilingües, catálogos de productos, mockups de interfaces e infografías etiquetadas, ERNIE Image API convierte prompts precisos en imágenes con diseño exacto para cualquier pipeline de contenido.

Producción de marketing y pósteres con ERNIE Image API

Los titulares legibles, los precios y los textos de producto se renderizan directamente en pósteres y banners de campaña gracias a la precisión líder del modelo con el texto. Los equipos de marketing entregan recursos listos para impresión directamente, sin necesidad de un paso separado de maquetación tipográfica.

Cómics y narrativa secuencial

Como el modelo entiende el diseño basado en cuadrículas y la estructura de varias viñetas, renderiza páginas de cómic coherentes con diálogos dentro de bocadillos. Creadores independientes y estudios preparan storyboards completos sin redibujar cada fotograma a mano.

Localización de campañas bilingües con ERNIE Image API

La compatibilidad nativa con prompts en inglés y chino permite que un único flujo de trabajo produzca imágenes alineadas con la marca para ambos mercados, con el texto renderizado correctamente en cada sistema de escritura. Los equipos globales localizan piezas creativas sin contratar pipelines de diseño separados por idioma.

Visuales de productos de e-commerce a escala

Genera escenas de estilo de vida, mockups de productos e imágenes promocionales para todo un catálogo mediante una sola llamada a la API. La variante Turbo comprime la inferencia a ocho pasos, de modo que las tiendas de gran volumen pueden actualizar catálogos completos en minutos.

Mockups de interfaces y productos

¿Necesitas pantallas realistas para una presentación? El modelo renderiza interfaces de apps y mockups de sitios web con etiquetas, botones y textos de cuerpo legibles, lo que da a los equipos de producto prototipos listos para presentar antes de construir un solo componente.

Infografías educativas con ERNIE Image API

Su sólida capacidad para seguir instrucciones combina imágenes con diagramas, gráficos y llamadas claramente etiquetados en una sola generación. Educadores y analistas convierten material fuente denso en gráficos explicativos que siguen siendo legibles en cualquier tamaño de pantalla.

ERNIE Image comparado con modelos rivales de texto a imagen

Descubre dónde se sitúa ERNIE Image frente a otros generadores abiertos y propietarios en cuanto a origen del desarrollador, modelo de acceso, renderizado de texto bilingüe y coste por imagen.

Modelo	Desarrollador	Modelo de acceso	Renderizado de texto bilingüe (EN + ZH)	Precio (por imagen)
ERNIE-Image	Baidu (equipo de ERNIE-Image)	Pesos abiertos, Apache 2.0	Líder del sector, LongTextBench 0.9733	Pago por uso
ERNIE-Image Turbo	Baidu (equipo de ERNIE-Image)	Pesos abiertos, Apache 2.0	Conservado mediante inferencia de 8 pasos destilada con DMD	Pago por uso
Qwen Image 2.0	Alibaba (Tongyi)	Pesos abiertos, Apache 2.0	Sólido en composiciones tipográficas de 1K tokens	$0.035
Z-Image Turbo	Alibaba (Tongyi Lab)	Pesos abiertos, Apache 2.0	Gestiona señalética china compleja junto con inglés	$0.005
Seedream v4.5	ByteDance	Propietario	Renderizado de nivel diseñador en 4K nativo	$0.04

Cómo usar ERNIE Image API for Readable Text in Images en Atlas Cloud

Empieza en minutos — sigue estos sencillos pasos para integrar y desplegar modelos a través de la plataforma de Atlas Cloud.

Crea una cuenta en Atlas Cloud

Regístrate en atlascloud.ai y completa la verificación. Los nuevos usuarios reciben créditos gratuitos para explorar la plataforma y probar modelos.

Por Qué Usar ERNIE Image API for Readable Text in Images en Atlas Cloud

Combina modelos avanzados de ERNIE Image API for Readable Text in Images con la plataforma acelerada por GPU de Atlas Cloud, proporcionando rendimiento, escalabilidad y experiencia de desarrollo incomparables.

Rendimiento y Flexibilidad

Baja Latencia:
Inferencia optimizada por GPU para respuestas en tiempo real.

API Unificada:
Una sola integración para acceder a ERNIE Image API for Readable Text in Images, GPT, Gemini y DeepSeek.

Precios Transparentes:
Facturación por Token, soporta modo Serverless.

Empresa y Escala

Experiencia del Desarrollador:
SDK, análisis de datos, herramientas de ajuste fino y plantillas todo en uno.

Confiabilidad:
99.99% de disponibilidad, control de permisos RBAC, registros de cumplimiento.

Seguridad y Cumplimiento:
Certificación SOC 2 Type II, cumplimiento HIPAA, soberanía de datos en EE.UU.

ERNIE Image API: las preguntas más frecuentes de los desarrolladores

ERNIE Image API ofrece a los desarrolladores acceso programático al modelo de texto a imagen de pesos abiertos de Baidu, un Diffusion Transformer de flujo único de 8B combinado con un Prompt Enhancer que amplía prompts breves para convertirlos en descripciones más ricas y estructuradas. En Atlas Cloud se accede a él mediante un único endpoint compatible con OpenAI, con precios de pago por uso y acceso Day-0.

Su gran punto fuerte es el texto legible dentro de las imágenes. El modelo obtiene 0.9733 en LongTextBench en inglés, el mejor resultado entre los modelos de pesos abiertos, lo que lo hace fiable para carteles, bocadillos de cómic, infografías y mockups de UI en los que cada carácter debe estar escrito correctamente.

Ambas variantes comparten la misma arquitectura de 8B, pero equilibran calidad y velocidad de forma distinta. El modelo Standard ejecuta 50 pasos de inferencia con guidance scale 4.0 para lograr la máxima fidelidad en recursos finales, mientras que la variante Turbo se destila con DMD y aprendizaje por refuerzo hasta aproximadamente 8 pasos para una generación rápida y de alto volumen.

Sí. Los prompts son compatibles con inglés, chino y japonés mediante el mismo encoder, y el texto se mantiene fiable en distintos sistemas de escritura, con una puntuación de 0.9661 en Chinese LongTextBench. Mientras varios modelos competidores se degradan de forma notable con los caracteres chinos, este mantiene limpio el texto en chino simplificado, tradicional y en copias bilingües mixtas.

El endpoint Turbo acepta siete tamaños predefinidos mediante un único parámetro size, desde un formato cuadrado de 1024x1024 hasta formatos horizontales de 1376x768 y verticales de 768x1376. También puedes solicitar hasta diez imágenes por llamada, fijar una seed para obtener resultados reproducibles y activar o desactivar el Prompt Enhancer integrado con el flag use_pe.

Para empezar solo necesitas una API key. Regístrate en Atlas Cloud, apunta tu cliente compatible con OpenAI existente al endpoint y envía un prompt con un size y una seed opcionales para recibir las URL de las imágenes en la respuesta. La facturación es de pago por uso por llamada, con acceso Day-0 al modelo.

En benchmarks publicados, el modelo supera a lanzamientos abiertos comparables como FLUX.2-klein-9B, con una puntuación global de 0.8856 frente a 0.8481 en GenEval. Su mayor ventaja está en el renderizado de texto: FLUX.2 cae hasta 0.2183 en chino, mientras que ERNIE Image se mantiene por encima de 0.96. Para cargas de trabajo centradas en texto legible dentro de imágenes y layouts estructurados, actualmente es la opción de pesos abiertos más sólida.

Sí. ERNIE Image se publica bajo la licencia Apache 2.0, que permite uso comercial, modificación y redistribución. Las imágenes generadas pueden utilizarse en publicidad, merchandising, publicaciones y otros productos comerciales sin problemas de licencia.

Explorar Más Series

Seedance 2.0

La API de Seedance 2.0 le ofrece acceso de producción al modelo de video multimodal de ByteDance: entradas cuatrimodales (texto, imagen, video, audio) y un sistema "Universal Reference" líder en la industria que bloquea la composición, el movimiento de la cámara y las acciones de los personajes en diferentes tomas. Integre un control de nivel de director con una sola llamada a la API, una tarifa fija de $0.09/s, clave instantánea y sin lista de espera, todo respaldado por un tiempo de actividad y cumplimiento de nivel empresarial. ¡Seedance 2.0 Native 4K ya está disponible!

Ver Serie

Grok Imagine

La Grok Imagine API ofrece a los desarrolladores la generación de imágenes, video y audio de xAI en una sola suite. Produce imágenes de hasta 2K con renderizado de texto multilingüe, además de videos de hasta 15 segundos con audio nativo y sincronizado, y edición basada en referencias. En Atlas Cloud, una sola clave ejecuta cada modo de Grok Imagine, por lo que puede alternar entre imagen, video y audio sin configuraciones separadas, desde $0.02 por imagen y $0.05 por segundo.

Ver Serie

Gemini Omni Flash

La Gemini Omni API lleva a tu stack el modelo multimodal de generación y edición de vídeo de Google DeepMind, presentado en Google I/O 2026. Gemini Omni fusiona el motor de razonamiento de Gemini con los medios generativos y acepta cualquier combinación de texto, imágenes, vídeo y audio para producir resultados coherentes y fundamentados en conocimiento. Refina los resultados mediante conversación natural: sustituye objetos, reescribe escenas y cambia de estilo mientras la física, los personajes y la continuidad permanecen intactos. Atlas Cloud ofrece toda la gama Gemini Omni Flash —texto a vídeo, imagen a vídeo con hasta 7 imágenes de referencia y referencia a vídeo— a través de una única API unificada, con precios transparentes por segundo desde $0.112 y sin suscripción. Empieza a construir hoy mismo.

Ver Serie

GPT Image 2

La API de GPT Image 2 ofrece a los desarrolladores acceso al último modelo de imágenes de OpenAI, el sucesor de GPT Image 1.5. Genera y edita imágenes con una representación de texto precisa en caracteres latinos y CJK, además de una sólida composición para carteles, maquetas e infografías. En Atlas Cloud, puede acceder a ella a través de una API unificada junto con más de 300 modelos, con créditos gratuitos, un tiempo de actividad del 99,99% y sin necesidad de verificación de organización de OpenAI.

Ver Serie

Google

Los modelos creativos más potentes de Google están todos disponibles en Atlas Cloud. Veo 3.1 ofrece generación de video cinematográfico, Nano Banana 2 impulsa la creación de imágenes de alta fidelidad y Gemini aporta inteligencia multimodal a cada flujo de trabajo. Acceda a la suite completa de modelos de Google a través de una sola API key con disponibilidad Day-0 y precios de pago por uso (pay-as-you-go).

Ver Serie

Seedance 2.0 Mini

Seedance 2.0 Mini lleva la generación de video multimodal de ByteDance a los flujos de trabajo donde la velocidad y el costo son más importantes. Ofrece las capacidades principales de Seedance 2.0 con un menor consumo de recursos: generación más rápida, menor costo por video y la misma integración de API que ya utiliza. Para los equipos que ejecutan pipelines de alto volumen o crean prototipos a escala, Mini es la opción predeterminada práctica.

Ver Serie

ByteDance

Desde la generación de video cinematográfico hasta la creación de imágenes de alta fidelidad, los modelos más potentes de ByteDance están disponibles en Atlas Cloud. Ejecute Seedance y Seedream a gran escala con los precios de inferencia más bajos y cero gastos generales de infraestructura.

Ver Serie

Alibaba

Atlas Cloud reúne toda la línea de modelos de Alibaba bajo una sola API: Qwen para tareas de lenguaje e imagen, y Wan para la generación de video hasta 1080p. Acceda a cada modelo con pago por uso sin suscripciones. La API de Alibaba está disponible a través de una única URL base utilizando su cliente compatible con OpenAI existente.

Ver Serie

OpenAI

Atlas Cloud le ofrece acceso a la línea completa de la API de OpenAI, desde GPT Image 2 para la generación de imágenes hasta Sora 2 para video. Cada modelo está disponible bajo la modalidad de pago por uso sin compromiso mensual. Intégrelo cambiando simplemente la URL base mediante la API compatible con OpenAI.

Ver Serie

xAI

Construya pipelines completos de imágenes y video utilizando la xAI API en Atlas Cloud. Genere en 2K, edite con imágenes de referencia y anime imágenes en clips sincronizados con audio.

Ver Serie

Kwaivgi

La API de Kwaivgi a un 15% por debajo del precio estándar. Atlas Cloud ofrece acceso Day-0 a los nuevos lanzamientos de Kling con precios de pago por uso y sin límites de puestos. Una cuenta, una clave, todos los modelos de Kling desde el nivel estándar hasta el nivel maestro.

Ver Serie

Seedream 5.0 Pro

La API de Seedream 5.0 Pro ofrece a los desarrolladores el modelo de edición de imágenes controlable de ByteDance en Atlas Cloud. Sitúa las ediciones con precisión mediante anclajes y coordenadas, separa las imágenes en capas editables, fusiona múltiples referencias y empareja colores y materiales exactos, con texto multilingüe a 2K y 3K. ¡En Atlas Cloud puede acceder a él mediante una sola clave!

Ver Serie

Una sola API para toda la IA multimedia.

Explorar Todos los Modelos

ERNIE Image API for Readable Text in Images

Explorar Modelos Líderes

Baidu ERNIE Image Turbo Text-to-image

Comparativa de endpoints de ERNIE Image API: Standard y Turbo Text-to-Image

Creada para texto, composición y control: la ERNIE Image API

Renderizado de texto legible con la ERNIE Image API

Diseños estructurados de varios paneles

Prompting bilingüe en la ERNIE Image API

Prompt Enhancer activado por defecto

Siete dimensiones de salida nativas

La ERNIE Image API en modo Turbo

ERNIE Image cara a cara: un prompt, tres modelos

Trabajo de producción real que gestiona ERNIE Image API

Producción de marketing y pósteres con ERNIE Image API

Cómics y narrativa secuencial

Localización de campañas bilingües con ERNIE Image API

Visuales de productos de e-commerce a escala

Mockups de interfaces y productos

Infografías educativas con ERNIE Image API

ERNIE Image comparado con modelos rivales de texto a imagen

Cómo usar ERNIE Image API for Readable Text in Images en Atlas Cloud

Crea una cuenta en Atlas Cloud

Por Qué Usar ERNIE Image API for Readable Text in Images en Atlas Cloud

Rendimiento y Flexibilidad

Empresa y Escala

ERNIE Image API: las preguntas más frecuentes de los desarrolladores

Explorar Más Series

Seedance 2.0

Grok Imagine

Gemini Omni Flash

GPT Image 2

Google

Seedance 2.0 Mini

ByteDance

Alibaba

OpenAI

xAI

Kwaivgi

Seedream 5.0 Pro

Una sola API para toda la IA multimedia.

Join our Discord community