Nano Banana 2 Reference-to-Image Developer API by Google
google/nano-banana-2/reference-to-image-developer
Reference-to-image-developer
Google's advanced AI-powered video-to-image generation model, designed to generate high-quality static images from video clips combined with text instructions.
Nano Banana 2 — Chất lượng Pro, Tốc độ Flash
V2
Còn được gọi là Gemini 3.1 Flash Image
Mô hình hình ảnh mới nhất của Google DeepMind kết hợp khả năng tiên tiến của Nano Banana Pro với tốc độ của Gemini Flash — tạo ảnh nhanh hơn 3-5 lần, độ phân giải lên đến 4K và tính nhất quán nhân vật cho tối đa 5 nhân vật trong một quy trình.
Tạo Hình Ảnh Thế Hệ Mới
Đầu ra độ phân giải lên đến 4K (cấp 512px / 1K / 2K / 4K)
10+ tỷ lệ khung hình bao gồm 21:9, 1:4, 8:1 và nhiều hơn nữa
Hiển thị văn bản chính xác và dễ đọc trong hình ảnh
Chất lượng gần Pro (~95%) ở tốc độ Flash
Chỉnh Sửa Thông Minh & Tính Nhất Quán
Tính nhất quán nhân vật cho tối đa 5 nhân vật xuyên suốt các cảnh
Độ chính xác đối tượng cho tối đa 14 đối tượng trong một quy trình
Chỉnh sửa có mục tiêu bằng ngôn ngữ tự nhiên (xóa, thay thế, đổi tư thế)
Kết hợp đa hình ảnh và bố cục liền mạch
Có Gì Mới Trong Nano Banana 2
Nhanh Hơn Pro 3-5 Lần
Được xây dựng trên kiến trúc Gemini 3.1 Flash, Nano Banana 2 tạo hình ảnh tiêu chuẩn trong 4-8 giây — so với 10-20 giây của Nano Banana Pro.
Tìm Kiếm Hình Ảnh Tham Chiếu
Tính năng nổi bật của NB2 — có thể truy xuất hình ảnh tham chiếu thực tế qua Google Search trong quá trình tạo ảnh, cải thiện đáng kể độ chính xác cho các địa danh, người nổi tiếng và logo thương hiệu.
Hiển Thị Văn Bản Chính Xác
Tạo văn bản chính xác, dễ đọc cho mockup tiếp thị, thiệp chúc mừng và nội dung bản địa hóa. Bạn thậm chí có thể dịch và bản địa hóa văn bản ngay trong hình ảnh.
Nhất Quán Đa Nhân Vật
Duy trì tính nhất quán hình ảnh cho tối đa 5 nhân vật và 14 đối tượng xuyên suốt các cảnh — hoàn hảo cho storyboard, truyện tranh và chiến dịch tiếp thị.
Prompt Examples & Templates
Explore curated prompt templates showcasing Nano Banana 2's key capabilities — text rendering, character consistency, search grounding, and 4K output.
Text Rendering
Marketing Mockup with Text
Generate marketing visuals with accurate, legible text — one of NB2's standout improvements
Prompt
A minimalist coffee shop promotional poster with the text 'MORNING BREW — Fresh Roasted Daily' in elegant serif font, warm earth tones, steam rising from a ceramic cup, clean layout with plenty of whitespace
Character Consistency
Multi-Scene Character
Maintain character consistency across multiple scenes — supports up to 5 characters per workflow
Prompt
A young woman with short red hair and freckles, wearing a green jacket, standing in a rainy Tokyo street at night with neon reflections on wet pavement, cinematic lighting, photorealistic
Photo to Action Figure
Person to Action Figure
Transform people from photos into collectible action figures with custom packaging
Prompt
Transform the person in the photo into an action figure, styled after [CHARACTER_NAME] from [SOURCE / CONTEXT]. Next to the figure, display the accessories including [ITEM_1], [ITEM_2], and [ITEM_3]. On the top of the toy box, write "[BOX_LABEL_TOP]", and underneath it, "[BOX_LABEL_BOTTOM]". Place the box in a [BACKGROUND_SETTING] environment.
Search Grounding
Real-World Reference Generation
Leverage Image Search Grounding to generate accurate real-world subjects like landmarks and brands
Prompt
A photorealistic aerial view of the Eiffel Tower at golden hour, with the Seine River winding through Paris below, warm sunset light casting long shadows, high detail, 4K resolution
Product Photography
Product Design Render
Create professional product photography with precise control over lighting and composition
Prompt
A frosted glass perfume bottle with a marble cap on a white marble surface, soft studio lighting from the left, subtle reflections, minimalist luxury aesthetic, product photography style
Style Transfer
Artistic Style Transformation
Apply diverse artistic styles while maintaining subject integrity
Prompt
Transform this photo into Studio Ghibli animation style, keeping the same composition and subjects, lush watercolor backgrounds, soft diffused lighting, whimsical atmosphere
4K Output
Ultra High Resolution Scene
Generate detailed scenes at up to 4K resolution with rich textures
Prompt
A cozy Japanese ramen shop interior at night, steam rising from bowls, warm amber lighting, detailed wooden counter with various condiments, a chef working in the background, 4K, ultra detailed
Trường Hợp Sử Dụng
🎬
Storyboard & Truyện Tranh
📸
Chụp Ảnh Sản Phẩm
📊
Mockup Tiếp Thị
📱
Nội Dung Mạng Xã Hội
🔤
Thiết Kế Chữ Phủ
👤
Thiết Kế Nhân Vật
✨
Chỉnh Sửa & Retouch Ảnh
🎨
Nội Dung Hình Ảnh Thương Hiệu
Tại Sao Chọn Nano Banana 2?
⚡
Tốc Độ Flash
Nhanh hơn Nano Banana Pro 3-5 lần với thời gian tạo ảnh tiêu chuẩn 4-8 giây
🎯
Chất Lượng Gần Pro
Đạt khoảng 95% chất lượng hình ảnh của Pro trong hầu hết các tình huống
💰
Tiết Kiệm Chi Phí
Chi phí chỉ bằng khoảng một nửa Nano Banana Pro — giúp tạo hình ảnh AI chất lượng cao trở nên dễ tiếp cận hơn
Thông Số Kỹ Thuật
Kiến trúc:Gemini 3.1 Flash (GEMPIX2)
Hỗ trợ Độ phân giải:512px đến 4K (cấp 512px / 1K / 2K / 4K)
Tỷ lệ Khung hình:1:1, 4:3, 3:4, 2:3, 3:2, 16:9, 9:16, 1:4, 4:1, 8:1, 21:9
Tính nhất quán:Tối đa 5 nhân vật + 14 đối tượng mỗi quy trình
An toàn Nội dung:Hình mờ SynthID, tương thích tiêu chuẩn C2PA
Truy cập API:Gemini API, Vertex AI, AI Studio, Gemini CLI
Trải Nghiệm Nano Banana 2
Tạo hình ảnh cấp Pro ở tốc độ Flash — tạo hình ảnh ấn tượng với tính nhất quán nhân vật, hiển thị văn bản và hỗ trợ độ phân giải 4K.
✨Tín Dụng Miễn Phí Để Bắt Đầu
⚡Truy Cập API Ngay Lập Tức
🌐Không Cần Cài Đặt
Google Nano Banana 2 Reference to Image Developer
Nano Banana 2 Reference to Image Developer (Gemini 3.1 Flash Image) is Google's advanced AI-powered video-to-image generation model, designed to generate high-quality static images from video clips combined with text instructions. Built on the same cutting-edge model as Nano Banana 2 Edit, it adds the ability to use video content as a rich reference source — extracting visual context, themes, and key frames to synthesize new images with precision and semantic awareness.
This is the developer-tier variant of Nano Banana 2 Reference to Image, offering a streamlined parameter set. It is ideal for API integrations and workflows where output format flexibility and per-frame media resolution control are not required.
Why Choose This?
Video as reference — Provide a video clip (HTTP URL or YouTube URL) and let the model extract its visual context to guide image generation.
Multi-image reference — Optionally upload up to 10 additional reference images to complement the video input for complex compositions.
Natural language control — Describe exactly what you want with a text prompt; the model understands context, themes, and relationships from both the video and text.
Thinking levels — Choose how much internal reasoning the model applies — higher thinking levels improve quality on complex tasks.
Web search grounding — Optionally enable real-time web search to enrich generation with current information.
Multi-resolution output — Generate at 1K, 2K, or 4K resolution.
Flexible aspect ratios — Multiple options including 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, and 21:9.
How It Works
The model analyzes your video clip by sampling frames at the specified FPS rate, then interprets the visual content within its multimodal context window. Combined with your text prompt and any additional reference images, it synthesizes a new image grounded in the video's themes, style, and key visual elements. This makes it especially powerful for creating content that is visually consistent with existing video assets.
Parameters
Core Inputs
Parameter
Required
Description
prompt
Yes
Text description of the desired output image
video_clips
Yes
Source video clip(s) for reference generation (max: 1, see below)
Reasoning depth: default, high, minimal. Higher levels improve quality on complex tasks but increase latency.
enable_web_search
No
If enabled, grounds generation with real-time web information.
How to Use
Provide a video clip — enter the video URL (HTTP or YouTube) and set start/end times and FPS sampling rate.
Write your prompt — describe the output image clearly (e.g., "Create a cinematic poster based on the key scenes in this video").
Add reference images (optional) — upload additional images to guide composition or style.
Choose aspect ratio (optional) — select a preset or leave empty for default.
Select resolution — choose 1K, 2K, or 4K based on your quality needs.
Adjust advanced settings (optional) — set thinking level or enable web search grounding.
Run — submit and download your generated image.
Pricing
The total cost is determined by the output image resolution multiplied by the number of output images, plus optional per-request fees for video clip input and web search grounding.
The video clip fee (0.07)andwebsearchfee(0.014) are each charged once per request when the respective feature is enabled, regardless of content volume.
Best Use Cases
Video Thumbnail Generation — Automatically create compelling thumbnails that reflect the video's content and mood.
Promotional Posters — Generate movie-style or campaign posters grounded in actual video footage.
Scene Summarization Art — Create visual summaries or highlight artwork from long-form video content.
Brand Content Creation — Produce consistent image assets from brand video campaigns.
Educational Infographics — Transform instructional videos into static visual materials.
Social Media Assets — Generate platform-optimized images (vertical, square, landscape) from video content.
Pro Tips
Use low FPS (0.5–1) for long videos to keep token usage within limits while still capturing key frames.
Set precise start/end times to focus the model on the most relevant segment of your video.
Combine specific text prompts with the video input — vague prompts may produce generic results.
Add reference images alongside the video to guide composition style more precisely.
Use thinking_level: high for complex scene interpretations or when visual fidelity matters most.
YouTube URLs are supported directly — no need to download and re-upload public videos.
2K offers excellent quality at a reasonable price — only $0.04 more than 1K per image.
If you need output_format (PNG/JPEG) or media_resolution control, use the standard Reference to Image model instead.
Notes
Both prompt and video_clips are required fields.
Maximum video clips: 1 per request.
HTTP video URLs are limited to 15MB; use YouTube URLs for larger videos.
Maximum additional reference images: 10.
FPS range: 0–24. Higher FPS captures more frames but consumes more tokens.
The video clip fee ($0.07) is a flat per-request charge, not per frame or per second.
Output format is not configurable in this variant; use the standard model if PNG/JPEG selection is required.
Ensure your content and prompts comply with Google's Safety Guidelines.
Atlas Cloud Skills tích hợp hơn 300 mô hình AI trực tiếp vào trợ lý lập trình AI của bạn. Một lệnh để cài đặt, sau đó sử dụng ngôn ngữ tự nhiên để tạo hình ảnh, video và trò chuyện với LLM.
Ứng dụng được hỗ trợ
Claude Code
OpenAI Codex
Gemini CLI
Cursor
Windsurf
VS Code
Trae
GitHub Copilot
Cline
Roo Code
Amp
Goose
Replit
40+ ứng dụng được hỗ trợ
Cài đặt
bash
npx skills add AtlasCloudAI/atlas-cloud-skills
Thiết lập khóa API
Lấy khóa API từ bảng điều khiển Atlas Cloud và đặt nó làm biến môi trường.
bash
exportATLASCLOUD_API_KEY="your-api-key-here"
Khả năng
Sau khi cài đặt, bạn có thể sử dụng ngôn ngữ tự nhiên trong trợ lý AI để truy cập tất cả các mô hình Atlas Cloud.
Tạo hình ảnhTạo hình ảnh với các mô hình như Nano Banana 2, Z-Image và nhiều hơn nữa.
Tạo videoTạo video từ văn bản hoặc hình ảnh với Kling, Vidu, Veo, v.v.
Trò chuyện LLMTrò chuyện với Qwen, DeepSeek và các mô hình ngôn ngữ lớn khác.
Tải lên phương tiệnTải tệp cục bộ lên để chỉnh sửa hình ảnh và quy trình chuyển hình ảnh sang video.