
MiniMax M3 ist da, hier die Kurzfassung: Verwenden Sie es, wenn Sie ein Modell mit offenen Gewichten benötigen, das Bilder und Videos nativ verarbeitet, kostengünstig eine Million Token Kontext vorhält und lange Coding- und Agenten-Schleifen ohne Reset durchläuft. Das ist der Hauptanwendungsfall. Wenn Sie Agenten haben, die autonom arbeiten sollen, während Sie schlafen, empfehlen wir einen Test! M3 ist jetzt auf Atlas Cloud verfügbar.
Auch wenn Sie keine langlebigen Agenten nutzen, ist M3 wegen der Richtung, die MiniMax eingeschlagen hat, einen Blick wert. Sie halten 1 Mio. Token Kontext durch eine Sparse-Attention-Architektur (MiniMax Sparse Attention, oder MSA) bezahlbar, die die Rechenleistung pro Token bei vollem Kontext auf etwa 1/20 der vorherigen Generation reduziert – und das durch den kostengünstigsten Pfad auf der heutigen Serving-Infrastruktur, nicht durch den exotischsten. Wir erwarten, dass dies der Standard für jeden großen Anbieter wird: günstiger langer Kontext durch sparse oder komprimierte Attention. Das macht ein 1-Mio.-Token-Fenster von einem Alleinstellungsmerkmal zum Mindeststandard und verlagert den eigentlichen Wettbewerb eine Ebene höher – auf die Frage, wie gut Sie Anfragen zwischen Modellen routen, anstatt auf ein einzelnes Modell zu setzen.
MiniMax hat M3 am 1. Juni 2026 angekündigt. Die API ist jetzt verfügbar, und das Unternehmen gibt an, den technischen Bericht sowie die Gewichte innerhalb von etwa 10 Tagen nach der Ankündigung zu veröffentlichen.
Falls Sie derzeit ein anderes Frontier-Modell verwenden
M3 ist einen Test wert, wenn der Job einen größeren Arbeitsbereich, visuellen Kontext oder eine längere Agenten-Schleife erfordert, als Ihr aktuelles Standardmodell gut bewältigt. Die entscheidende Spalte ist die letzte: Was fügt M3 dem spezifischen Modell hinzu, das Sie bereits nutzen?
| Aktuelles Modell | Für diese Aufgabe | Was M3 zusätzlich bietet |
|---|---|---|
| GPT-5.5 oder GPT-5.5 Pro | Agentisches Programmieren, Computer-Nutzung, Forschung, Datenanalyse und Wissensautomatisierung | Nativer Video-Input und ein angekündigter Pfad zu offenen Gewichten – ein zweiter Agenten-Pfad mit einer anderen Kostenkurve, den Sie später selbst hosten können. (GPT-5.5 hat bereits Bilderkennung, testen Sie also Video und Wirtschaftlichkeit, nicht den Bild-Support.) |
| Claude Opus 4.8 | Langlebige Coding-Agenten, retrieval-intensive Wissensarbeit und Tool-Nutzung | Eine kostengünstigere Alternative mit offenen Gewichten für A/B-Tests bei Repo-übergreifendem Coding und Kosten pro abgeschlossener Aufgabe. Opus 4.8 bietet bereits 1 Mio. Kontext und Vision, der echte Test liegt also bei Preis, Video-Input und Aufgaben-Ökonomie – nicht bei der Fenstergröße. |
| Qwen3.7-Plus (multimodal) | Vision- und GUI-Agenten, Screenshot-zu-Code, Browser- und Desktop-Automatisierung | Vergleichbare Multimodalität mit stärkerer Coding-/Agenten-Positionierung und einem Pfad zu offenen Gewichten. (Qwen3.7-Plus ist proprietär, nur via API.) |
| Qwen3.7-Max (Text-Flaggschiff) | Text-Reasoning, Agenten mit langem Horizont, Büroautomatisierung | Nativer Bild- und Video-Input im selben Kontext. Qwen3.7-Max ist rein textbasiert – für Vision müssten Sie sonst auf Plus ausweichen. |
| DeepSeek-V4-Pro oder DeepSeek-V4-Flash | Kostenbewusstes Reasoning, Coding, Tool-Calls und API-Workloads mit langem Kontext | Native Multimodalität (Bild und Video) zusätzlich zum langen Kontext. DeepSeek-V4 ist rein textbasiert; M3 ist die multimodale Alternative, wenn ein Workload visuelle Signale enthält. |
Der Praxistest ist einfach. Probieren Sie M3 aus, wenn Sie versuchen:
- Repository, Aufgabenhistorie, Logs und aktuellen Plan in einem Arbeitskontext zu halten.
- einen Agenten nach Dutzenden von Tool-Calls weiterarbeiten zu lassen, statt die Konversation zurückzusetzen.
- über Code, Text, Screenshots, Diagramme, PDFs und Videoframes in einem Durchgang zu schließen.
- Übergaben zwischen Text-Modell, Vision-Modell und separater Retrieval-Ebene zu reduzieren.
- den Kostenaufwand pro abgeschlossener Aufgabe zu vergleichen, nicht nur den Preis pro Million Token.
Wechseln Sie nicht, weil eine Launch-Grafik gut aussieht. Wechseln Sie, wenn M3 eine Aufgabe abschließt, die Ihr aktuelles Routing-System verwirft, kürzt, überbezahlt oder auf zu viele Modelle aufteilt.
Wo M3 hilft
Agenten mit Raum zum Arbeiten. Die Launch-Beispiele von MiniMax gehen über das übliche Chat-Demo-Muster hinaus. In einem Test reproduzierte M3 die Kernergebnisse eines ICLR 2025 Outstanding Paper nach fast 12 Stunden Laufzeit. Es erstellte 18 Commits und 23 experimentelle Abbildungen. In einem anderen Fall arbeitete es etwa 24 Stunden an einem FP8 GEMM CUDA-Kernel, tätigte 147 Benchmark-Einreichungen sowie 1.959 Tool-Calls und steigerte die Hardware-Auslastung von 7,6 % auf 71,3 %.
Verstehen Sie diese Beispiele nicht als Beweis, dass ein ganztägiger Agent bei Ihrem ersten Prompt funktioniert. Sie zeigen aber, warum M3 auf die Shortlist gehört, wenn das Modell planen, Tools ausführen, Ergebnisse prüfen, überarbeiten und nach einem ersten Fehlversuch weitermachen muss.
Kontext auf Repository- und Dokumentenebene. M3 unterstützt bis zu 1 Mio. Token über die API, wobei MiniMax 512K als garantiertes Minimum angibt. Bei 1 Mio. Token Kontextlänge berichtet MiniMax eine Rechenleistung pro Token von 1/20 der vorherigen Generation, bei über 9x schnellerem Prefill und über 15x schnellerem Decoding.
Das verändert das Produktdesign. Ein Coding-Agent kann mehr vom Repository sehen. Ein Forschungsassistent kann eine längere Beweiskette verfolgen. Ein Tool zur Vertragsprüfung kann das Quellmaterial und die Analyse im selben Arbeitsbereich halten. Retrieval hat weiterhin seine Berechtigung, aber das Modell muss nicht mehr bei einem winzigen Ausschnitt des Problems anfangen.
Visueller Kontext in derselben Anfrage. MiniMax hat M3 von Beginn an mit multimodalen Daten trainiert. Das Modell akzeptiert Bild- und Video-Inputs; MiniMax gibt an, dass es verschachtelten Text, Bilder und Videos in einem Kontext verarbeiten kann.
Das reduziert die Übergaben zwischen Modellen. Ein Support-Workflow kann die Nachricht des Benutzers lesen und den Screenshot prüfen. Ein Forschungs-Workflow kann über Diagramme in einem Paper schließen. Ein Computer-Use-Agent kann den Bildschirm sehen und die nächste Aktion entscheiden, ohne den visuellen Schritt erst an ein separates Modell senden zu müssen.
Jetzt gehostet verfügbar, Gewichte bald. MiniMax behandelt M3 als Release mit offenen Gewichten, aber der erste Zugang erfolgt über die gehostete API. Das bietet Teams eine nützliche Sequenz: Testen Sie das gehostete Modell jetzt und entscheiden Sie dann, ob der spätere Release der Gewichte für private Bereitstellung, Fine-Tuning oder interne Evaluierung passt.
Klare Preisstruktur. MiniMax gibt an, dass API-Aufrufe bis einschließlich 512K Input-Token zum Standardtarif abgerechnet werden. Höhere Preise für langen Kontext beginnen ab 512K, wo Teams üblicherweise Full-Repo-, Full-Document- oder Long-Video-Workloads ausführen. M3 unterstützt zudem ein Thinking-Toggle zum gleichen Preis, sodass Teams für schwierigere Agenten-Arbeiten den Reasoning-Modus und für latenzsensitive Aufgaben einen schnelleren Modus nutzen können.
Wie die Betriebskosten aussehen
MiniMax M3 auf Atlas Cloud kostet USD0.30/M Input-Token und USD1.20/M Output-Token. Claude Opus 4.7 liegt bei USD5/M Input und USD25/M Output, während GPT-5.5 USD5/M Input und USD30/M Output kostet.
Damit ist M3:
- 94 % günstiger beim Input als Opus 4.7 und GPT-5.5
- 95,2 % günstiger beim Output als Opus 4.7
- 96 % günstiger beim Output als GPT-5.5
Der Token-Preis ist erst relevant, nachdem man ihn auf die Art des Workloads umgelegt hat. Ein Coding-Agent mit einem großen Repository im Kontext gibt das meiste Geld für Input aus. Ein Recherche- oder Entwurfs-Workflow mit langen Erklärungen gibt mehr für Output aus. Ein multimodaler GUI-Agent zahlt ebenfalls für visuellen Kontext, wobei die Token-Umrechnung vom Anbieter abhängt.
Nutzen Sie die folgende Tabelle als Raten-Übersicht, nicht als Benchmark. Sie basiert auf USD-Preisen, ohne Cache-Hits, Batch-Rabatte, regionale Aufschläge, Tool-Call-Gebühren oder Retries. Für GPT-5.5 gibt OpenAI an, dass Prompts über 272K Input-Token mit dem Faktor 2x für Input und 1,5x für Output für die gesamte Sitzung berechnet werden, daher nutzt das Langkontext-Beispiel diesen höheren effektiven Satz.
| Modell | Verwendete Rate | 100K Input + 5K Output | 500K Input + 20K Output | Kosten-Einschätzung |
|---|---|---|---|---|
| MiniMax M3 auf Atlas Cloud | USD0.30 / USD1.20 | USD0.04 | USD0.17 | Günstiger multimodaler Pfad. Teurer als DeepSeek Flash, aber weit unter den Preisen der geschlossenen Frontier-Modelle. |
| DeepSeek V4 Flash | USD0.14 / USD0.28 | USD0.02 | USD0.08 | Günstigster Pfad für textbasierte Arbeit mit hohem Volumen. Nutzen, wenn kein visueller Input nötig. |
| DeepSeek V4 Pro | USD0.435 / USD0.87 | USD0.05 | USD0.23 | Nah an M3 bei reinen Token-Kosten, aber nur Text. Besserer Vergleich für Reasoning/Coding ohne Vision. |
| Qwen3.7-Plus | USD0.40 / USD1.60 (bis 256K); USD1.20 / USD4.80 (über 256K) | USD0.05 | USD0.70 | Wettbewerbsfähig für kürzere multimodale Aufrufe. Long-Context-Pricing ändert Ökonomie über 256K. |
| Qwen3.7-Max | USD2.50 / USD7.50 | USD0.29 | USD1.40 | Günstiger als GPT und Claude, aber kein Massen-Standard, außer es gewinnt bei der Aufgabe. |
| Claude Opus 4.8 | USD5 / USD25 | USD0.63 | USD3.00 | Premium-Pfad für High-Stakes Coding, Tool-Use und Long-Context-Zuverlässigkeit. |
| GPT-5.5 | USD5 / USD30 (Standard); USD10 / USD45 (über 272K Input) | USD0.65 | USD5.90 | Nutzen, wenn Tool-Use, Computer-Use oder Token-Effizienz den Aufpreis rechtfertigen. |
| GPT-5.5 Pro | USD30 / USD180 | USD3.90 | USD18.60 | Reservieren für die härteste Arbeit. Die Rate liegt in einer anderen Budgetklasse. |
Fazit zu den Kosten: M3 ist nicht das günstigste Text-Modell in der Liste. DeepSeek V4 Flash gewinnt bei textbasierten Workloads mit hohem Volumen. M3s Kostenargument ist ein anderes: Es bietet nativen Bild- und Video-Input, langen Kontext und agentisches Coding in einem Preisband, das nahe bei DeepSeek V4 Pro liegt und weit unter GPT-5.5, GPT-5.5 Pro und Claude Opus 4.8.
Bei einem Agenten-Turn mit 500K Input und 20K Output ist M3 ca. 17x günstiger als Claude Opus 4.8 und ca. 34x günstiger als GPT-5.5 (nach Multiplikator). Es ist ca. 4x günstiger als Qwen3.7-Plus und ca. 8x günstiger als Qwen3.7-Max. Gegenüber DeepSeek hängt die Antwort von der Modalität ab: Flash ist günstiger, Pro liegt im selben Bereich. Wenn die Aufgabe Screenshots, Diagramme oder UI-Zustände enthält, spart M3 den zusätzlichen Routing-Schritt zu einem Vision-Modell.
Im monatlichen Maßstab ist der Abstand klarer. Ein Workload mit 10M Input- und 1M Output-Token kostet etwa USD4.20 bei M3, USD1.68 bei DeepSeek V4 Flash, USD5.22 bei DeepSeek V4 Pro, USD75 bei Claude Opus 4.8, USD80 bei GPT-5.5 und USD480 bei GPT-5.5 Pro.
Unsere Empfehlung: Betrachten Sie die teuren Modelle als Pfade, die ihren Platz verdienen müssen. Wenn GPT-5.5 oder Opus 4.8 eine schwere Aufgabe in einem Durchgang erledigt, während M3 drei Versuche und einen menschlichen Patch benötigt, war der günstige Aufruf nicht günstig. Wenn die Aufgabe multimodale Langkontext-Analyse ist, gehört M3 zu den ernsthaften Routing-Kandidaten, nicht zur Spielerei der Launch-Woche.
Benchmarks als Anbieterdaten lesen

MiniMax meldet starke Werte bei Coding und agentischen Aufgaben:
- SWE-Bench Pro: 59,0 %
- Terminal-Bench 2.1: 66,0 %
- SWE-fficiency: 34,8 %
- KernelBench Hard: 28,8 %
- MCP-Atlas (MCP-Tool-Benchmark eines Drittanbieters): 74,2 %
- BrowseComp: 83,5, im Vergleich zu 79,3 für Claude Opus 4.7.
Hinweis zur letzten Zeile: MiniMax vergleicht M3 mit Opus 4.7, aber Opus 4.8 erschien am 28. Mai, vier Tage vor dem Launch von M3. Der Vergleich war also bereits am ersten Tag eine Version hinterher.
Auf dem PostTrainBench, bei dem ein Modell innerhalb von 12 Stunden Daten synthetisieren, trainieren, evaluieren und iterieren muss, gibt MiniMax für M3 einen Wert von 0,37 an. Das liegt hinter Opus 4.7 (0,42) und GPT-5.5 (0,39), aber vor dem Rest des Feldes.
Diese Werte sind nützlich für die Vorauswahl, aber nicht ausreichend für eine Produktionsentscheidung. MiniMax hat viele Tests auf eigener Infrastruktur durchgeführt. Bevor ein Team einen Wert in eine Architektur-Entscheidung einfließen lässt, sollte es die Aufgabe mit eigenen Daten, Prompts und Latenzzielen erneut testen.
Wie man M3 gegen aktuelle Frontier-Modelle evaluiert
Nutzen Sie M3 als Eval-Kandidaten, nicht als Standard. Ein 1-Mio.-Token-Fenster kann eine schlechte Architektur verbergen, wenn man es mit irrelevanten Dateien oder alten Logs füllt.
Führen Sie dasselbe Testset gegen GPT-5.5, Claude Opus 4.8, Qwen3.7-Plus/Max, DeepSeek-V4-Pro/Flash und M3 aus. Vergleichen Sie dann nach Aufgaben, nicht nach Reputation.
Beginnen Sie mit sechs Tests:
- Full-Repo Coding: Geben Sie jedem Modell dasselbe Problem, denselben Repo-Ausschnitt, Tool-Zugriff und Timeout. Bewerten Sie Patch-Qualität, Test-Erfolgsrate und unnötige Edits.
- Long-Context Retrieval: Platzieren Sie relevante Details am Anfang, in der Mitte und am Ende des Kontexts. Fügen Sie Ablenkungen hinzu. Prüfen Sie, ob das Modell die richtige Instanz findet.
- Tool-Loop Endurance: Führen Sie eine Aufgabe aus, die 30, 60 und 100+ Tool-Calls benötigt. Beobachten Sie, ob das Modell stabil bleibt oder bei Constraints nachlässt.
- Visual-Agent Work: Geben Sie dem multimodalen Modell Support-Tickets plus Screenshots oder Paper plus Diagramme. Messen Sie bei textbasierten/schwächeren Routen die Kosten der Übergabe an ein Vision-Modell.
- Latenz bei realem Kontext: Vergleichen Sie die Zeit bis zum ersten Token bei 128K, 512K und 1M Token.
- Kosten pro abgeschlossener Aufgabe: Messen Sie Input/Output-Token, Retries, Tool-Calls und menschliche Korrektur. Ein günstigerer Aufruf kann teurer sein, wenn er drei Versuche braucht.
Hier machen die meisten Teams den Fehler: Sie fragen, welches Modell das beste Launch-Benchmark hat. Die Produktionsfrage ist enger: Welches Modell erledigt diesen Workflow in der Qualität, Latenz und zu den Kosten, die Ihr Produkt toleriert?
Wie MSA den langen Kontext nutzbar macht

Das Kontextfenster von M3 basiert auf MiniMax Sparse Attention (MSA).
Volle Attention lässt jedes Token auf jedes andere Token achten. Bei längeren Sequenzen wächst der Aufwand quadratisch. Sparse Attention fügt einen Auswahl-Schritt hinzu und berechnet Attention nur über die für den vorherigen Kontext relevantesten Teile.
MiniMax sagt, MSA unterteilt den KV-Cache in Blöcke und selektiert auf Block-Ebene. Da der KV-Cache einen Großteil des Speicherverkehrs bei der Inferenz verursacht, ist das Design entscheidend. MiniMax beschreibt einen Operator namens "KV outer gather Q": KV-Blöcke werden zur äußeren Schleife, Queries, die einen Block treffen, werden dorthin aggregiert.
In der Release-Mitteilung läuft dieses Design mehr als 4x schneller als Open-Source Flash-Sparse-Attention. MiniMax gibt an, dass MSA in der Mehrheit der Ablationen die volle Attention erreichte.
Die Engineering-Behauptung ist wichtig, weil ein 1-Mio.-Token-Fenster wertlos ist, wenn Teams es sich nicht leisten können. MSA ist der Grund, warum MiniMax argumentieren kann, dass langer Kontext Teil des normalen Betriebsmodells ist und kein einmaliger Demo-Modus. Das ist auch nicht einzigartig: DeepDeeks V4 nutzt ebenfalls Hybrid-Varianten. Günstiger langer Kontext wird zum architektonischen Standard.
Der größere Trend: Modell-Launches werden zu Routing-Events
M3 ist kein isoliertes Release. Es passt zu einem Muster, das sich im Markt abzeichnet.
Der deutlichste Trend ist der Kalender. In etwa sechs Wochen erschienen vier Modelle mit 1 Mio. Kontext:
- DeepSeek V4-Pro und V4-Flash — 24. April
- Qwen3.7-Max — 20. Mai
- Claude Opus 4.8 — 28. Mai
- MiniMax M3 — 1. Juni
Ein 1-Mio.-Token-Fenster ist innerhalb eines Quartals vom Alleinstellungsmerkmal zum Standard geworden. Dasselbe passiert bei Sparse Attention, Thinking-Toggles und agentischen Benchmarks. Erwarten Sie, dass sich Modell-Seiten immer stärker angleichen.
Das Tempo überholt das Marketing. Das Tempo der Release-Zyklen bedeutet: Wenn Ihr Team einen Anbieter fest in den Stack programmiert, wird jedes große Release zu einem Migrationsprojekt. Wenn ein Team nach Aufgabe, Preis, Latenz und Eval-Ergebnis routet, wird jedes große Release zu einem Routing-Update.
Der Gewinner ist nicht das Team, das ein Modell wählt und ein Jahr lang verteidigt. Der Gewinner ist das Team, das heute M3 testen, morgen mit GPT-5.5 und Claude Opus 4.8 vergleichen und den Traffic verschieben kann, wenn die Zahlen es fordern.
Was andere kopieren können – und was nicht
Anbieter können die Oberfläche zuerst kopieren:
- Längere Kontextfenster
- Sparse-Attention-Varianten
- Thinking-Modi
- Benchmark-Seiten
- Multimodale Demos
Schwieriger sind diese Bereiche:
- Stabiles Long-Context-Serving unter echter Last
- Qualität tief im Kontext, besonders bei Ablenkungen
- Zuverlässigkeit nach vielen Tool-Calls
- Multimodale Ausrichtung über Text, Bilder, Diagramme und Videos
- Preisgestaltung, die auch bei voller Fensternutzung hält
- Klare Modell-IDs und Versionierung für Produktionsteams
Diese Lücke ist der Bereich, in dem Sie Ihre Eval-Zeit verbringen sollten. Fragen Sie nicht nur, ob ein Anbieter mit 1 Mio. Token werben kann. Fragen Sie, ob das Modell noch die Anweisung bei Token 750.000 befolgt, ob es zwei ähnliche Screenshots ohne Drift vergleichen kann und ob die Ökonomie bei realem User-Traffic Bestand hat.
Warum über Atlas Cloud ausführen?
Atlas Cloud bietet Teams einen API-Key für 300+ Modelle über LLM-, Bild-, Video- und Audio-Workloads hinweg. Das wird wichtiger, je mehr sich Modell-Releases bei den Features angleichen.
Sie können M3 gegen die Modelle in Ihrem Stack testen, Traffic dorthin routen, wo er performt, und die Integration stabil halten. Behalten Sie GPT-5.5 dort, wo es bei Computer-Use gewinnt, halten Sie Claude Opus 4.8 für langlebige Coding-Agenten, nutzen Sie Qwen3.7-Plus für multimodale GUI-Agenten, nutzen Sie DeepSeek-V4 für Preis/Leistung und ergänzen Sie M3 dort, wo langer Kontext plus native Multimodalität das Ergebnis verbessern.
Nutzen Sie M3 dort, wo sich langer Kontext und Multimodalität auszahlen. Behalten Sie andere Modelle bei ihren Stärken. Tauschen Sie basierend auf Evals, nicht auf Hype.
[CTA - Builder-Intent: M3 auf Atlas Cloud ausführen -> atlascloud.ai/models | API-Key erhalten -> console.atlascloud.ai]






