Resumen
A mediados de mayo de 2026, Qwen3.7-Max y Qwen3.7-Plus aparecieron discretamente en LM Arena. @Alibaba_Qwen fijó las expectativas de la comunidad con la frase: "Alibaba #6 en Texto, #5 en Visión". El 2 de junio, el equipo de Alibaba Cloud Tongyi Qianwen lanzó oficialmente este modelo de agente multimodal. Ya está disponible en Alibaba Cloud Model Studio y Qwen Chat, con acceso a API bajo
1alibaba/qwen3.7-plusEl posicionamiento oficial es claro: Plus es el modelo multimodal rentable; Max es el buque insignia para texto.
Pasamos una tarde ejecutando una suite de pruebas rigurosas en Qwen3.6-plus, Qwen3.7-plus y Qwen3.7-
1MaxLos resultados deben interpretarse como 5 observaciones a nivel de tarea, no como una clasificación general de modelos:
- Ejecución única de BugFind-10: Plus superó todas las pruebas externas de pytest. Bajo esta suite de 10 tareas, el framework oficial Stirrup y una configuración de ejecución única, Plus obtuvo 10/10 mientras que Max y 3.6-Plus obtuvieron 9/10. Esto indica un buen ajuste a la tarea en este entorno; no debe extrapolarse a una clasificación general de programación.
- Matemáticas: Plus con "thinking" activado alcanzó la misma puntuación de ejecución única que Max. En 15 problemas matemáticos de concurso, tanto Plus como Max respondieron 14 correctamente; en esta ejecución, Qwen3.7-plus requirió mucho menos tiempo que Qwen3.7-Max (113 s vs 303 s por problema).
- Un salto generacional en velocidad: En tareas de agentes, el rendimiento de extremo a extremo para Qwen3.7-plus alcanzó 147.5 t/s, mientras que Qwen3.6-plus solo llegó a 41.5 t/s, una mejora de 3.55x. Las tareas matemáticas que la generación anterior no lograba finalizar se volvieron sencillas de completar.
- La multimodalidad aún tiene fallos: En nuestras pruebas multimodales controladas, Qwen3.7-plus respondió correctamente a preguntas sencillas sobre imágenes, pero la imagen de ejemplo oficial fue descrita como "un tren y una multitud".text
1dog_and_girl.jpeg - Algunas capacidades estuvieron cerca de Max, con una ventaja en latencia: En varias pruebas de esta ejecución, Qwen3.7-plus obtuvo resultados cercanos a Qwen3.7-Max mostrando una latencia menor. Esto no es una afirmación de clasificación general.
A continuación se presentan los datos de prueba completos, la metodología y las recomendaciones de selección de modelos para líderes de ingeniería. Todas las comparaciones están limitadas a esta pequeña muestra, ejecución única y framework fijo.
0. Contexto de capacidad del modelo y Leaderboard
La línea de productos de Alibaba Qwen ya se había asentado en un patrón en la generación 3.6: Max = buque insignia de texto, Plus = modelo multimodal de contexto largo. La versión 3.7 continúa esa lógica:
| Dimensión | Qwen3.7-Max | Qwen3.7-Plus |
|---|---|---|
| Modalidades de entrada | Principalmente texto | Texto + imagen |
| Punto fuerte típico | Techo de razonamiento, agentes de largo alcance | 1M de contexto, visión, pensamiento híbrido, precio unitario menor |
| Arena (2026-05) | Alrededor del #13 en el leaderboard general de texto | Alrededor del #16 en visión |
| Precio de pasarela (06-01) | USD1.25 / USD3.75 por M | USD0.40 / USD1.60 por M |
1. ¿Cómo posiciona la historia oficial a Plus?
La publicación de lanzamiento de Alibaba Qwen resume el mensaje en una frase:
"Un modelo. Ve, piensa, programa, actúa."
Los puntos de venta principales son: un agente híbrido interactivo multimodal con operación unificada GUI y CLI, un agente de programación versátil y generalización entre frameworks de agentes. El desarrollador principal de Qwen, shuai bai_, lo explicó más a fondo:
Nuestro objetivo es transformar la IA multimodal de un simple captioning de imágenes pasivo a un solucionador de problemas activo: uno que pueda ver, razonar, escribir código, operar interfaces y verificar resultados. Es un paso hacia una inteligencia multimodal verdaderamente agéntica.
Las publicaciones de rendimiento del hilo oficial ofrecen el posicionamiento clave:
- El rendimiento de texto está "cerca del nivel de Max" (afirmación del proveedor).
- Las mejoras multimodales se centran en capacidades centrales de agente: comprensión visual compleja, razonamiento visual, uso de herramientas y ejecución de código/GUI.
| Afirmación común en X | Fuente | Nuestro resultado | Conclusión |
|---|---|---|---|
| El texto de Plus está "cerca de Max" | Oficial | AIME con thinking: misma puntuación, 14/15; Plus fue 2.68x más rápido | Misma puntuación matemática en ejecución única; menor latencia en esta ejecución |
| Max es mejor para programación / trabajo de largo alcance | Documentación Vercel | BugFind: Plus 10/10, Max 9/10; Plus 147.5 t/s | Esta tarea no respalda aplicar esa suposición a ciegas |
| El leaderboard de visión es sólido | Arena | La imagen de ejemplo oficial falló; imagen controlada ✓ | Un puntaje alto en leaderboard y un fallo en una sola imagen pueden coexistir |
2. Nuestro método de evaluación: Cuatro tipos de tareas y una regla estricta
Para mantener la prueba justa, mantenemos una suite llamada BugFind-10: 10 bugs del mundo real que abarcan cálculo de precios, límites de arrays, manejo de rutas, concurrencia, JSON, SQL, comportamiento de caché, Unicode, configuración y más. Cada bug viene con pruebas de pytest. El modelo debe ejecutarse dentro del framework de agente oficial Stirrup con herramientas locales de ejecución de código y completar el ciclo completo por sí mismo: "reproducir → localizar → editar código de producción → ejecutar pruebas".
¿Por qué construir nuestra propia suite de pruebas?
Los leaderboards públicos tienen tres modos de fallo comunes:
- Memorización y filtraciones: los modelos insignia ya están saturados con problemas antiguos. Seleccionamos AIME 2025, un concurso publicado después de los probables cortes de entrenamiento del modelo.
- Los autoinformes de los proveedores pueden alejarse de los reanálisis independientes: la misma métrica puede cambiar significativamente según la versión del dataset, si el pensamiento (thinking) está habilitado y si se permiten herramientas.
- Los benchmarks de agentes dependen del andamiaje (scaffold): diferentes frameworks de agentes pueden desplazar las puntuaciones en 2-3 puntos porcentuales. Fijamos el framework al Stirrup oficial y añadimos verificación externa.
Las cuatro tareas de prueba
| Tarea | Qué mide | Métrica central |
|---|---|---|
| Gate check | Confirmación de identidad, soporte de pensamiento, capacidad visual | Aprobado / reprobado |
| BugFind-10 | Reparación automática de 10 bugs de código reales | Tasa de aprobación de pytest externo, conteo de llamadas, tiempo real |
| AIME 2025 I | 15 problemas matemáticos de concurso | Precisión, tiempo por problema, ablación de thinking |
| Quick Eval | 8 problemas verbales de escuela primaria | Línea base de velocidad, TTFT, beneficio de thinking en tareas simples |
Nuestra regla estricta: Las puntuaciones de código solo cuentan bajo Pytest externo
Este es el fundamento de toda la revisión. También aborda directamente la preocupación de Hacker News de que un agente diga "pruebas aprobadas" no es suficiente.
Proceso:
- El agente edita el código en el espacio de trabajo, ejecuta pytest por sí mismo y escribe un CHANGELOG.
- Copiamos el código de producción modificado en un entorno aislado y ejecutamos pytest de forma independiente.
- Publicamos solo el código de salida y la pila de fallos del paso 2.
Una analogía: el agente es quien realiza el examen. No solo leemos la respuesta que entrega; tomamos la respuesta y la llevamos a otra habitación para calificarla de nuevo, de modo que no confiamos en su propia creencia de que tuvo éxito.
3. Código y capacidad de agente
Descripción general de tres modelos
| Modelo | Resultado pytest | Tasa de reparación | Llamadas LLM | Tiempo real | Rendimiento (t/s) |
|---|---|---|---|---|---|
| Qwen3.6-Plus | 1 fallido, 26 pasado | 9/10 | 63 | 334s | 41.5 |
| Qwen3.7-Plus | 27 pasado | 10/10 | 52 | 205s | 147.5 |
| Qwen3.7-Max | 1 fallido, 26 pasado | 9/10 | 20 | 249s | 51.8 |
Que Plus obtuviera el mejor resultado de ejecución única en BugFind fue inesperado:
- Plus fue la única ejecución 10/10 en esta prueba.
- Max utilizó la menor cantidad de llamadas pero no obtuvo la puntuación máxima. 3.7-Max se detuvo después de solo 20 llamadas al modelo. Tendía a "pensar durante mucho tiempo y realizar un gran cambio", con menos iteraciones. Por el contrario, 3.7-Plus usó 52 llamadas y estuvo dispuesto a editar, ejecutar, inspeccionar comentarios y volver a editar.
- Plus tuvo el menor tiempo real y el mayor rendimiento. Para la experiencia de agente en IDE, eso importa mucho más que unos pocos puntos Elo en un leaderboard.
Una tarea, tres filosofías de reparación: Análisis profundo de task05
Esta tarea prueba la regla de que el JSON no válido no debe ser ignorado silenciosamente. Cuando el análisis detecta datos incorrectos, no debe fingir éxito y devolver un objeto vacío; debe informar el error claramente. El bug original:
python1def safe_parse(data: str): 2 try: 3 return json.loads(data) 4 except Exception: 5 return {} # Bug: ignora la excepción
Las pruebas requieren:
- Para una entrada como "esto no es json {", la función no debe devolver un dict vacío {}.
- Para una entrada no válida sin llaves, como "bad", debe generar una excepción.
El enfoque de Max (prueba externa ✗): generar un
1JSONParseError3.6-Plus (externa ✗): falló en el mismo primer obstáculo.
3.7-Plus (externa ✓):
python1if re.search(r'[\{\[\]\}]', data): 2 return {"error": str(e), "raw": data} 3raise ValueError(f"Invalid JSON: {e}") from e
Para entradas malformadas que contienen llaves, devuelve un objeto de error distinguible de
1{}Conclusiones de ingeniería:
- Para tareas de agente, la disposición a trabajar con el entorno (Plus tuvo 52 turnos de diálogo y 98 ejecuciones de código) importa más que la iteración mínima.
- Max se detuvo tras 20 turnos y creyó prematuramente que task05 estaba resuelta.
4. Razonamiento y matemáticas: El modo "Thinking" es una decisión de costo
La serie Qwen3.7 enfatiza el "pensamiento híbrido", controlado a través del interruptor
1enable_thinking| Modelo / modo | Precisión | Tiempo promedio/problema | Tokens de salida |
|---|---|---|---|
| 3.7-Plus · thinking off | 12/15 (80%) | 24.7s | 76,502 |
| 3.7-Plus · thinking on | 14/15 (93.3%) | 113.4s | 353,424 |
| 3.7-Max · thinking on | 14/15 (93.3%) | 303.1s | 307,801 |
Conclusión sobre el interruptor de pensamiento:
Desactiva el pensamiento para tareas simples y ahorra dinero; actívalo para tareas difíciles y compra precisión. Dejar el razonamiento activado globalmente significa pagar continuamente más de 4 veces más por solicitudes simples sin ganancia de precisión.
5. Velocidad y brecha generacional
Comparación de rendimiento de agente de extremo a extremo:
- 3.7-Plus: 147.5 t/s
- 3.7-Max: 51.8 t/s
- 3.6-Plus: 41.5 t/s
La mejora generacional (3.6 → 3.7 Plus) fue de aproximadamente 3.55x. El ejemplo más dramático del salto generacional provino de ejecutar matemáticas en 3.6-Plus. Fue demasiado lento para terminar: cada problema tomaba entre 297 y 932 segundos. "Poder resolver" y "poder terminar dentro de un tiempo que los usuarios toleren" son afirmaciones diferentes.
6. Conclusión final
En el universo reproducible de una tarde de nuestras pruebas:
- Es el modelo que fue el único en obtener 10/10 en esta ejecución de reparación de bugs reales.
- El modelo que alcanzó la misma puntuación que Max en este concurso de matemáticas con thinking activado, mostrando menor latencia.
- El modelo que entregó una mejora de rendimiento de 3.55x sobre la generación anterior.
- El modelo que todavía alucinó en la imagen de ejemplo oficial mientras pasaba nuestra prueba de imagen controlada.
Para los ingenieros, la narrativa oficial es responsable de la visión; el directorio
1outputs/





