Benchmark de Qwen3.7-Plus: 10/10 errores, mismo AIME que Max, 3 veces más rápido

Resumen

A mediados de mayo de 2026, Qwen3.7-Max y Qwen3.7-Plus aparecieron discretamente en LM Arena. @Alibaba_Qwen fijó las expectativas de la comunidad con la frase: "Alibaba #6 en Texto, #5 en Visión". El 2 de junio, el equipo de Alibaba Cloud Tongyi Qianwen lanzó oficialmente este modelo de agente multimodal. Ya está disponible en Alibaba Cloud Model Studio y Qwen Chat, con acceso a API bajo alibaba/qwen3.7-plus y un precio de lista de aproximadamente USD0.40 / USD1.60 por millón de tokens de entrada/salida.

El posicionamiento oficial es claro: Plus es el modelo multimodal rentable; Max es el buque insignia para texto.

Pasamos una tarde ejecutando una suite de pruebas rigurosas en Qwen3.6-plus, Qwen3.7-plus y Qwen3.7-Max: reparación automática de 10 bugs reales, 15 problemas de la competencia matemática AIME 2025, además de una comparación más amplia de multimodalidad, velocidad y costo.

Los resultados deben interpretarse como 5 observaciones a nivel de tarea, no como una clasificación general de modelos:

Ejecución única de BugFind-10: Plus superó todas las pruebas externas de pytest. Bajo esta suite de 10 tareas, el framework oficial Stirrup y una configuración de ejecución única, Plus obtuvo 10/10 mientras que Max y 3.6-Plus obtuvieron 9/10. Esto indica un buen ajuste a la tarea en este entorno; no debe extrapolarse a una clasificación general de programación.
Matemáticas: Plus con "thinking" activado alcanzó la misma puntuación de ejecución única que Max. En 15 problemas matemáticos de concurso, tanto Plus como Max respondieron 14 correctamente; en esta ejecución, Qwen3.7-plus requirió mucho menos tiempo que Qwen3.7-Max (113 s vs 303 s por problema).
Un salto generacional en velocidad: En tareas de agentes, el rendimiento de extremo a extremo para Qwen3.7-plus alcanzó 147.5 t/s, mientras que Qwen3.6-plus solo llegó a 41.5 t/s, una mejora de 3.55x. Las tareas matemáticas que la generación anterior no lograba finalizar se volvieron sencillas de completar.
La multimodalidad aún tiene fallos: En nuestras pruebas multimodales controladas, Qwen3.7-plus respondió correctamente a preguntas sencillas sobre imágenes, pero la imagen de ejemplo oficial dog_and_girl.jpeg fue descrita como "un tren y una multitud".
Algunas capacidades estuvieron cerca de Max, con una ventaja en latencia: En varias pruebas de esta ejecución, Qwen3.7-plus obtuvo resultados cercanos a Qwen3.7-Max mostrando una latencia menor. Esto no es una afirmación de clasificación general.

A continuación se presentan los datos de prueba completos, la metodología y las recomendaciones de selección de modelos para líderes de ingeniería. Todas las comparaciones están limitadas a esta pequeña muestra, ejecución única y framework fijo.

0. Contexto de capacidad del modelo y Leaderboard

La línea de productos de Alibaba Qwen ya se había asentado en un patrón en la generación 3.6: Max = buque insignia de texto, Plus = modelo multimodal de contexto largo. La versión 3.7 continúa esa lógica:

Dimensión	Qwen3.7-Max	Qwen3.7-Plus
Modalidades de entrada	Principalmente texto	Texto + imagen
Punto fuerte típico	Techo de razonamiento, agentes de largo alcance	1M de contexto, visión, pensamiento híbrido, precio unitario menor
Arena (2026-05)	Alrededor del #13 en el leaderboard general de texto	Alrededor del #16 en visión
Precio de pasarela (06-01)	USD1.25 / USD3.75 por M	USD0.40 / USD1.60 por M

1. ¿Cómo posiciona la historia oficial a Plus?

La publicación de lanzamiento de Alibaba Qwen resume el mensaje en una frase:

"Un modelo. Ve, piensa, programa, actúa."

Los puntos de venta principales son: un agente híbrido interactivo multimodal con operación unificada GUI y CLI, un agente de programación versátil y generalización entre frameworks de agentes. El desarrollador principal de Qwen, shuai bai_, lo explicó más a fondo:

Nuestro objetivo es transformar la IA multimodal de un simple captioning de imágenes pasivo a un solucionador de problemas activo: uno que pueda ver, razonar, escribir código, operar interfaces y verificar resultados. Es un paso hacia una inteligencia multimodal verdaderamente agéntica.

Las publicaciones de rendimiento del hilo oficial ofrecen el posicionamiento clave:

El rendimiento de texto está "cerca del nivel de Max" (afirmación del proveedor).
Las mejoras multimodales se centran en capacidades centrales de agente: comprensión visual compleja, razonamiento visual, uso de herramientas y ejecución de código/GUI.

Afirmación común en X	Fuente	Nuestro resultado	Conclusión
El texto de Plus está "cerca de Max"	Oficial	AIME con thinking: misma puntuación, 14/15; Plus fue 2.68x más rápido	Misma puntuación matemática en ejecución única; menor latencia en esta ejecución
Max es mejor para programación / trabajo de largo alcance	Documentación Vercel	BugFind: Plus 10/10, Max 9/10; Plus 147.5 t/s	Esta tarea no respalda aplicar esa suposición a ciegas
El leaderboard de visión es sólido	Arena	La imagen de ejemplo oficial falló; imagen controlada ✓	Un puntaje alto en leaderboard y un fallo en una sola imagen pueden coexistir

2. Nuestro método de evaluación: Cuatro tipos de tareas y una regla estricta

Para mantener la prueba justa, mantenemos una suite llamada BugFind-10: 10 bugs del mundo real que abarcan cálculo de precios, límites de arrays, manejo de rutas, concurrencia, JSON, SQL, comportamiento de caché, Unicode, configuración y más. Cada bug viene con pruebas de pytest. El modelo debe ejecutarse dentro del framework de agente oficial Stirrup con herramientas locales de ejecución de código y completar el ciclo completo por sí mismo: "reproducir → localizar → editar código de producción → ejecutar pruebas".

¿Por qué construir nuestra propia suite de pruebas?

Los leaderboards públicos tienen tres modos de fallo comunes:

Memorización y filtraciones: los modelos insignia ya están saturados con problemas antiguos. Seleccionamos AIME 2025, un concurso publicado después de los probables cortes de entrenamiento del modelo.
Los autoinformes de los proveedores pueden alejarse de los reanálisis independientes: la misma métrica puede cambiar significativamente según la versión del dataset, si el pensamiento (thinking) está habilitado y si se permiten herramientas.
Los benchmarks de agentes dependen del andamiaje (scaffold): diferentes frameworks de agentes pueden desplazar las puntuaciones en 2-3 puntos porcentuales. Fijamos el framework al Stirrup oficial y añadimos verificación externa.

Las cuatro tareas de prueba

Tarea	Qué mide	Métrica central
Gate check	Confirmación de identidad, soporte de pensamiento, capacidad visual	Aprobado / reprobado
BugFind-10	Reparación automática de 10 bugs de código reales	Tasa de aprobación de pytest externo, conteo de llamadas, tiempo real
AIME 2025 I	15 problemas matemáticos de concurso	Precisión, tiempo por problema, ablación de thinking
Quick Eval	8 problemas verbales de escuela primaria	Línea base de velocidad, TTFT, beneficio de thinking en tareas simples

Nuestra regla estricta: Las puntuaciones de código solo cuentan bajo Pytest externo

Este es el fundamento de toda la revisión. También aborda directamente la preocupación de Hacker News de que un agente diga "pruebas aprobadas" no es suficiente.

Proceso:

El agente edita el código en el espacio de trabajo, ejecuta pytest por sí mismo y escribe un CHANGELOG.
Copiamos el código de producción modificado en un entorno aislado y ejecutamos pytest de forma independiente.
Publicamos solo el código de salida y la pila de fallos del paso 2.

Una analogía: el agente es quien realiza el examen. No solo leemos la respuesta que entrega; tomamos la respuesta y la llevamos a otra habitación para calificarla de nuevo, de modo que no confiamos en su propia creencia de que tuvo éxito.

3. Código y capacidad de agente

Descripción general de tres modelos

Modelo	Resultado pytest	Tasa de reparación	Llamadas LLM	Tiempo real	Rendimiento (t/s)
Qwen3.6-Plus	1 fallido, 26 pasado	9/10	63	334s	41.5
Qwen3.7-Plus	27 pasado	10/10	52	205s	147.5
Qwen3.7-Max	1 fallido, 26 pasado	9/10	20	249s	51.8

Que Plus obtuviera el mejor resultado de ejecución única en BugFind fue inesperado:

Plus fue la única ejecución 10/10 en esta prueba.
Max utilizó la menor cantidad de llamadas pero no obtuvo la puntuación máxima. 3.7-Max se detuvo después de solo 20 llamadas al modelo. Tendía a "pensar durante mucho tiempo y realizar un gran cambio", con menos iteraciones. Por el contrario, 3.7-Plus usó 52 llamadas y estuvo dispuesto a editar, ejecutar, inspeccionar comentarios y volver a editar.
Plus tuvo el menor tiempo real y el mayor rendimiento. Para la experiencia de agente en IDE, eso importa mucho más que unos pocos puntos Elo en un leaderboard.

Una tarea, tres filosofías de reparación: Análisis profundo de task05

Esta tarea prueba la regla de que el JSON no válido no debe ser ignorado silenciosamente. Cuando el análisis detecta datos incorrectos, no debe fingir éxito y devolver un objeto vacío; debe informar el error claramente. El bug original:

python
1def safe_parse(data: str):
2    try:
3        return json.loads(data)
4    except Exception:
5        return {}   # Bug: ignora la excepción

Las pruebas requieren:

Para una entrada como "esto no es json {", la función no debe devolver un dict vacío {}.
Para una entrada no válida sin llaves, como "bad", debe generar una excepción.

El enfoque de Max (prueba externa ✗): generar un JSONParseError personalizado. Parece una solución limpia, pero para "esto no es json {" se generó inmediatamente, por lo que la prueba falló antes de que se pudiera ejecutar la primera aserción. Aun así, el CHANGELOG de Max decía con confianza "27 pasaron". Esta es precisamente la razón por la que la verificación externa es obligatoria: la autoevaluación de un agente y una auditoría externa a menudo divergen.

3.6-Plus (externa ✗): falló en el mismo primer obstáculo.

3.7-Plus (externa ✓):

python
1if re.search(r'[\{\[\]\}]', data):
2    return {"error": str(e), "raw": data}
3raise ValueError(f"Invalid JSON: {e}") from e

Para entradas malformadas que contienen llaves, devuelve un objeto de error distinguible de {}. Para entradas sin llaves, genera una excepción. Cumplió con ambos lados del contrato de prueba con precisión.

Conclusiones de ingeniería:

Para tareas de agente, la disposición a trabajar con el entorno (Plus tuvo 52 turnos de diálogo y 98 ejecuciones de código) importa más que la iteración mínima.
Max se detuvo tras 20 turnos y creyó prematuramente que task05 estaba resuelta.

4. Razonamiento y matemáticas: El modo "Thinking" es una decisión de costo

La serie Qwen3.7 enfatiza el "pensamiento híbrido", controlado a través del interruptor enable_thinking. ¿Vale la pena activarlo? Realizamos una ablación en dos grupos de tareas con dificultades muy distintas. El conjunto difícil fue AIME 2025 I.

Modelo / modo	Precisión	Tiempo promedio/problema	Tokens de salida
3.7-Plus · thinking off	12/15 (80%)	24.7s	76,502
3.7-Plus · thinking on	14/15 (93.3%)	113.4s	353,424
3.7-Max · thinking on	14/15 (93.3%)	303.1s	307,801

Conclusión sobre el interruptor de pensamiento:

Desactiva el pensamiento para tareas simples y ahorra dinero; actívalo para tareas difíciles y compra precisión. Dejar el razonamiento activado globalmente significa pagar continuamente más de 4 veces más por solicitudes simples sin ganancia de precisión.

5. Velocidad y brecha generacional

Comparación de rendimiento de agente de extremo a extremo:

3.7-Plus: 147.5 t/s
3.7-Max: 51.8 t/s
3.6-Plus: 41.5 t/s

La mejora generacional (3.6 → 3.7 Plus) fue de aproximadamente 3.55x. El ejemplo más dramático del salto generacional provino de ejecutar matemáticas en 3.6-Plus. Fue demasiado lento para terminar: cada problema tomaba entre 297 y 932 segundos. "Poder resolver" y "poder terminar dentro de un tiempo que los usuarios toleren" son afirmaciones diferentes.

6. Conclusión final

En el universo reproducible de una tarde de nuestras pruebas:

Es el modelo que fue el único en obtener 10/10 en esta ejecución de reparación de bugs reales.
El modelo que alcanzó la misma puntuación que Max en este concurso de matemáticas con thinking activado, mostrando menor latencia.
El modelo que entregó una mejora de rendimiento de 3.55x sobre la generación anterior.
El modelo que todavía alucinó en la imagen de ejemplo oficial mientras pasaba nuestra prueba de imagen controlada.

Para los ingenieros, la narrativa oficial es responsable de la visión; el directorio outputs/ es responsable de la evidencia. Confíe primero en los números.

VOLVER A LA LISTA