Qwen3.7-Plus 벤치마크: 버그 10/10 해결, AIME 점수는 Max와 동일, 속도는 3배 향상

요약

2026년 5월 중순, Qwen3.7-Max와 Qwen3.7-Plus가 LM Arena에 조용히 등장했습니다. @Alibaba_Qwen은 "텍스트 분야 6위, 비전 분야 5위"라는 문구로 커뮤니티의 기대치를 설정했습니다. 6월 2일, Alibaba Cloud Tongyi Qianwen 팀은 이 멀티모달 에이전트 모델을 공식 출시했습니다. 현재 Alibaba Cloud Model Studio와 Qwen Chat에서 사용할 수 있으며, API는 alibaba/qwen3.7-plus로 접근 가능하고 가격은 백만 입력/출력 토큰당 각각 USD0.40 / USD1.60으로 책정되었습니다.

공식 포지셔닝은 명확합니다. Plus는 가성비 멀티모달 모델, Max는 텍스트 플래그십 모델입니다.

저희는 오후 한나절 동안 Qwen3.6-plus, Qwen3.7-plus, Qwen3.7-Max를 대상으로 실제 버그 10개 자동 수정, AIME 2025 수학 경시대회 문제 15개 테스트를 포함하여 멀티모달 능력, 속도, 비용에 대한 광범위한 비교 테스트를 진행했습니다.

결과는 일반적인 모델 순위가 아닌 5가지 작업 수준의 관찰 결과로 읽어야 합니다:

BugFind-10 단일 실행: Plus가 모든 외부 pytest 검사를 통과했습니다. 10개 작업 스위트, 공식 Stirrup 스캐폴드, 단일 실행 환경에서 Plus는 10/10점을 기록했고, Max와 3.6-Plus는 9/10점을 기록했습니다. 이는 해당 설정에서의 작업 적합성을 나타내며, 일반적인 코딩 순위로 확대 해석해서는 안 됩니다.
수학: '생각(thinking)' 기능을 활성화한 Plus는 Max와 동일한 단일 실행 점수를 기록했습니다. 15개의 경시 수학 문제 중 Plus와 Max 모두 14문제를 맞혔습니다. 이번 실행에서 Qwen3.7-plus는 Qwen3.7-Max보다 훨씬 적은 시간(문제당 113초 vs 303초)이 소요되었습니다.
세대적인 속도 도약: 에이전트 작업에서 Qwen3.7-plus의 엔드 투 엔드 처리량은 147.5 t/s에 도달하여, 41.5 t/s에 불과했던 Qwen3.6-plus 대비 3.55배 향상되었습니다. 이전 세대가 끝내지 못했던 수학 작업도 쉽게 완료할 수 있게 되었습니다.
멀티모달의 여전한 결함: 통제된 멀티모달 테스트에서 Qwen3.7-plus는 간단한 이미지 질문에는 정확히 답했으나, 공식 예시 이미지인 dog_and_girl.jpeg를 "기차와 군중"으로 잘못 묘사했습니다.
Max에 근접한 능력과 지연 시간의 이점: 이번 테스트의 여러 항목에서 Qwen3.7-plus는 Qwen3.7-Max에 가까운 결과를 보이면서도 더 낮은 지연 시간을 기록했습니다. 이는 일반적인 순위 주장이 아닙니다.

아래에는 전체 테스트 데이터, 방법론, 그리고 엔지니어링 리더를 위한 모델 선택 권장 사항이 포함되어 있습니다. 모든 비교는 이 작은 샘플, 단일 실행, 고정된 스캐폴드 내로 범위가 한정됩니다.

0. 모델 능력 및 리더보드 맥락

Alibaba Qwen의 제품 라인은 3.6 세대부터 Max = 텍스트 플래그십, Plus = 멀티모달 긴 컨텍스트 모델이라는 패턴으로 자리 잡았습니다. 3.7 버전도 이러한 논리를 따릅니다:

차원	Qwen3.7-Max	Qwen3.7-Plus
입력 모달리티	주로 텍스트	텍스트 + 이미지
주요 셀링 포인트	추론 최상위 성능, 장기 에이전트	1M 컨텍스트, 비전, 하이브리드 사고, 낮은 단가
Arena (2026-05)	전체 텍스트 리더보드 약 13위	비전 리더보드 약 16위
게이트웨이 가격 (06-01)	M당 USD1.25 / USD3.75	M당 USD0.40 / USD1.60

1. 공식 입장은 Plus를 어떻게 포지셔닝하는가?

Alibaba Qwen의 출시 게시물은 메시지를 한 문장으로 압축합니다:

"하나의 모델. 보고, 생각하고, 코딩하고, 행동한다."

핵심 셀링 포인트는 통합 GUI 및 CLI 운영이 가능한 멀티모달 대화형 하이브리드 에이전트, 다재다능한 코딩 에이전트, 에이전트 프레임워크 간 일반화 능력입니다. Qwen 핵심 개발자 shuai bai_는 다음과 같이 설명했습니다:

우리의 목표는 멀티모달 AI를 수동적인 이미지 캡셔닝 도구에서 능동적인 문제 해결사로 바꾸는 것입니다. 즉, 보고, 추론하고, 코드를 작성하고, 인터페이스를 조작하며, 결과를 검증할 수 있는 모델입니다. 이는 진정한 에이전트형 멀티모달 지능으로 나아가는 한 걸음입니다.

공식 스레드의 성능 관련 내용은 다음과 같은 핵심 포지셔닝을 보여줍니다:

텍스트 성능은 "Max 수준에 근접" (벤더 주장)
멀티모달 개선 사항은 **핵심 에이전트 능력(복잡한 시각적 이해, 시각적 추론, 도구 사용, 코드/GUI 실행)**에 집중

X에서의 일반적인 주장	출처	우리의 결과	결론
Plus 텍스트는 "Max에 근접"	공식	생각 기능 사용 시 AIME: 동일 점수 14/15; Plus가 2.68배 빠름	단일 실행 수학 점수 동일; 이번 실행에서 지연 시간 더 낮음
Max가 코딩/장기 작업에 더 우수	Vercel 문서	BugFind: Plus 10/10, Max 9/10; Plus 147.5 t/s	해당 작업은 그 가정을 맹목적으로 적용할 근거가 안 됨
비전 리더보드 점수 우수	Arena	공식 예시 이미지 실패; 통제된 이미지 ✓	높은 리더보드 점수와 단일 이미지 실패는 공존 가능

2. 우리의 평가 방법: 4가지 작업 유형과 1가지 엄격한 규칙

테스트 공정성을 위해 BugFind-10이라는 소규모 스위트를 유지합니다. 여기에는 가격 계산, 배열 범위, 경로 처리, 동시성, JSON, SQL, 캐시 동작, 유니코드, 설정 등을 포괄하는 10개의 실제 버그가 포함됩니다. 각 버그에는 pytest 테스트가 동반됩니다. 모델은 공식 Stirrup 에이전트 프레임워크 내에서 로컬 코드 실행 도구를 사용하여 "재현 → 위치 파악 → 프로덕션 코드 편집 → 테스트 실행"의 전체 루프를 스스로 완료해야 합니다.

왜 자체 테스트 스위트를 구축했는가?

공공 리더보드에는 세 가지 공통적인 실패 모드가 있습니다:

암기 및 유출: 플래그십 모델은 이미 구형 문제들에 대해 포화 상태입니다. 저희는 모델 학습 종료일 이후에 발표된 경시대회인 AIME 2025를 선택했습니다.
벤더 자체 보고와 독립적 재테스트 간의 괴리: 데이터셋 버전, 생각 기능 사용 여부, 도구 사용 허용 여부에 따라 동일한 지표도 크게 달라질 수 있습니다.
에이전트 벤치마크는 스캐폴드에 의존: 에이전트 프레임워크가 다르면 점수가 2~3% 포인트 바뀔 수 있습니다. 저희는 프레임워크를 공식 Stirrup으로 고정하고 외부 검증을 추가했습니다.

4가지 테스트 작업

작업	측정 내용	핵심 지표
Gate check	신원 확인, 생각 기능 지원, 비전 능력	통과/실패
BugFind-10	10개 실제 코드 버그의 자동 수정	외부 pytest 통과율, 모델 호출 횟수, 벽시계 시간
AIME 2025 I	15개 경시 수학 문제	정확도, 문제당 시간, 생각 기능 절제
Quick Eval	8개 초등학교 수준 문장제 문제	속도 기준, TTFT, 간단한 작업에서의 생각 기능 이점

우리의 엄격한 규칙: 코드 점수는 외부 Pytest에서만 인정

이는 전체 리뷰의 기초입니다. 또한 "테스트 통과"라고 말하는 에이전트의 답변만으로는 충분하지 않다는 Hacker News의 우려를 직접적으로 해결합니다.

과정:

에이전트가 워크스페이스 내에서 코드를 편집하고 스스로 pytest를 실행하며 CHANGELOG를 작성합니다.
저희는 수정된 프로덕션 코드를 격리된 환경에 복사하고 독립적으로 pytest를 실행합니다.
2단계에서의 종료 코드와 실패 스택만 공개합니다.

비유: 에이전트는 시험 응시자입니다. 저희는 에이전트가 제출한 답안을 읽는 것에 그치지 않고, 그 답안을 다른 방으로 가져가 다시 채점합니다. 에이전트가 성공했다고 믿는 것을 그대로 신뢰하지 않기 위함입니다.

3. 코드 및 에이전트 능력

3개 모델 개요

모델	pytest 결과	수정율	LLM 호출	벽시계 시간	엔드 투 엔드 t/s
Qwen3.6-Plus	1 실패, 26 통과	9/10	63	334s	41.5
Qwen3.7-Plus	27 통과	10/10	52	205s	147.5
Qwen3.7-Max	1 실패, 26 통과	9/10	20	249s	51.8

Plus가 BugFind 단일 실행에서 더 나은 결과를 얻은 것은 예상 밖이었습니다:

이번 테스트에서 10/10을 기록한 유일한 모델은 Plus였습니다.
Max는 가장 적은 호출을 사용했지만 만점을 받지 못했습니다. 3.7-Max는 세 모델 중 가장 적은 20회의 모델 호출 후 멈췄습니다. Max는 "오랫동안 생각하고 한 번의 큰 변화를 주는" 경향이 있어 반복 횟수가 적었습니다. 반면 3.7-Plus는 52회의 호출을 사용하며 편집, 실행, 피드백 검사, 재편집 과정을 기꺼이 수행했습니다.
Plus는 벽시계 시간이 가장 짧고 처리량이 가장 높았습니다. IDE 에이전트 경험에 있어서는 리더보드의 Elo 점수 몇 점보다 이 점이 훨씬 중요합니다.

1가지 작업, 3가지 수정 철학: task05 심층 분석

이 작업은 잘못된 JSON을 조용히 무시해서는 안 된다는 규칙을 테스트합니다. 파싱 시 잘못된 데이터를 발견하면 성공한 척하고 빈 객체를 반환해서는 안 되며, 오류를 명확히 보고해야 합니다. 원래의 버그:

plaintext
1def safe_parse(data: str):
2    try:
3        return json.loads(data)
4    except Exception:
5        return {}   # 버그: 예외를 삼켜버림

테스트 요구사항:

"this is not json {"와 같은 입력에 대해 함수는 빈 딕셔너리 {}를 반환해서는 안 됨.
중괄호가 없는 잘못된 입력("bad" 등)에 대해서는 예외를 발생시켜야 함.

Max의 접근 방식 (외부 테스트 ✗): 사용자 정의 JSONParseError 발생.

깔끔한 해결책처럼 보이지만 "this is not json {"의 경우 즉시 예외가 발생하여 첫 번째 단언문도 실행되기 전에 테스트가 실패했습니다. 하지만 Max의 CHANGELOG는 자신 있게 "27개 통과"라고 명시했습니다. 외부 검증이 필수인 이유가 바로 이것입니다: 에이전트의 자기 평가와 외부 감사는 종종 서로 다릅니다.

3.6-Plus (외부 ✗): 동일한 첫 번째 관문에서 실패했습니다.

3.7-Plus (외부 ✓):

plaintext
1if re.search(r'[\{\[\]\}]', data):
2    return {"error": str(e), "raw": data}
3raise ValueError(f"Invalid JSON: {e}") from e

중괄호를 포함한 잘못된 입력에 대해 {}와 구분 가능한 오류 객체를 반환합니다. 중괄호가 아예 없는 입력에 대해서는 예외를 발생시킵니다. 테스트 계약의 양쪽 모두를 정확히 충족했습니다.

왜 Max는 이 작업에서 만점을 놓쳤을까요? 호출 횟수부터 시작해 봅시다:

3.7-Max는 세 모델 중 가장 적은 20회의 모델 호출 후 멈췄습니다. 3.7-Plus는 52회의 호출을 사용하며 기꺼이 반복했습니다. 에이전트 코딩 작업에서 환경과의 반복적인 상호작용이 필요할 때, 더 많은 반복은 Max가 이번 실행에서 놓친 엣지 케이스를 커버하는 데 도움이 될 수 있습니다. 이는 종종 간과되는 사실을 시사합니다: 에이전트 작업에서 "더 깊은 추론"이 반드시 더 안정적인 결과를 의미하지는 않습니다. 도구 피드백을 잘 활용하는 것 또한 중요합니다.

수정 품질 면에서 세 모델 모두 task03은 잘 처리했습니다. 이 작업은 user_id를 파일 경로에 직접 연결하므로 ".."을 통한 경로 탐색이나 "user;rm -rf"와 같은 셸 메타문자 공격이 가능했습니다. 수정안은 단순히 테스트 통과를 위한 땜질이 아니라 실제 보안 결함을 식별하여 화이트리스트 기반 살균 처리를 추가했습니다:

plaintext
1user_id = re.sub(r'[^a-zA-Z0-9_-]', '', user_id) or "unknown"

엔지니어링 시사점:

에이전트 작업의 경우 환경과 씨름하려는 의지(Plus는 52번의 대화 턴과 98회의 코드 실행을 가짐)가 최소한의 반복보다 더 중요합니다.
Max는 20턴 후 작업을 멈췄고 task05가 해결되었다고 성급하게 판단했습니다.
대화형 버그 수정 시 "예외 발생"이라는 깔끔한 해결책이 항상 구별 가능한 형태로 더러운 데이터를 반환하는 것보다 유용한 것은 아닙니다.

4. 추론 및 수학: 생각 모드는 비용 결정 사항

Qwen3.7 시리즈는 enable_thinking 스위치로 제어되는 "하이브리드 사고"를 강조합니다. 이 스위치를 켤 가치가 있을까요? 난이도가 매우 다른 두 작업 그룹에 걸쳐 절제(ablation) 테스트를 진행했습니다. 어려운 세트는 AIME 2025 I로, 모델 학습 종료일 이후에 발표되어 오염에 더 강합니다. 각 문제와 답변을 AoPS 및 Areteem이라는 두 개의 독립적인 소스와 대조하여 자동으로 채점했습니다.

모델 / 모드	정확도	평균 시간/문제	출력 토큰
3.7-Plus · 생각 끄기	12/15 (80%)	24.7s	76,502
3.7-Plus · 생각 켜기	14/15 (93.3%)	113.4s	353,424
3.7-Max · 생각 켜기	14/15 (93.3%)	303.1s	307,801
3.6-Plus · 생각	처음 6문제: 6/6 (아래 참조)	464s	문제당 25.7K

비용 비교:

구성	정답	정확도	평균 시간/문제	총 출력 토큰	평균 tps	예상 비용
Plus 생각 끄기	12/15	80.0%	24.7s	76,502	204.0	USD0.15
Plus 생각 켜기	14/15	93.3%	113.4s	353,424	205.4	USD0.69
Max 생각 켜기	14/15	93.3%	303.1s	307,801	68.3	USD0.60

참고: 예상 비용은 3.6-Plus M당 USD0.325/USD1.95 기준으로 계산되었습니다. 공식 게이트웨이 가격인 M당 USD0.40/USD1.60은 실제 운영 가격에 더 가깝습니다.

생각 스위치의 한계 효용

추론 기능을 활성화하면 Plus는 Max와 동일한 단일 실행 AIME 점수에 도달했습니다. 생각 기능을 켠 3.7-Plus와 3.7-Max 모두 14/15점을 기록했지만, Plus는 문제당 113초가 소요된 반면 Max는 303초가 걸렸습니다. 이번 실행에서 Max의 더 긴 지연 시간이 더 높은 점수를 만들어내지는 못했습니다.

8개의 초등학교 수준 문장제 문제에서는 두 모드 모두 100% 정답을 기록했습니다. 생각 기능을 켰을 때 토큰 소비량은 24% 더 늘어났을 뿐입니다. 두 세트를 종합하면 결론은 명확합니다:

간단한 작업은 비용 절감을 위해 생각 기능을 끄고, 어려운 작업은 정확도를 위해 켜십시오. 생각 기능을 전역적으로 켜두면 정확도 향상 없이 간단한 요청에도 지속적으로 4배 이상의 비용을 지불하게 됩니다. 스위치의 가치는 작업 난이도에 따라 동적으로 경로를 설정할 수 있다는 점에 있습니다.

Max vs Plus: 이번 실행에서 지연 시간의 원인

Max 역시 14/15점을 기록했고 I-14 문제(예측 69, 정답 60)를 틀렸습니다. 같은 테스트, 같은 오답 문제, 같은 실패 패턴을 보였습니다. "Max가 더 똑똑해서 다른 어려운 사례를 틀렸다"가 아닙니다. Max는 I-15를 풀었고 Plus는 틀렸으므로 매우 어려운 문제에서는 편차가 있으며, 한 번의 실행으로 어느 모델이 전반적으로 더 강력하다고 단정할 수는 없습니다.

하지만 속도 격차는 놀라웠습니다. I-2 문제에서 Max는 261초, Plus는 108초가 걸렸습니다. 전체 세트에 걸쳐 Max는 평균 68.3 tps인 반면 Plus는 205.4 tps로 약 3배 더 빨랐습니다.

결론: 생각 기능을 켜면 Plus는 이번 경시 수학 세트에서 Max와 동일한 단일 실행 점수에 도달하면서도 명확한 지연 시간 및 비용 이점을 유지했습니다. 실시간 대화형 시나리오에서는 그 차이가 중요합니다.

간단한 작업 제어 테스트

8개의 초등학교 수준 문장제 문제를 간단한 로드 테스트로 사용했습니다:

모드	정확도	평균 시간	총 출력 토큰
생각 끄기	8/8	2.17s	2,314
생각 켜기	8/8	2.48s	2,881

생각 기능을 켜도 정확도 향상 없이 토큰만 24% 더 소비했습니다. 난이도는 생각 모드를 활성화하는 유일한 합리적 기준입니다.

5. 속도, 세대 격차, 그리고 중단해야 했던 작업

에이전트 처리량 비교

BugFind runner_summary.json에서 추출한 실제 엔드 투 엔드 속도:

3.7-Plus: 147.5 t/s (52회 호출, 204.8s)
3.7-Max: 51.8 t/s (20회 호출, 249.0s)
3.6-Plus: 41.5 t/s (63회 호출, 334.5s)

세대별 개선(3.6 → 3.7 Plus)은 약 3.55배였습니다. 같은 세대의 Plus vs Max는 약 2.85배였습니다.

세대 격차의 가장 극적인 예는 3.6-Plus에서 수학 문제를 실행할 때 나타났습니다. AIME 결과를 추가하려 했지만 너무 느려 완료할 수 없었습니다. 추론이 매 문제마다 한계까지 실행되었고, 단일 문제 출력은 16K~~52K 토큰에 도달했으며, 문제당 297~~932초가 소요되었습니다. 첫 6문제만으로 46분이 걸렸습니다. 15문제 전체를 실행하는 것은 합리적인 시간 예산 내에서 불가능했기에 중단했습니다.

max_tokens를 16000에서 4096으로 줄여서 "시간 제한"을 시도했습니다. 작동하지 않았습니다. 이는 기록할 가치가 있는 엔지니어링 함정입니다:

생각 모드에서 추론 토큰은 max_tokens의 제한을 받지 않으며, 모델은 여전히 수만 개의 추론 토큰을 생성할 수 있습니다.
요청 시간 제한도 충분하지 않습니다. OpenAI/httpx 시간 제한은 데이터 청크 사이의 "읽기 시간 제한"입니다. 스트리밍 응답이 토큰을 계속 생성하는 한 시간 제한은 발생하지 않습니다.

시간 제한 전략이 모두 막혔기에 프로세스를 강제 종료하고 복구된 6문제만 보고했습니다: 6/6 정답. 즉, 3.6-Plus의 수학 능력 자체가 문제는 아니었습니다. 문제를 풀 수는 있었습니다. 하지만 "풀 수 있다"와 "사용자가 용인할 만한 시간 내에 끝낼 수 있다"는 서로 다른 주장입니다. 사용자에게 응답해야 하는 프로덕션 모델의 경우 후자가 훨씬 중요합니다. 리더보드는 숨기지만 사용자 경험은 드러내는 정확히 그 차원입니다.

엔지니어링 팀을 위한 조언: 생각 모델의 경우 기존의 시간 제한 및 max_tokens 전략은 실패할 수 있습니다. 총 토큰 예산, 총 벽시계 시간 제한, 또는 추론 토큰 제한이 필요합니다.

6. 핵심 발견 4: 멀티모달 - 통제된 이미지 통과, 공식 샘플 실패

테스트 샘플	입력	모델 출력	판단
통제된 이미지	빨간색/파란색 블록 PNG (로컬)	"파란색, 주황색"	✓ 정답
공식 샘플	dog_and_girl.jpeg (OSS)	"기차 옆에 서 있는 사람들 무리..."	✗ 완전히 틀림

Arena Vision은 Plus를 16위(프리뷰) 정도로 평가합니다. 해당 벤치마크는 인간 선호도에 따른 이미지-텍스트 대화를 측정합니다. 우리의 테스트는 높은 리더보드 점수와 단일 이미지 실패가 공존할 수 있음을 보여줍니다.

모델 선택자를 위한 조언: MMMU나 ChartQA 같은 표준화된 비전 벤치마크는 실행하지 않았으므로 Plus 비전이 프로덕션 준비가 되었는지에 대한 광범위한 주장은 하지 않습니다. 하지만 발견점은 명확합니다. 자체 비즈니스 도메인(OCR, 차트, UI 스크린샷, 영수증 등)에서 20~50개의 이미지를 테스트하는 것이 리더보드를 읽는 것보다 훨씬 신뢰할 수 있습니다.

일부 Hacker News 사용자들도 "Qwen 비전이 Gemma보다 강력하다"고 테스트했습니다. 그 사용자 피드백은 모순되지 않습니다. 그들은 비공개 작업을 수행했기 때문입니다. 공식 샘플 이미지 실패는 비공개 성공과 공식 실패가 공존할 수 있음을 상기시킵니다. 모델 선택은 여러분 자신의 데이터에 의해 주도되어야 합니다.

7. 비용: 이번 전체 테스트의 비용

이 기사 자체가 비용 샘플입니다. 3개 모델을 4개 작업 유형에 걸쳐 실행한 후, 실제 Qwen API 사용량은 약 200만 토큰이었으며(중단된 3.6-Plus 분량은 완전히 계산되지 않음), 예상 비용은 약 USD2~3였습니다.

이번 테스트 라운드의 청구서

항목	토큰 규모	예상 비용
AIME Plus 켜기	353K 출력	~USD0.69
AIME Plus 끄기	76K 출력	~USD0.15
AIME Max 켜기	308K 출력	~USD0.60
BugFind × 3개 모델	매우 높은 누적 입력	총계 포함
총계	~200만	USD2~3

인사이트 1: 진지한 평가 라운드는 식사 한 끼 정도의 비용이 듭니다. 팀들은 마케팅 문구가 아닌 자체 작업을 재실행하는 데 그 돈을 써야 합니다.

인사이트 2: 에이전트 비용은 단위 가격이 주가 아닙니다. 턴 횟수 × 턴당 히스토리 길이입니다. BugFind는 모델당 52~63회의 호출을 사용했고, 단일 턴 입력은 11K 토큰을 초과할 수 있었습니다. 최적화는 더 저렴한 모델 가격뿐만 아니라 히스토리 압축, 서브 에이전트 분해, 캐싱을 목표로 해야 합니다.

생각 기능의 한계 비용 (AIME I 예시)

생각 끄기: USD0.15 / 15문제 ≈ 문제당 USD0.01
생각 켜기: USD0.69 / 15문제 ≈ 문제당 USD0.046

2개의 추가 정답(I-9 및 I-14)은 +USD0.54가 소요되었습니다. 여러분의 비즈니스가 하루 10,000개의 중간 난이도 문제를 처리한다면, 격차는 쉽게 하루 수천 달러에 이를 수 있습니다. 라우팅 전략(생각 없이 시작하고 신뢰도가 낮을 때 생각 기능을 활성화)은 프로덕션에서 필수입니다.

게이트웨이 가격 비교 (2026-06-01)

모델	M당 입력/출력
qwen3.7-plus	USD0.40 / USD1.60
qwen3.7-max	USD1.25 / USD3.75

Max는 Plus보다 약 3배 더 비싸며(출력 기준 약 2.3배), 이번 실행에서 동일한 AIME 점수와 1점 낮은 BugFind 점수를 보여주었습니다. 시간 비용은 보통 토큰 비용보다 비쌉니다. 엔지니어의 대기 시간과 점유된 에이전트 슬롯도 비용입니다.

8. 개발자를 위한 모델 선택 조언

시나리오	권장 사항
에이전트 구축 / 코딩 / 버그 수정	3.7-Plus를 기본 후보군에 넣으십시오. 이번 단일 실행에서 높은 처리량과 많은 반복을 통해 10/10점을 기록했습니다. Max는 텍스트 플래그십/고난이도 예비용으로 유지하되, 플래그십 레이블만 보고 선택하지 마십시오.
지연 시간에 민감한 중간 난이도 추론/수학	생각 기능을 켠 3.7-Plus. 이번 실행에서 Max와 동일한 정확도를 더 낮은 지연 시간으로 기록했습니다.
간단한 Q&A / 분류 / 추출	생각 기능을 끈 3.7-Plus. 추가적인 추론 비용을 아끼십시오.
3.6-Plus를 사용 중인 경우	업그레이드하십시오. 세대 격차의 핵심은 속도이며, 3.5배의 처리량은 사용자 경험을 바꿉니다.

9. 한계 및 정직한 공개

이 기사는 학술 논문이 아닌 오후 한나절의 깊이 있는 스냅샷입니다. 다음 한계점들이 중요합니다:

단일 실행: BugFind와 AIME 모두 pass@k를 사용하지 않았습니다. task05와 I-15와 같은 높은 분산 사례는 반복 검증이 필요합니다.
수평적 경쟁자 비교 없음: Claude, GPT, Gemini, DeepSeek는 테스트되지 않았습니다. 이는 Qwen 제품군 내부의 차이점만을 설명합니다.
3.6-Plus는 6개의 AIME 문제만 완료: 정확도를 15문제 Plus/Max 실행과 직접 비교할 수 없습니다.
가격은 예상 추정치 사용: 공식 가격은 최신 게이트웨이 가격을 확인하십시오. 국내 DashScope 가격은 별도 할인이 있을 수 있습니다.
하나의 에이전트 프레임워크만 사용(Stirrup): SWE-agent로 전환하면 순위가 바뀔 수 있습니다.
멀티모달 샘플 크기는 n=2: 광범위한 비전 능력을 대변할 수 없습니다.
테스트된 모델은 초대 베타 버전: 공식 SKU는 동작이 미세하게 변경될 수 있습니다.
X 데이터는 하루 스냅샷: 작성 시점의 커뮤니티 정서를 포착했으며 게시 후 변경되었을 수 있습니다.

마지막 메모

2026년 6월 공식 서사에서 Qwen3.7-Plus는 비전 리더보드의 중국 플래그십 티어이자, 게이트웨이의 가성비 선택지이며, 커뮤니티가 두려운 반복 속도로 움직인다고 평가하는 새로운 Qwen 가족 구성원입니다.

우리의 재현 가능한 오후 한나절 우주에서, 이 모델은:

이번 실제 코드 버그 수정 테스트에서 유일하게 10/10점을 기록한 모델입니다.
생각 기능을 켰을 때 동일한 경시 수학 문제 세트에서 Max와 동일한 점수를 기록하면서 더 낮은 지연 시간을 보인 모델입니다.
이전 세대 대비 3.55배의 처리량 향상을 전달하여 "완료 불가능"을 과거의 일로 만든 모델입니다.
통제된 이미지 테스트를 통과하면서도 공식 샘플 이미지에서는 여전히 환각을 보임으로써, 스크린샷 하나만 보고 비전 모델을 선택하지 말라고 경고하는 모델입니다.

이러한 결론은 이 작은 샘플, 단일 실행, 고정된 스캐폴드로 범위가 한정됩니다. 이 결과는 Plus를 엔지니어링 기본 후보군에 넣는 것을 뒷받침하지만, 일반적인 모델 순위의 근거는 되지 않습니다.

엔지니어에게, 공식 서사는 비전에 대한 책임을 지고, outputs/ 디렉토리는 증거에 대한 책임을 집니다. 프로덕션을 위한 모델을 선택한다면, 이 리뷰와 함께 동반 데이터 시각화 버전(13_Qwen3.7-Plus_Eval.html)을 읽으십시오. 숫자를 먼저 신뢰하고, 왜 우리가 이를 재게시가 아닌 "평가"라고 부르는지 읽어보십시오.

2026년 AI 모델의 홍수 속에서, 재현 가능한 감사 등급 증거만이 기술적 결정을 위한 단단한 화폐입니다.

목록으로 돌아가기

Qwen3.7-Plus에게 10개의 실제 버그와 15개의 AIME 문제를 테스트했습니다. 이 모델은 두 분야 모두에서 플래그십 모델을 능가했습니다.

요약