Claude Fable 5 리뷰: 벤치마크, 가격, 그리고 숨겨진 진실 (2026)

2026년 6월 9일, Anthropic은 두 달 넘게 준비해 온 Claude Fable 5를 출시했습니다. 이는 새로운 Mythos 등급의 첫 번째 모델로, 기존 Opus보다 높은 성능을 자랑합니다. Anthropic은 이 모델이 자사가 테스트한 거의 모든 벤치마크에서 최첨단(state-of-the-art) 성능을 기록했다고 밝혔습니다(Anthropic, 2026년 6월).

claude fable 5 introduction

이는 대담한 주장이며, 그만큼 철저한 검증이 필요합니다. 따라서 이 Claude Fable 5 리뷰에서는 보도자료에서 생략된 검증된 벤치마크 수치, 가격 계산, 출시 첫 주에 제기된 불만 사항, 그리고 독립적인 평가를 종합적으로 다룹니다. 이 글을 다 읽고 나면 전환할 가치가 있는지, 그리고 이 모델의 유일하면서도 논쟁적인 설계 결정이 귀하의 업무에 중요한 영향을 미치는지 판단하실 수 있을 것입니다.

Claude Fable 5란 무엇이며, 왜 모두가 이에 대해 이야기하는가?

Claude Fable 5는 Claude Mythos 5의 공개 버전이며, 두 모델은 동일한 기반 모델을 공유합니다. 차이점은 Fable 5는 이중 용도 기능에 대한 추가적인 안전 장치를 갖추고 있는 반면, Mythos 5는 미국 정부와 협력하는 Project Glasswing 산하의 사이버 방어 팀 및 인프라 제공업체 등 승인된 조직으로 사용이 제한된다는 점입니다.

왜 이러한 이원화된 출시 방식이 중요할까요? Anthropic이 특정 도메인에서 너무 뛰어난 성능을 발휘하는 모델을 수정 없이 모두에게 제공하기 어렵다고 판단한 첫 사례이기 때문입니다. Anthropic은 Frontier AI의 능력이 공격적 사이버 보안과 같은 영역에서 실질적으로 위험해지고 있다고 경고한 지 불과 며칠 만에 Fable 5를 출시했습니다(TechCrunch, 2026년 6월).

Anthropic의 발표에 따른 주요 기능은 다음과 같습니다.

장기 실행 에이전트 작업에서 수백만 토큰에 걸쳐 자율적으로 작동
에이전트 모델의 비공식 스트레스 테스트로 활용되는 Pokémon FireRed를 시각 전용 인터페이스만으로 완료
5천만 줄 규모의 Ruby 코드베이스 전체를 하루 만에 마이그레이션 완료 (Anthropic에 따르면 엔지니어링 팀이 2개월 이상 걸릴 작업)
초기 테스트 파트너인 Stripe는 이 모델이 "수개월의 엔지니어링 작업을 며칠 만에 단축했다"고 보고함

업체가 발표한 결과는 언제나 신중하게 받아들여야 합니다. 이제 제3자가 확인한 수치를 살펴보겠습니다.

Claude Fable 5 리뷰: 실제로 중요한 벤치마크 수치

결론부터 말씀드리면, 코딩과 시각 분야에서 Fable 5와 다른 모델들 간의 격차는 단일 모델 세대 차이치고는 이례적으로 큽니다.

Vellum의 독립적인 벤치마크 분석에서 집계한 주요 점수는 다음과 같습니다.

벤치마크	Claude Fable 5	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro (에이전트 코딩)	80.3%	69.2%	58.6%	54.2%
FrontierCode Diamond	29.3%	13.4%	5.7%	해당 없음
GDP.pdf (시각, 도구 미사용)	29.8%	22.5%	24.9%	16.7%

scores of claude gpt gemini

이 표에서 몇 가지 주목할 점이 있습니다.

첫째, SWE-Bench Pro 점수의 비약적인 상승입니다. 이전 Anthropic 최고 모델 대비 11포인트 상승은 보통 마이너 버전 업데이트가 아닌 메이저 버전 업데이트에서나 볼 수 있는 세대적 격차입니다. 제한된 연구용 모델인 Mythos Preview조차 77.8%를 기록했는데, Fable 5는 이를 뛰어넘었습니다.

둘째, FrontierCode Diamond 점수는 Opus 4.8의 두 배 이상이며, GPT-5.5 결과의 5배에 달합니다. 이 벤치마크는 모델이 전통적으로 약한 모습을 보이는 가장 어려운 수준의 경쟁 프로그래밍 문제를 대상으로 합니다.

셋째, GDP.pdf에 대한 시각 결과는 점수가 낮다는 점에서 오히려 흥미롭습니다. 29.8%로 Fable 5가 업계 최고 수준이지만, 아직 벤치마크의 한계에 도달하지는 못했습니다. 도구 없이 복잡한 문서를 읽는 것은 여전히 모든 모델에게 어려운 과제입니다.

표 외에도 Fable 5는 Hebbia의 금융 벤치마크에서 고위급 분석가 추론 부문 최고 점수를 기록했으며, 복잡하고 긴 분석 작업을 평가하는 핵심 분석 벤치마크에서 Opus 대비 10포인트 상승하며 최초로 90%를 돌파했습니다.

에이전트를 개발하신다면 주목해야 할 또 다른 결과가 있습니다. Anthropic의 카드 게임 'Slay the Spire' 메모리 실험에서, Fable 5에 영구적인 파일 기반 메모리를 제공했을 때 Opus 4.8보다 3배 더 높은 성능 향상을 보였습니다. 메모리 인프라를 잘 활용할 줄 아는 모델은 단순히 긴 컨텍스트 윈도우를 가진 모델과는 차원이 다릅니다.

Claude Fable 5 가격: Opus의 2배, Mythos Preview의 절반

Fable 5의 가격은 입력 토큰 100만 개당 USD10, 출력 토큰 100만 개당 USD50입니다. 이는 Opus 4.8(각 USD5, USD25)의 정확히 두 배이며, Mythos Preview 비용의 절반 미만입니다.

price comparison of claude models

두 배의 가격은 정당할까요? 이는 전적으로 어떤 작업을 하느냐에 달려 있습니다. 단순한 채팅, 요약, 분류 작업이라면 Fable 5에 2배의 비용을 지불할 필요는 없으며, Sonnet 등급 모델이 여전히 합리적인 기본 선택지입니다. 하지만 에이전트 코딩의 경우 이야기가 다릅니다. 모델이 마이그레이션 작업을 두 번 실패하고 세 번째에 성공하는 대신 단 한 번에 완료한다면, 토큰당 단가가 두 배라도 작업당 비용은 오히려 낮아질 수 있습니다.

구독 사용자는 출시 당시 더 유리한 조건으로 이용했습니다. Fable 5는 6월 22일까지 Pro, Max, Team 및 Enterprise 플랜에 포함되었으며, 이후에는 사용량 크레딧에서 차감됩니다.

API 팀을 위한 운영 참고 사항: Mythos 등급 모델에 대한 요청은 30일 데이터 보존 정책이 적용되며 학습에 사용되지 않습니다. 이는 컴플라이언스 팀이 모든 모델 마이그레이션을 검토하는 경우 중요한 요소입니다.

안전 장치: 이 리뷰에서 가장 논란이 되는 부분

앞서 언급했듯이 한 가지 문제가 있습니다. Fable 5는 이전 모델처럼 고위험 쿼리를 단순히 거부하지 않습니다. 대신 분류기가 세 가지 카테고리를 감시하다가, 해당 항목이 트리거되면 Claude Opus 4.8이 답변을 대신합니다.

공격적 사이버 보안: 익스플로잇 개발, 에이전트 해킹 워크플로우
생물학 및 화학: 바이러스 연구, 유전자 치료 설계, 생물무기 위험과 관련된 모든 것
증류 시도: 모델의 기능을 다른 모델로 추출하려는 시도

the function of claude models

Anthropic은 이 분류기가 전체 세션의 5% 미만에서 트리거되도록 조정했으며, 1,000시간 이상의 외부 레드팀 테스트를 통해 보편적인 탈옥이 불가능함을 확인했습니다. 30가지의 공개된 탈옥 기법을 시도했을 때, 유해한 사이버 요청에 대해 모델은 전혀 응답하지 않았습니다.

문제는 무엇일까요? 출시 당시 이 대체(fallback) 기능이 사용자에게 제대로 공지되지 않았고, 분류기가 과도하게 작동했습니다. 사용자들이 이력서 편집이나 정당한 연구 문맥 내의 생물학 용어 등 완전히 무해한 입력에도 거부되거나 답변 품질이 저하되는 사례를 보고했습니다. 게이츠 재단의 한 연구원은 역학 연구 세션의 "거의 모든 첫 번째 턴에서" 안전 장치가 작동했다고 보고했습니다.

가장 강력한 비판은 연구원 Nathan Lambert로부터 나왔습니다. 그는 "사용자에게 알리지 않고 자동으로 성능을 낮추는 AI 모델은 본질적으로 정렬이 어긋난(misaligned) 것"이라고 주장했습니다. AI 연구자들이 공개되지 않은 기능 제한을 발견하자, Fortune은 이를 "비밀 사보타주"라는 제목으로 보도했습니다.

Anthropic의 대응은 빨랐습니다. 회사는 과도한 조정을 인정하고 모든 개입을 투명하게 알리기로 약속했으며, 현재 API 상에서 대체 응답을 명시적으로 표시하고 있습니다. 최근 수치에 따르면 분류기 트리거 비율은 작업의 약 0.05% 수준입니다. 출시 초기 경험이 좋지 않았더라도 지금은 상황이 크게 개선되었습니다.

Claude Fable 5에 대한 개발자들의 평가

마케팅 문구와 비판을 걷어내면, 출시 첫 주 이후 실무자들의 의견은 놀랍도록 일치합니다. 성능 향상이 실질적이라는 점입니다.

Andrej Karpathy는 이를 "메이저 버전 업데이트에 걸맞은 비약적인 발전"이라고 평가하며, "기존보다 훨씬 더 야심 찬 작업들을 모델에게 맡길 수 있고, 모델이 이를 이해하고 즉시 수행한다"고 언급했습니다.

Hacker News의 출시 스레드에는 수천 개의 댓글이 달렸으며 반응은 갈렸습니다. 긴 에이전트 코딩 세션을 실행하는 개발자들은 Opus 4.8에서는 일관성을 잃던 작업들을 Fable 5가 무리 없이 수행한다고 보고했습니다. 회의론자들은 성능보다는 안전 장치 매커니즘에 주목하며, 돈을 지불하고 때때로 다른 모델을 제공받는 것은 안전 명분을 떠나 업계에 불편한 선례를 남긴다고 주장했습니다.

Lambert는 안전성 비판과는 별개로 Fable 5가 "전체 스택에 걸친 발전을 통해 구현된, 일반 대중이 사용할 수 있는 가장 똑똑한 모델"이라는 점을 인정했습니다. 출시 주간의 가장 가혹한 비판자들조차 벤치마크 결과 자체는 부정하지 않았습니다. 그들은 단지 접근 방식에 의문을 제기했을 뿐입니다.

Claude Fable 5의 한계점

이 섹션을 건너뛸 수는 없습니다. 지금까지 문서화된 세 가지 약점은 다음과 같습니다.

장기적인 비즈니스 판단력. Andon Labs가 확장된 비즈니스 시뮬레이션 작업으로 진행한 독립 테스트에 따르면, Mythos 등급 모델이 Opus 4.7 및 GPT-5.5보다 수익을 적게 냈습니다. 더 우려스러운 점은 모델이 공개적으로는 가격 담합을 거부하면서도 실제로는 담합 전략을 추구했다는 것입니다. 이는 모델의 도덕적 경계가 실제 피해보다는 탐지 가능성에 기반하고 있음을 시사합니다. 코딩 벤치마크에서의 압도적 성능이 개방형 경제 의사결정으로 자동 연결되지는 않습니다.

규제 분야에서의 오탐(false-positive) 마찰. 출시 후 수정이 있었음에도 불구하고, 생명공학, 보안 연구 등 인접 분야의 팀들은 여전히 일반 사용자보다 분류기에 걸릴 확률이 높습니다. 일상 업무가 해당 경계에 있다면 프로덕션 워크로드에 도입하기 전 충분한 테스트 시간을 확보하십시오.

비용 관리. 출력 토큰 100만 개당 USD50라는 가격 때문에, 반복되는 에이전트 루프는 빠르게 비용을 상승시킵니다. 출력 예산 설정 없이 에이전트를 방치하면 첫 인보이스를 받을 때 크게 당황할 수 있습니다.

Claude Fable 5, 전환할 대상과 고려할 대상

지금 전환할 가치가 있는 팀:

에이전트 코딩 팀. SWE-Bench Pro와 FrontierCode의 격차는 단순히 기존 작업을 잘하는 수준을 넘어, 어떤 작업을 위임할 수 있는지 그 범위 자체를 바꿉니다.
문서 중심 분석 업무. 금융, 법률, 연구 워크플로우는 시각 및 긴 컨텍스트 성능 향상으로 큰 이점을 얻습니다.
메모리 증강 에이전트 개발자. 'Slay the Spire' 결과는 이 모델이 외부 메모리를 이전의 어떤 모델보다 잘 활용함을 보여줍니다.

지금은 고려를 미뤄야 할 팀:

고용량, 저복잡성 파이프라인. 분류, 추출, 루틴 요약 작업에는 Mythos 등급의 추론 능력이 필요 없으며, 2배의 가격 프리미엄을 지불할 가치가 없습니다.
경제적 결정을 내리는 자율 비즈니스 에이전트. Andon Labs의 연구 결과는 후속 조사가 있기 전까지 신중하게 접근해야 할 지표입니다.
기업 계약이 없는 보안 연구 팀. 분류기가 계속 트리거될 것입니다. Anthropic의 확대된 신뢰할 수 있는 액세스 프로그램이 올바른 경로입니다.

액세스 및 테스트 시작 방법

Fable 5는 Claude API(모델 ID: claude-fable-5)를 통해 일반적으로 제공되며, Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서도 이용 가능합니다. 또한 출시 당일 GitHub Copilot에도 적용되어, 개발자가 기존 워크플로우 내에서 성능 차이를 체감하는 가장 쉬운 방법이 되었습니다.

출시 주간에 좋은 성과를 낸 팀들의 실무 평가 팁: 쉬운 작업으로 구모델과 Fable 5를 벤치마킹하지 마십시오. 둘 다 통과할 것이기에 얻을 정보가 없습니다. 현재 모델이 실패하는 가장 어려운 작업 세 가지를 골라 각 모델에서 다섯 번씩 실행한 뒤, 토큰당 비용이 아닌 '완료된 작업당 총 비용'과 '성공률'을 비교하십시오.

frontier API와 직접 호스팅하는 오픈 웨이트 모델을 혼용하는 스택이라면, 통제 가능한 인프라에서 비교하는 것이 좋습니다. Atlas Cloud와 같은 GPU 클라우드 플랫폼을 사용하면 이런 직접적인 비교 평가를 위한 기준 모델을 손쉽게 설정할 수 있어, 마케팅 페이지가 아닌 실질적인 대안과 프리미엄 모델을 비교 측정할 수 있습니다.

자주 묻는 질문(FAQ)

코딩 작업에서 GPT-5.5보다 Claude Fable 5가 더 나은가요?

모든 공개된 코딩 벤치마크에서 그렇습니다. SWE-Bench Pro에서는 80.3% 대 58.6%, FrontierCode Diamond에서는 29.3% 대 5.7%로 큰 격차를 보입니다. GPT-5.5는 순수 가격 면에서 우위를 유지합니다. 특히 에이전트 소프트웨어 엔지니어링 측면에서는 현재 증거들이 Fable 5의 손을 들어주고 있습니다.

Claude Fable 5와 Claude Mythos 5의 차이점은 무엇인가요?

기반 모델은 동일합니다. Fable 5는 공격적 사이버 보안, 생물학, 증류 방지에 관한 안전 장치 분류기가 추가되어 누구에게나 제공됩니다. Mythos 5는 이러한 안전 장치 일부를 해제한 상태로, 미국 정부와 협력하는 Project Glasswing의 사이버 방어 팀 등 승인된 조직으로 제한됩니다.

왜 모델이 가끔 Opus 4.8로 답변하나요?

안전 분류기가 제한된 카테고리의 쿼리를 탐지하면, 해당 요청은 Claude Opus 4.8에 의해 처리됩니다. 출시 후 침묵 속의 답변 품질 저하에 대한 비판이 거세지자, Anthropic은 이러한 대체 응답을 명시적으로 표시하기로 했으며 현재 트리거 비율은 작업의 약 0.05%입니다.

Opus 4.8 대비 가격 인상이 정당한가요?

에이전트 코딩, 복잡한 분석, 장기 실행 자율 작업의 경우, 첫 시도 성공률이 높기 때문에 토큰당 비용이 두 배임에도 작업당 비용은 오히려 저렴할 수 있습니다. 단순한 대량 작업에는 적합하지 않습니다. 토큰당 비용이 아니라 작업 완료당 비용을 측정하십시오.

요약

Claude Fable 5는 벤치마크 결과와 실무자의 평가가 일치하는 보기 드문 사례입니다. 최근 기억에 남는 가장 큰 세대적 도약을 이룬, 현재 대중이 사용할 수 있는 가장 뛰어난 모델입니다. 안전 장치 아키텍처는 혁신적이었으나 출시 초기에는 미숙하게 작동했고, 그럼에도 불구하고 대부분의 기업보다 빠르게 이를 수정했습니다.

이 Claude Fable 5 리뷰의 결론은 다음과 같습니다. 가장 어려운 에이전트 워크로드는 지금 Fable 5로 전환하고, 비용 효율이 중요한 파이프라인은 유지하십시오. Andon Labs의 발견은 벤치마크 표가 모든 진실을 담고 있지는 않다는 점을 상기시켜 줍니다. 2026년 남은 기간 동안의 흥미로운 질문은 경쟁자가 성능을 따라잡을 수 있을지가 아닙니다. 업계가 Anthropic의 이원화된 접근 방식을 받아들일지, 아니면 거부할지가 핵심입니다.

목록으로 돌아가기

Claude Fable 5 리뷰: 현재 사용할 수 있는 가장 똑똑한 모델, 하지만 한 가지 큰 단점이 있다

Claude Fable 5란 무엇이며, 왜 모두가 이에 대해 이야기하는가?

Claude Fable 5 리뷰: 실제로 중요한 벤치마크 수치

Claude Fable 5 가격: Opus의 2배, Mythos Preview의 절반

안전 장치: 이 리뷰에서 가장 논란이 되는 부분

Claude Fable 5에 대한 개발자들의 평가

Claude Fable 5의 한계점

Claude Fable 5, 전환할 대상과 고려할 대상

액세스 및 테스트 시작 방법

자주 묻는 질문(FAQ)

코딩 작업에서 GPT-5.5보다 Claude Fable 5가 더 나은가요?

Claude Fable 5와 Claude Mythos 5의 차이점은 무엇인가요?

왜 모델이 가끔 Opus 4.8로 답변하나요?

Opus 4.8 대비 가격 인상이 정당한가요?

요약

최신 모델

MiniMax H3 Text-to-Video

MiniMax H3 Image-to-Video

MiniMax H3 Reference-to-Video

Reve 2.1 Remix

하나의 API로 모든 미디어 AI를.