Codex Fast Mode vs Claude Fast Mode, 뭐가 다를까
- Codex는 동일 GPT-5.4를 1.5배 빠르게 서빙하는 fast mode와, Cerebras 위에서 돌아가는 별도 초고속 소형 모델 Spark라는 두 가지 fast 트랙이 있습니다.
- Claude는 동일한 Opus 4.6을 인프라 레벨에서 우선 처리해 최대 2.5배 빠르게 서빙하며, 품질은 유지되지만 가격 프리미엄이 큽니다.
- 결국 어떤 fast mode가 더 좋은지는 단순 속도가 아니라, 품질 유지·가격·실수 비용까지 포함한 워크플로우 전체 맥락에서 결정됩니다.
TL;DR
Codex와 Claude 모두 'fast mode'를 지원하지만, 속도를 올리는 방식이 완전히 다릅니다. Codex는 Cerebras 웨이퍼급 칩으로 별도의 소형 모델(Spark)을 초당 1,000토큰 넘게 돌리거나, 동일 GPT-5.4 모델을 1.5배 빠르게 서빙하는 두 가지 트랙이 있습니다. Claude는 동일한 Opus 4.6을 인프라 레벨에서 우선 처리하여 2.5배 빠르게 서빙합니다. 가격, 속도, 지능 유지 여부가 미묘하게 다르고, 실사용에서 어떤 쪽이 유리한지는 워크플로우에 따라 갈립니다.
궁금증의 시작
Codex와 Claude Code를 둘 다 쓰다 보니 양쪽 모두 fast mode를 제공한다는 건 알고 있었습니다. 근데 가격도 다르고, 체감 속도도 다르더군요. Sean Goedecke의 "Two different tricks for fast LLM inference" 글에서 두 회사의 구현 방식 자체가 근본적으로 다르다는 걸 보고 본격적으로 파보게 됐습니다.
Codex의 fast mode: 두 가지 트랙
Codex 쪽은 사실 "fast"라고 부를 수 있는 게 두 가지입니다.
첫 번째는 GPT-5.4의 fast mode입니다. 동일한 GPT-5.4 모델을 1.5배 빠르게 서빙하고, 크레딧은 2배 소모됩니다. 모델 자체는 바뀌지 않기 때문에 지능 저하가 없습니다. CLI에서 /fast on으로 켜고 끌 수 있는 간단한 토글이죠.
Nathan Lambert는 GPT-5.4 fast mode + xhigh reasoning effort로 써도 Codex 리밋에 닿은 적이 없다고 했는데, Claude는 가끔 리밋에 걸린다고 하더군요. OpenAI 쪽이 토큰 효율이 좋은 건지 리밋이 널널한 건지, 체감상 확실히 여유가 있습니다.
두 번째는 GPT-5.3-Codex-Spark라는 별도의 모델입니다. 이쪽이 진짜 "초고속"인데, Cerebras의 WSE-3(Wafer-Scale Engine 3) 칩 위에서 구동됩니다. 초당 1,000토큰 이상을 뽑아내는 괴물이죠. 현재 ChatGPT Pro 구독자 대상 리서치 프리뷰로 제공되고 있습니다.
Cerebras WSE-3: GPU와는 다른 세계
Cerebras WSE-3는 일반 GPU와 근본적으로 다릅니다. NVIDIA의 플래그십 B200이 2,080억 트랜지스터인 데 반해, Cerebras 칩은 4조 개 트랜지스터를 약 90만 개 코어에 걸쳐 단일 실리콘 웨이퍼에 집적했습니다. 핵심은 칩 내부 메모리 대역폭이 초당 27페타바이트에 달한다는 건데, LLM 추론의 실질적 병목인 메모리 대역폭 문제를 하드웨어 레벨에서 해결한 것이죠.
다만 WSE-3의 온칩 메모리가 44GB이기 때문에 GPT-5.3-Codex 같은 대형 모델을 통째로 올리기는 어렵습니다. 그래서 Spark는 더 작은 모델이고, 실사용에서 tool call이 꼬이는 등 "소형 모델 특유의 냄새"가 난다는 평가가 있더군요.
OpenAI와 Cerebras 사이에는 최대 $10B 규모의 다년 파트너십이 체결되어 있고, 750MW 규모의 데이터센터를 구축하기로 한 상태입니다. 향후 더 큰 프론티어 모델도 Cerebras 하드웨어 위에서 돌리겠다는 계획이니, Spark는 시작에 불과합니다.
OpenAI가 Spark를 소개하면서 인프라 레벨 최적화도 함께 공개했는데, persistent WebSocket 연결 도입과 Responses API 내부 최적화를 통해 클라이언트-서버 라운드트립 오버헤드를 80%, 토큰당 오버헤드를 30%, TTFT를 50% 줄였다고 합니다. 모델만 빠른 게 아니라 파이프라인 전체를 손본 것이죠.
Claude의 fast mode: 같은 모델, 다른 인프라
Claude의 접근은 훨씬 단순합니다. Opus 4.6 모델 자체는 완전히 동일하고, API 설정에서 speed: "fast"를 지정하면 인프라 레벨에서 우선 처리됩니다. 공식 문서 기준으로 출력 토큰 속도(OTPS)가 최대 2.5배 향상됩니다. TTFT(첫 토큰까지의 시간)가 아니라 출력 속도에 집중하는 방식이죠.
내부 구현에 대해 Anthropic이 공식적으로 밝힌 건 없지만, low-batch-size 추론으로 GPU를 더 많이 전용 할당하는 방식으로 추정됩니다. 작은 배치 사이즈로 돌리면 GPU 활용 효율은 떨어지지만 개별 요청의 응답 속도는 올라가거든요. 그 비효율을 6배 프리미엄 가격으로 보전하는 구조입니다.
Claude Code에서는 /fast 토글로 켜고 끌 수 있고, v2.1.36 이상이 필요합니다. 켜면 자동으로 Opus 4.6로 전환되고, 프롬프트 옆에 ↯ 아이콘이 표시됩니다.
한 가지 주의할 점은 fast mode 사용량이 구독 플랜의 포함 사용량이 아니라 extra usage로 직접 과금된다는 겁니다. 첫 토큰부터 fast mode 요금이 적용되기 때문에 비용 관리에 신경 써야 합니다.
참고로 fast mode와 effort level은 완전히 다른 축입니다. effort를 낮추면 모델이 추론에 쓰는 시간 자체가 줄어들어 품질이 떨어질 수 있지만, fast mode는 동일한 추론을 인프라적으로 빠르게 서빙할 뿐입니다. 둘을 조합할 수도 있는데, 단순 작업에는 fast mode + 낮은 effort, 복잡한 작업에는 fast mode + 높은 effort가 권장됩니다.
핵심 차이 정리
가장 중요한 차이점을 정리하면 이렇습니다.
- Codex GPT-5.4 fast mode: 1.5배 속도, 2배 크레딧, 동일 모델
- Codex Spark: 15배 이상 빠른 별도 초고속 소형 모델
- Claude fast mode: 최대 2.5배 속도, 6배 가격, 동일 Opus 4.6 모델
Sean Goedecke의 분석이 이 차이를 잘 짚었는데, Anthropic은 실제 Opus 4.6을 서빙하는 반면 OpenAI의 Spark는 능력이 떨어지는 별도 모델이라는 점입니다. 속도만 놓고 보면 Spark가 Claude fast의 6배 정도 빠르지만, 모델 품질 측면에서는 Claude 쪽이 유리합니다.
AI 에이전트의 유용성은 실수를 얼마나 적게 하느냐에 의해 결정되지, 단순 속도로 결정되지 않는다는 관점도 있습니다. 6배 빠른 대신 실수가 20% 늘어나면 오히려 손해인데, 실수를 처리하는 데 드는 시간이 모델 응답을 기다리는 시간보다 훨씬 크기 때문입니다.
정리하면 동일 모델 fast끼리 비교하면 Claude(2.5배)가 Codex(1.5배)보다 속도 향상 폭이 크지만, 가격도 6배 vs 2배로 훨씬 비쌉니다. Spark까지 포함하면 OpenAI 쪽이 압도적으로 빠르지만 다른 모델이라는 점을 감안해야 합니다.
Speculative Decoding 이야기
처음 조사할 때 "Codex fast mode가 speculative decoding을 쓴다"는 정보를 접했는데, 이건 정확하지 않았습니다. Speculative decoding 자체는 업계에서 널리 쓰이는 추론 최적화 기법이지만, Codex fast mode에 적용됐다는 공식 확인은 없습니다.
Speculative decoding의 원리 자체는 흥미롭습니다. 작은 draft 모델이 다음 토큰들을 미리 예측하고, 큰 본 모델이 한 번의 연산으로 이를 검증하는 방식이죠. Google이 2022년에 논문을 발표했고, AI Overviews 등 자사 제품에 실제로 적용하여 일반적으로 2~3배 속도 향상을 얻고 있습니다. 출력 분포가 수학적으로 동일하게 보장되기 때문에 품질 저하가 전혀 없다는 게 핵심입니다.
Codex Spark의 경우 이 방식보다는 Cerebras 칩의 하드웨어 특성 자체가 속도의 원천입니다. 온칩 SRAM에 모델이 상주하면서 메모리 대역폭 병목을 근본적으로 제거하는 방식이죠. 물론 내부적으로 speculative decoding을 추가로 적용하고 있을 가능성은 있지만, 공식적으로는 확인되지 않았습니다.
마치며
Peter Steinberger(steipete)를 보면 감탄스럽습니다. OpenAI 구독 4개에 Anthropic 구독 1개, 월 약 $1,000을 쓰면서 Codex CLI를 3~8개 병렬로 3x3 터미널 그리드에서 돌리고, 하루에 600커밋을 찍는 워크플로우를 보면 정말 다른 차원이죠. API로 쓰면 10배는 더 나올 거라는 본인 계산이니, 구독 여러 개 돌리는 게 합리적인 선택입니다. 최근에는 OpenAI에 합류했다는 소식까지 들려왔습니다.
Peter는 한때 Claude Code 열혈 유저였지만 점점 Codex 쪽으로 기울었습니다. 이유가 재밌는데, Claude Code가 자꾸 "absolutely right", "100% production ready" 같은 말을 하면서 테스트가 실패하는 게 견딜 수 없었다고 합니다. Codex는 내향적인 엔지니어처럼 묵묵히 일하는 느낌이라는 거죠. 코드를 훨씬 많이 읽고 나서 작업을 시작하기 때문에 짧은 프롬프트로도 의도를 잘 파악한다더군요. 결국 추가 Anthropic 구독까지 취소하고 Codex를 메인 드라이버로 쓰게 됐습니다. 물론 Claude도 여전히 쓰지만 비중이 많이 줄었다고 합니다.
Claude Max를 쓸 때나 지금처럼 Codex Pro를 쓸 때나 제공되는 주간 quota를 다 소모하기도 힘든데, 저런 분들은 구독을 5개씩 돌리고 있습니다. AI 팟캐스트들을 보면 더 많이 쓰는 분들도 꽤 있더군요. 예전에 토큰을 미친 듯이 소모하기 위한 병렬 프로젝트 개발 뇌를 만들려고 적응하느라 힘들었는데, 이제 두통은 안 느껴집니다. 대신 어떻게 더 뭘 할 수 있을까 항상 고민하다 막히곤 합니다. 그래서 다른 프로젝트가 떠오르고, 거기서 또 새로운 작업이 생겨나는 식이죠. 여러 프로젝트를 돌리는 게 결국 리프레시 역할을 하더군요. 다른 프로젝트를 진행하면서 관심을 잠깐 끊으면 막혔던 프로젝트에 대한 아이디어가 다시 떠오릅니다.
Peter처럼 여러 에이전트를 동시에 돌리면, 하나가 돌아가는 동안 다른 작업을 이어갈 수 있어서 전체 속도가 꽤 올라갑니다. 규모는 다르지만 저도 비슷한 흐름을 느끼고 있습니다.
이런 병렬 작업에서는 fast mode가 비용은 많이 들지만, 잘 쓰면 시간을 엄청나게 아낄 수 있습니다.
그리고 가끔 Codex나 Claude에서 오류로 주간 한도가 초기화되는 경우가 있습니다. 그래서 너무 아끼면서 쓰다가 초기화되면 손해 보는 느낌이 들더군요. 저는 요즘 어느 정도는 fast mode로 돌리고, 주간 한도가 적어지면 그때 fast를 끄는 편입니다. ㅋㅋ
Refs
- Codex Speed - OpenAI Developers
- Introducing GPT-5.3-Codex-Spark - OpenAI
- Introducing GPT-5.4 - OpenAI
- Fast mode - Claude API Docs
- Speed up responses with fast mode - Claude Code Docs
- Two different tricks for fast LLM inference - Sean Goedecke
- GPT 5.4 is a big step for Codex - Nathan Lambert
- Introducing GPT-5.3-Codex-Spark - Cerebras Blog
- Looking back at speculative decoding - Google Research
- Just Talk To It - Peter Steinberger


