2026년 3월 현재, AI 모델 시장은 유례없는 혼전 양상이다. Anthropic, OpenAI, Google, xAI 네 진영이 수십 개의 모델을 쏟아내고 있고, 개발자들은 성능·비용·속도 사이에서 끊임없이 저울질해야 한다. 그 한가운데에 Claude Haiku 4.5가 있다. 100만 토큰당 입력 1달러, 출력 5달러라는 가격으로 SWE-bench Verified 73.3%를 찍은 이 모델은, 출시 5개월이 지난 지금도 소형 모델 카테고리에서 가장 논쟁적인 존재다.
문제는 단순하다. "내 워크로드에 Haiku 4.5가 맞는가, 아니면 GPT-5.4 Nano가 맞는가, Gemini 3 Flash가 맞는가?" 이 질문에 답하려면 가격표만 봐서는 안 된다. 벤치마크, 컨텍스트 윈도우, 지원 기능, 실제 속도까지 교차 검증해야 한다.
이 글에서는 OpenRouter 기준 가격 데이터를 축으로, Claude 전 라인업(Opus 4.6, Sonnet 4.6, Sonnet 4.5, Opus 4.5, Haiku 4.5)과 OpenAI(GPT-5.4 Pro/기본/Mini/Nano), Google(Gemini 3.1 Pro, 3 Pro, 3 Flash, 3.1 Flash-Lite), xAI(Grok 4, Grok 4.1 Fast)까지 메이저 모델 전체를 대상으로 Haiku 4.5의 포지션을 입체적으로 분석한다.
| 항목 | 세부 정보 |
|---|---|
| 분석 대상 모델 수 | 16종 (4개 진영) |
| 가격 기준 | OpenRouter 2026년 3월 기준 |
| 핵심 벤치마크 | SWE-bench Verified, OSWorld, Terminal-Bench |
| Haiku 4.5 출시일 | 2025년 10월 15일 |
| Haiku 4.5 가격 | 입력 1달러 / 출력 5달러 (MTok) |
OpenRouter 기준 메이저 모델 가격 전면 비교
AI 모델 선택에서 가격은 가장 먼저 확인해야 할 변수다. OpenRouter는 동일한 모델을 여러 프로바이더를 통해 제공하며, 표준 가격(list price) 기준으로 투명한 비교가 가능하다. 아래 표는 2026년 3월 기준 OpenRouter 표준 가격이다.
플래그십 & 프론티어 모델 가격표
| 모델 | 개발사 | 입력 (MTok) | 출력 (MTok) | 컨텍스트 | 최대 출력 |
|---|---|---|---|---|---|
| Claude Opus 4.6 | Anthropic | 5달러 | 25달러 | 200K | 64K |
| Claude Opus 4.5 | Anthropic | 5달러 | 25달러 | 200K | 64K |
| GPT-5.4 Pro | OpenAI | 30달러 | 180달러 | 1.1M | - |
| GPT-5.4 | OpenAI | 2.50달러 | 15달러 | 272K | 128K |
| Gemini 3.1 Pro | 2달러 | 12달러 | 1M | 65K | |
| Gemini 3 Pro | 2달러 | 12달러 | 1M | 65K | |
| Grok 4 | xAI | 3달러 | 15달러 | 256K | - |
밸런스형 모델 가격표
| 모델 | 개발사 | 입력 (MTok) | 출력 (MTok) | 컨텍스트 | 최대 출력 |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | Anthropic | 3달러 | 15달러 | 200K | 64K |
| Claude Sonnet 4.5 | Anthropic | 3달러 | 15달러 | 1M | 64K |
| GPT-5 | OpenAI | 1.25달러 | 10달러 | 272K | 128K |
소형·경량 모델 가격표 (Haiku 4.5 직접 경쟁군)
| 모델 | 개발사 | 입력 (MTok) | 출력 (MTok) | 컨텍스트 | 최대 출력 |
|---|---|---|---|---|---|
| Claude Haiku 4.5 | Anthropic | 1달러 | 5달러 | 200K | 64K |
| GPT-5.4 Mini | OpenAI | 0.75달러 | 4.50달러 | 272K | 128K |
| GPT-5.4 Nano | OpenAI | 0.20달러 | 1.20달러 | 272K | 128K |
| GPT-5 Mini | OpenAI | 0.25달러 | 2달러 | 272K | 128K |
| GPT-5 Nano | OpenAI | 0.05달러 | 0.40달러 | 272K | 128K |
| Gemini 3 Flash | 0.50달러 | 3달러 | 1M | - | |
| Gemini 3.1 Flash-Lite | 0.25달러 | 1.50달러 | 1M | - | |
| Grok 4.1 Fast | xAI | 0.20달러 | 0.50달러 | 2M | - |
OpenRouter의 표시 가격은 프로바이더별 가중 평균과 다를 수 있다. 예를 들어 Claude Opus 4.5의 표준 가격은 입력 5달러지만, 실제 가중 평균 입력 가격은 2.22달러까지 낮아지는 경우가 있다. 여러 프로바이더가 경쟁 가격을 제시하기 때문이다. 대량 사용 시에는 반드시 프로바이더별 실시간 가격을 확인해야 한다.
순수 토큰 단가만 비교하면 Grok 4.1 Fast(입력 0.20달러/출력 0.50달러)나 GPT-5 Nano(0.05달러/0.40달러)가 Haiku 4.5보다 5-20배 저렴하다. 하지만 이 가격 차이가 곧 "가성비 차이"를 의미하지는 않는다. 벤치마크 성능, 지원 기능(확장 사고, 컴퓨터 사용 등), 출력 품질을 반드시 함께 고려해야 한다.
코딩 벤치마크 크로스 비교: SWE-bench의 진실
SWE-bench Verified는 실제 GitHub 이슈를 해결하는 능력을 측정하는 코딩 벤치마크로, 2026년 3월 현재 AI 모델의 코딩 능력을 가늠하는 사실상의 표준 지표다.
SWE-bench Verified 점수 비교 (2026년 3월 기준)
| 모델 | SWE-bench Verified | 입력 가격 (MTok) | 비용 대비 등급 |
|---|---|---|---|
| Gemini 3.1 Pro | 80.6% | 2달러 | S |
| Claude Opus 4.6 (Thinking) | 79.2 - 80.8% | 5달러 | A |
| Claude Sonnet 4.6 | 79.6% | 3달러 | S |
| GPT-5.4 | 77.2% | 2.50달러 | A |
| Claude Sonnet 4.5 | 77.2% | 3달러 | A |
| Gemini 3 Flash | 76.2% | 0.50달러 | S+ |
| GPT-5 | 74.9% | 1.25달러 | A |
| Claude Haiku 4.5 | 73.3% | 1달러 | A |
| Claude Sonnet 4 | 72.7% | 3달러 | B |
| Grok 4 Code | 72 - 75% | 3달러 | B |
Haiku 4.5의 73.3%는 출시 당시 기준으로 Sonnet 4(72.7%)를 넘어서는 수치였다. 2026년 3월 현재 최상위 모델들이 80% 선에 도달하면서 절대적 수치로는 뒤처지지만, 가격 대비 성능이라는 관점에서 보면 이야기가 달라진다.
100만 토큰당 1달러로 73.3%를 달성한다는 것은, 3달러를 써야 79.6%를 얻는 Sonnet 4.6 대비 3분의 1 비용으로 92% 수준의 코딩 품질을 확보할 수 있다는 의미다. Gemini 3 Flash(0.50달러/76.2%)가 비용 대비 코딩 효율에서 가장 강력한 경쟁자이긴 하지만, Haiku 4.5는 확장 사고와 컴퓨터 사용이라는 고유 기능으로 차별화된다.
SWE-bench Verified에서 Haiku 4.5의 73.3%는 128K 사고 예산, 50회 평균, bash+파일 편집 2개 도구만 사용한 조건의 결과다. 확장 사고를 강하게 활성화(high reasoning)하면 66.6%(SWE-bench 공식 리더보드 기준)까지 점수가 변동하는데, 이는 테스트 하네스와 도구 설정에 따른 차이다. 벤치마크 수치를 인용할 때는 반드시 테스트 조건을 함께 확인해야 한다.
Claude 패밀리 내부 비교: Haiku 4.5는 어디에 서 있는가
2026년 3월 기준 Anthropic의 현역 모델은 5개다. Opus 4.6, Sonnet 4.6, Opus 4.5, Sonnet 4.5, Haiku 4.5. 이 중 Haiku 4.5는 가장 저렴하면서도 놀라울 정도로 강력한 포지션을 유지하고 있다.
| 항목 | Opus 4.6 | Sonnet 4.6 | Opus 4.5 | Sonnet 4.5 | Haiku 4.5 |
|---|---|---|---|---|---|
| 입력 가격 | 5달러 | 3달러 | 5달러 | 3달러 | 1달러 |
| 출력 가격 | 25달러 | 15달러 | 25달러 | 15달러 | 5달러 |
| SWE-bench | 80.8% | 79.6% | 80% | 77.2% | 73.3% |
| OSWorld | - | 72.5% | - | - | 50.7% |
| 컨텍스트 | 200K | 200K | 200K | 1M | 200K |
| 확장 사고 | 지원 | 지원 | 지원 | 지원 | 지원 |
| 컴퓨터 사용 | 지원 | 지원 | 지원 | 지원 | 지원 |
| 포지션 | 최고 추론 | 범용 최강 | 이전 플래그십 | 이전 프론티어 | 속도·비용 최적화 |
핵심 포인트는 이렇다. Haiku 4.5는 Sonnet 4.6 대비 SWE-bench 기준 약 8% 낮지만 가격은 3분의 1이다. Opus 4.6 대비로는 약 9% 낮지만 가격은 5분의 1이다. 이 비율은 대량 API 호출 환경에서 극적인 비용 차이로 이어진다.
실제 PR 400건을 대상으로 한 Qodo의 비교 테스트에서 Haiku 4.5는 Sonnet 4 대비 코드 제안 품질 점수 6.55 대 6.20, 직접 대결 승률 55% 대 45%를 기록했다. Sonnet 4.6이나 Opus 4.6과 직접 비교하면 열세가 있지만, 가격 차이를 감안하면 "3배 더 많은 작업을 처리할 수 있다"는 계산이 성립한다.
Sonnet 4.5의 컨텍스트 윈도우가 1M(100만) 토큰으로 확장된 반면, Haiku 4.5는 200K에 머물러 있다. 대규모 코드베이스나 긴 문서를 한 번에 처리해야 하는 작업에서는 이 차이가 결정적일 수 있다. 컨텍스트 크기가 중요한 워크로드라면 Sonnet 4.5나 Gemini 3.1 Pro(1M)를 고려해야 한다.
4개 진영 소형 모델 정밀 비교: Haiku 4.5 vs GPT-5.4 Nano vs Gemini 3 Flash vs Grok 4.1 Fast
Haiku 4.5의 진짜 경쟁 무대는 소형·경량 모델 카테고리다. 각 진영의 대표 경량 모델을 기능별로 심층 비교한다.
가격 효율 비교
동일한 100만 토큰(입력 50% + 출력 50%)을 처리한다고 가정할 때 비용을 계산하면 다음과 같다.
| 모델 | 100만 토큰 혼합 비용 | Haiku 4.5 대비 |
|---|---|---|
| GPT-5 Nano | 0.225달러 | 13배 저렴 |
| Grok 4.1 Fast | 0.35달러 | 약 9배 저렴 |
| GPT-5.4 Nano | 0.70달러 | 약 4배 저렴 |
| Gemini 3.1 Flash-Lite | 0.875달러 | 약 3배 저렴 |
| GPT-5 Mini | 1.125달러 | 약 3배 저렴 |
| Gemini 3 Flash | 1.75달러 | 약 2배 저렴 |
| Claude Haiku 4.5 | 3달러 | 기준 |
| GPT-5.4 Mini | 2.625달러 | 약 14% 저렴 |
순수 가격만 놓고 보면 Haiku 4.5는 소형 모델 중에서 오히려 비싼 축에 속한다. GPT-5 Nano나 Grok 4.1 Fast에 비하면 큰 차이가 난다.
기능·성능 비교
| 기능 | Haiku 4.5 | GPT-5.4 Nano | Gemini 3 Flash | Grok 4.1 Fast |
|---|---|---|---|---|
| SWE-bench | 73.3% | 52.4%(Pro) | 76.2% | - |
| 확장 사고 | 지원 | 미지원 | 지원(레벨 조절) | 추론 모드 지원 |
| 컴퓨터 사용 | 지원 | 미지원 | 미지원 | 미지원 |
| 비전 | 지원 | 지원 | 지원 | 지원 |
| 컨텍스트 | 200K | 272K | 1M | 2M |
| 최대 출력 | 64K | 128K | - | - |
| 구조화 출력 | 지원 | 지원 | 지원 | 지원 |
| 함수 호출 | 지원 | 지원 | 지원 | 지원 |
| 출력 속도 | 약 95 t/s | - | - | - |
Haiku 4.5만의 차별화 포인트는 명확하다. 컴퓨터 사용(OSWorld 50.7%) 기능은 경쟁 소형 모델 중 유일하게 지원한다. 확장 사고 모드를 통해 추론 깊이를 조절할 수 있으며, 서브 에이전트 오케스트레이션에 최적화된 설계도 독보적이다.
반면 컨텍스트 윈도우는 200K로, Grok 4.1 Fast(2M)이나 Gemini 3 Flash(1M)에 비해 5-10배 작다. 대규모 문서 처리나 초장문 대화에서는 구조적 한계가 있다.
Haiku 4.5의 가격이 경쟁 모델 대비 높다고 느껴지더라도, 배치 처리(50% 할인)와 프롬프트 캐싱(최대 90% 할인)을 결합하면 실질 비용을 크게 낮출 수 있다. 입력 기준 프롬프트 캐싱 적용 시 100만 토큰당 0.10달러, 배치+캐싱 결합 시 출력 2.50달러 수준까지 내려가므로, 반복 작업이 많은 파이프라인에서는 GPT-5 Nano와의 가격 차이가 크게 줄어든다.
Haiku 4.5의 고유 무기: 컴퓨터 사용과 서브 에이전트 아키텍처
가격 비교에서 밀리는 Haiku 4.5가 여전히 선택받는 이유는 두 가지 고유 기능에 있다.
컴퓨터 사용 (Computer Use)
OSWorld 벤치마크에서 50.7% 성공률을 기록한 이 기능은, AI가 스크린샷을 보고 마우스 클릭과 키보드 입력을 수행하는 능력이다. Sonnet 4의 42.2%, Sonnet 3.5의 14%를 크게 앞서는 수치로, 소형 모델 기준 최고 성능이다. Sonnet 4.6은 72.5%까지 올라갔지만 가격이 3배다.
RPA(로봇 프로세스 자동화), 웹 스크래핑 자동화, QA 테스트 자동화 등에서 이 기능은 Haiku 4.5를 대체 불가능한 선택으로 만든다. GPT-5.4 Nano, Gemini 3 Flash, Grok 4.1 Fast 중 어느 것도 컴퓨터 사용 기능을 지원하지 않는다.
서브 에이전트 오케스트레이션
Anthropic이 공식적으로 제안하는 아키텍처가 있다. Sonnet 4.5(또는 Opus 4.6)가 복잡한 문제를 다단계 계획으로 분해하고, 여러 Haiku 4.5 인스턴스가 하위 작업을 병렬 실행하는 구조다. Claude Code에서 탐색(Explore) 서브 에이전트로 Haiku 4.5가 기본 배정되는 것도 이 전략의 일환이다.
이 구조에서 Haiku 4.5는 "두뇌" 역할의 상위 모델을 보조하는 "손과 발"로 기능한다. 빠른 응답 속도(약 95 토큰/초, 프로바이더에 따라 111 토큰/초까지)와 높은 도구 호출 성공률(한 테스트에서 도구 호출 실패 0건)이 이 역할에 최적화되어 있다.
Gamma(프레젠테이션 생성 서비스)의 테스트에서 Haiku 4.5는 슬라이드 텍스트 생성 지시 따르기에서 65% 정확도를 기록했다. 이는 프리미엄 티어 모델의 44%를 크게 앞서는 수치로, 특정 작업에서 소형 모델이 대형 모델을 이기는 사례를 보여준다.
Claude Code Pro 플랜(월 20달러) 사용자는 Sonnet 4.5 대신 Haiku 4.5 + 확장 사고 모드를 기본으로 사용하면, 동일 사용량 한도 내에서 3-4배 더 많은 작업을 처리할 수 있다. 코드 스캐폴딩, 테스트 생성, 린트 수준 변경 같은 반복 작업에는 Haiku 4.5만으로도 충분한 품질이 나온다.
워크로드별 최적 모델 선택 가이드
모든 모델의 가격과 성능 데이터를 종합하면, 워크로드 유형별 최적 선택은 다음과 같이 정리된다.
최고 품질 코딩이 필요한 경우: Gemini 3.1 Pro(80.6%, 2달러/12달러) 또는 Claude Opus 4.6(80.8%, 5달러/25달러). 예산이 여유롭다면 Opus 4.6, 비용 효율을 원한다면 Gemini 3.1 Pro가 유리하다.
범용 코딩 + 에이전트 작업: Claude Sonnet 4.6(79.6%, 3달러/15달러). Opus 4.6의 1.2% 이내 성능을 5분의 1 가격으로 제공한다.
대량 코딩 파이프라인 (비용 민감): Claude Haiku 4.5(73.3%, 1달러/5달러) 또는 Gemini 3 Flash(76.2%, 0.50달러/3달러). 컴퓨터 사용이 필요하면 Haiku 4.5, 순수 코딩 효율만 따지면 Gemini 3 Flash가 우위.
초대량 분류·요약 (극한 비용 절감): GPT-5 Nano(0.05달러/0.40달러) 또는 Grok 4.1 Fast(0.20달러/0.50달러). 코딩 품질은 떨어지지만, 단순 분류·라우팅·요약에서는 충분한 성능을 제공한다.
RPA·화면 자동화: Claude Haiku 4.5가 유일한 선택지. 소형 모델 중 컴퓨터 사용을 지원하는 모델은 Haiku 4.5뿐이다.
초장문 문서 처리 (100만 토큰 이상): Grok 4.1 Fast(2M 컨텍스트), Gemini 3 Flash(1M), 또는 Claude Sonnet 4.5(1M). Haiku 4.5의 200K는 이 용도에 부족하다.
GPT-5.4 시리즈는 272K 토큰을 초과하면 가격이 배로 뛰는 장문 컨텍스트 프리미엄이 있다. 공식 가격표의 "표준 가격"만 보고 비용 계획을 세우면 실제 청구서에서 큰 차이가 발생할 수 있다. 장문 처리가 많은 경우 사전에 프로바이더별 장문 가격 정책을 반드시 확인해야 한다.
2026년 3월, Haiku 4.5의 현재 위치
Claude Haiku 4.5는 출시 5개월이 지난 지금, AI 모델 시장에서 독특한 위치를 점하고 있다. 가격만 놓고 보면 GPT-5 Nano(13배 저렴)나 Grok 4.1 Fast(9배 저렴)에 밀린다. SWE-bench 최고 점수만 놓고 보면 Gemini 3.1 Pro(80.6%)나 Claude Opus 4.6(80.8%)에 한참 뒤진다.
그런데도 Haiku 4.5가 여전히 유효한 이유는 "유일성"에 있다. 소형 모델 중 유일하게 컴퓨터 사용을 지원하고, 확장 사고 모드로 추론 깊이를 조절할 수 있으며, Claude 생태계의 서브 에이전트로서 Sonnet/Opus와 매끄럽게 오케스트레이션된다. 이 세 가지를 동시에 제공하는 경쟁 모델은 존재하지 않는다.
동시에 한계도 분명하다. 200K 컨텍스트 윈도우는 1-2M를 지원하는 경쟁 모델에 비해 작고, 순수 토큰 단가는 소형 모델 카테고리에서 높은 축이다. 단순 분류·요약처럼 지능 수준이 낮아도 되는 작업에 Haiku 4.5를 쓰는 것은 비용 낭비에 가깝다.
올바른 전략은 단일 모델에 올인하는 것이 아니라, 작업 복잡도에 따라 모델을 동적으로 라우팅하는 것이다. 복잡한 추론은 Opus 4.6에, 범용 코딩은 Sonnet 4.6에, 대량 반복 코딩과 컴퓨터 사용은 Haiku 4.5에, 초경량 분류는 GPT-5 Nano에 맡기는 멀티 모델 파이프라인이 2026년의 현실적인 최적해다.
지금 당장 실행할 수 있는 첫 단계는, OpenRouter에서 자신의 주요 워크로드를 Haiku 4.5와 경쟁 모델로 각각 1,000건씩 돌려보고, 품질·속도·비용의 실제 데이터를 확보하는 것이다.