Step 3.5 Flash는 정말 무료로 사용할 수 있나요?

네, OpenRouter 플랫폼에서 모델 식별자 stepfun/step-3.5-flash:free를 통해 입력·출력 토큰 비용 모두 0달러로 사용할 수 있습니다. OpenRouter에 회원가입 후 API 키를 발급받으면 즉시 시작 가능합니다. OpenAI SDK와 호환되므로 base_url을 https://openrouter.ai/api/v1로, 모델명을 stepfun/step-3.5-flash:free로 설정하기만 하면 됩니다. 다만 무료 티어는 유료 대비 요청 제한이 있을 수 있으며, 프로덕션 수준의 안정적인 사용이 필요하다면 유료 티어나 StepFun 공식 API를 고려하는 것이 좋습니다.

Step 3.5 Flash가 DeepSeek V3.2보다 실제로 더 나은 건가요?

벤치마크 기준으로 Step 3.5 Flash는 AIME 2025(97.3% vs 93.1%), Terminal-Bench 2.0(51.0% vs 46.4%), τ²-Bench(88.2% vs 85.2%), ResearchRubrics(65.3% vs 55.8%) 등 다수 영역에서 DeepSeek V3.2를 앞섭니다. 다만 DeepSeek V3.2의 절대 파라미터 규모(671B)가 더 크기 때문에 특정 도메인 지식이나 일부 코딩 작업에서는 DeepSeek이 유리할 수 있습니다. 가장 결정적인 차이는 비용 효율성입니다. 동일 조건에서 Step 3.5 Flash의 디코딩 비용을 1.0x로 두면 DeepSeek V3.2는 약 6.0x로, 비용 대비 성능에서 Step 3.5 Flash가 압도적으로 유리합니다.

로컬에서 Step 3.5 Flash를 실행하려면 어떤 하드웨어가 필요한가요?

INT4 양자화된 GGUF 모델 가중치가 약 111.5GB이며, 런타임 오버헤드 약 7GB를 합산하면 최소 120GB의 통합 메모리(VRAM 또는 유니파이드 메모리)가 필요합니다. 구체적으로 Apple Mac Studio M4 Max 128GB, NVIDIA DGX Spark 128GB, AMD AI Max+ 395 등에서 구동 가능합니다. Mac M1 Ultra에서는 빈 컨텍스트 기준 약 34 tok/s, 컨텍스트가 늘어나도 약 30 tok/s 수준을 유지하는 것으로 커뮤니티에서 보고되고 있습니다. llama.cpp를 통해 배포하며, INT8 KVCache 양자화를 적용하면 256K 토큰까지 컨텍스트를 확장할 수 있습니다.

Step 3.5 Flash에서 PaCoRe(Parallel Thinking)란 무엇인가요?

PaCoRe(Parallel Coordinated Reasoning)는 StepFun이 개발한 테스트 타임 컴퓨트 스케일링 기법입니다. 단일 추론 패스 대신 여러 병렬 추론 경로를 동시에 실행하고 그 결과를 조율하여 최종 답변의 정확도를 높이는 방식입니다. PaCoRe를 적용하면 추론 시간은 더 소요되지만 정확도가 크게 향상됩니다. AIME 2025 기준 표준 모드 97.3%에서 PaCoRe 적용 시 99.9%로, IMOAnswerBench는 85.4%에서 88.8%로 올라갑니다. 수학 대회 수준의 고난도 문제에서 특히 효과적이며, 실시간 응답이 필요 없는 배치 처리 환경에서 활용하기 좋습니다.

StepFun은 신뢰할 수 있는 회사인가요?

StepFun(阶跃星辰)은 2023년 4월 마이크로소프트 글로벌 부사장 출신 장다신이 상하이에 설립한 AI 스타트업입니다. 중국에서 DeepSeek, Moonshot AI, Zhipu AI 등과 함께 6대 AI 스타트업으로 분류됩니다. 2026년 1월 시리즈B+에서 50억 위안(약 1조 원)을 유치했으며, 투자자에는 텐센트와 상하이 국유자본투자 등이 포함되어 있습니다. 기업가치는 40억 달러를 넘어선 것으로 알려져 있고, 2026년 IPO가 예상됩니다. Step 3.5 Flash는 Apache 2.0 라이선스로 Hugging Face와 GitHub에 모델 가중치, 소스 코드, 기술 문서가 완전 공개되어 있어 독립적으로 검증이 가능합니다.

Step 3.5 Flash를 Claude Code에서 사용하는 방법은?

Claude Code 환경에서 Step 3.5 Flash를 백엔드 모델로 설정할 수 있습니다. 홈 디렉토리의 ~/.claude/settings.json 파일을 열고, env 섹션에 ANTHROPIC_API_KEY를 StepFun API 키로, ANTHROPIC_BASE_URL을 https://api.stepfun.ai/로 설정한 뒤, model 필드를 step-3.5-flash로 지정하면 됩니다. 보다 고급 라우팅이 필요하다면 claude-code-router라는 커뮤니티 도구를 활용할 수도 있습니다. StepFun 공식 벤치마크에서 Professional Data Analysis 50개 과제 기준 Step 3.5 Flash는 39.6%로 GPT-5.2(39.3%)와 동등한 수준의 분석 정확도를 보여주었습니다.

Step 3.5 Flash AI 모델 특징 | 196B 파라미터 MoE 모델 성능과 활용법

2026년 1월 29일, 중국 상하이의 AI 스타트업 StepFun(스텝펀, 阶跃星辰)이 오픈소스 파운데이션 모델 Step 3.5 Flash를 공개했다. 공개 직후 OpenRouter 트렌드 차트 1위를 기록하고, Reddit의 LocalLLaMA 커뮤니티에서 폭발적인 관심을 받았다. 이 모델이 주목받는 이유는 단순하다. 총 196B(1,960억) 파라미터를 보유하면서도 토큰당 11B만 활성화해 추론 속도가 11B급 모델과 동등하면서, 성능은 DeepSeek V3.2(671B)와 GLM-4.7(355B)을 여러 벤치마크에서 능가하기 때문이다.

OpenRouter에서 무료(Free Tier)로 사용 가능하다는 점도 빠른 확산에 기여했다. 모델 식별자는 stepfun/step-3.5-flash:free이며, 256,000 토큰의 컨텍스트 윈도우를 지원한다. Apache 2.0 라이선스로 상업적·비상업적 사용이 모두 허용되어, 개인 개발자부터 기업까지 자유롭게 활용할 수 있다.

이 글에서는 Step 3.5 Flash의 아키텍처, 벤치마크 성능, 실전 사용 방법, 그리고 경쟁 모델과의 비교까지 개발자와 AI 활용자가 반드시 파악해야 할 핵심 정보를 정리한다.

Step 3.5 Flash의 핵심 아키텍처와 기술적 차별점

Step 3.5 Flash의 가장 큰 기술적 특징은 Sparse Mixture of Experts(희소 혼합 전문가, MoE) 아키텍처다. 전체 196.81B 파라미터(백본 196B + 헤드 0.81B) 중에서 토큰 하나를 생성할 때 실제로 활성화되는 파라미터는 약 11B에 불과하다. StepFun은 이 구조를 "지능 밀도(Intelligence Density)"라고 부른다.

45개 레이어의 Transformer 백본으로 구성되며, 히든 디멘션은 4,096이다. 각 레이어에는 288개의 라우팅 전문가(routed experts)와 1개의 공유 전문가(항시 활성)가 배치되어 있고, 토큰마다 Top-8 전문가만 선택적으로 활성화된다. 보캡 크기는 128,896 토큰이다.

1.1

MTP-3: 한 번에 4개 토큰을 예측하는 가속 기술

추론 속도를 극대화하기 위해 3-way Multi-Token Prediction(MTP-3) 기술이 적용됐다. 일반적인 자기회귀 모델이 토큰을 하나씩 순차적으로 생성하는 것과 달리, MTP-3는 슬라이딩 윈도우 어텐션과 밀집 FFN으로 구성된 특수 MTP 헤드를 통해 한 번의 포워드 패스에서 4개 토큰을 동시 예측한다. 이를 통해 일반 사용 시 100 - 300 tok/s, 코딩 작업에서는 최대 350 tok/s의 생성 처리량을 달성한다.

💡 TIP

** MTP-3의 핵심 원리는 추측적 디코딩(Speculative Decoding)과 유사하다. 여러 개의 미래 토큰 가설을 병렬로 검증해 자기회귀 디코딩의 직렬 제약을 깨는 방식이다. NVIDIA Hopper GPU 기반에서 SWE-bench Verified 실행 시 최대 350 TPS를 기록했다.

1.2

하이브리드 어텐션: 256K 컨텍스트를 효율적으로 처리

256K 토큰의 긴 컨텍스트 윈도우를 지원하면서도 연산 비용을 억제하기 위해 3:1 비율의 하이브리드 어텐션 레이아웃을 채택했다. Sliding Window Attention(SWA) 3개 레이어마다 Full Attention 1개 레이어를 배치하는 구조다. SWA 레이어에서는 쿼리 헤드 수를 기본 64개에서 96개로 증가시켜 표현력을 강화하면서도, 어텐션 윈도우가 고정되어 있어 KV 캐시 용량 증가 없이 성능을 높인다.

사양 항목	Step 3.5 Flash 상세
총 파라미터	196.81B (백본 196B + 헤드 0.81B)
활성 파라미터 (토큰당)	약 11B
아키텍처	Sparse MoE Transformer (45레이어)
히든 디멘션	4,096
전문가 구성	288 라우팅 전문가 + 1 공유 전문가 (Top-8 활성)
컨텍스트 윈도우	256,000 토큰
보캡 크기	128,896 토큰
생성 속도	100 - 300 tok/s (최대 350 tok/s)
라이선스	Apache 2.0

⚠️ 주의

Step 3.5 Flash는 현재 텍스트 전용 모델**이다. 멀티모달(이미지, 오디오 등) 입력은 지원하지 않으므로, 비전 관련 작업에는 별도 모델이 필요하다. 또한 장시간 멀티턴 대화에서 반복적 추론이나 혼합 언어 출력, 시간·아이덴티티 인식 불일치가 발생할 수 있다고 공식적으로 안내하고 있다.

벤치마크 성능: 더 큰 모델을 능가하는 효율

Step 3.5 Flash가 업계에서 주목받는 가장 직접적인 이유는 벤치마크 성적이다. 활성 파라미터가 11B에 불과한 모델이 37B 활성의 DeepSeek V3.2, 32B 활성의 GLM-4.7과 Kimi K2.5를 다수 영역에서 앞서거나 대등한 성능을 보여준다.

2.1

수학 추론 영역

AIME 2025에서 97.3%를 기록했다. 이는 DeepSeek V3.2(93.1%), GLM-4.7(95.7%), Kimi K2.5(96.1%)를 모두 상회하는 수치다. HMMT 2025 Feb.에서는 98.4%, IMOAnswerBench에서는 85.4%를 달성했다. Python 코드 실행 도구를 결합하면 AIME 2025 점수가 99.8%까지 올라간다.

더 나아가 PaCoRe(Parallel Coordinated Reasoning)라는 테스트 타임 컴퓨트 스케일링 기법을 적용하면, AIME 2025에서 사실상 만점인 99.9%를 기록한다.

2.2

코딩 영역

SWE-bench Verified에서 74.4%를 달성해 DeepSeek V3.2(73.1%), GLM-4.7(73.8%)을 근소하게 앞선다. Terminal-Bench 2.0에서는 51.0%로 DeepSeek V3.2(46.4%)와 GLM-4.7(41.0%)을 명확히 앞서며, 장기 실행이 필요한 복잡한 코딩 작업에서의 안정성을 입증했다. LiveCodeBench-V6에서도 86.4%를 기록했다.

2.3

에이전트(Agent) 영역

에이전트 역량은 Step 3.5 Flash가 특히 강조하는 분야다. τ²-Bench에서 88.2%, BrowseComp에서 51.6%, GAIA(no file)에서 84.5%를 기록했다. ResearchRubrics(딥리서치 품질 평가)에서는 65.3%로 Gemini DeepResearch(63.7%)와 OpenAI DeepResearch(60.7%)를 넘어서는 성적을 보였다.

벤치마크	Step 3.5 Flash	DeepSeek V3.2	GLM-4.7	Kimi K2.5
활성 파라미터	11B	37B	32B	32B
총 파라미터	196B	671B	355B	1T
AIME 2025	97.3%	93.1%	95.7%	96.1%
SWE-bench Verified	74.4%	73.1%	73.8%	76.8%
Terminal-Bench 2.0	51.0%	46.4%	41.0%	50.8%
LiveCodeBench-V6	86.4%	83.3%	84.9%	85.0%
τ²-Bench	88.2%	85.2%	87.4%	85.4%
ResearchRubrics	65.3%	55.8%	62.0%	59.5%

💡 TIP

** Step 3.5 Flash의 추론 비용 대비 성능 효율은 압도적이다. 128K 컨텍스트, Hopper GPU 기준 추정 디코딩 비용에서 Step 3.5 Flash를 1.0x로 놓으면 DeepSeek V3.2는 6.0x, Kimi K2.5와 GLM-4.7은 각각 18.9x에 달한다. 같은 성능을 내는 데 필요한 연산 자원이 6배 - 19배까지 차이 나는 셈이다.

무료 사용법과 실전 배포 가이드

Step 3.5 Flash를 활용하는 방법은 크게 클라우드 API와 로컬 배포 두 가지로 나뉜다.

3.1

클라우드 API: OpenRouter 무료 티어

가장 빠르게 시작하는 방법은 OpenRouter를 통한 무료 API 접근이다. 모델 식별자 stepfun/step-3.5-flash:free로 입력·출력 토큰 모두 0달러에 사용할 수 있다. OpenAI SDK와 호환되므로 기존 코드의 base_url과 모델명만 바꾸면 된다.

StepFun 공식 플랫폼도 API를 제공한다. 글로벌 사용자는 api.stepfun.ai/v1, 중국 내 사용자는 api.stepfun.com/v1을 base URL로 설정하면 된다.

3.2

로컬 배포: 개인 하드웨어에서 실행

Step 3.5 Flash는 고급 소비자 하드웨어에서도 로컬 실행이 가능하도록 최적화되어 있다. INT4 양자화된 GGUF 가중치의 크기는 약 111.5GB이며, 런타임 오버헤드 약 7GB를 더해 최소 120GB 통합 메모리가 필요하다. Apple Mac Studio M4 Max(128GB), NVIDIA DGX Spark, AMD AI Max+ 395 등에서 구동 가능하다.

NVIDIA DGX Spark 128GB에서 llama.cpp 기반으로 테스트한 결과, INT4 양자화 모델이 초당 약 20 토큰의 생성 속도를 기록했다. INT8 KVCache 양자화를 적용하면 256K 토큰까지 컨텍스트를 확장할 수 있어, 클라우드 추론에 준하는 긴 텍스트 처리가 로컬에서도 가능하다.

고성능 서빙이 필요하다면 vLLM이나 SGLang을 활용한 텐서 병렬 배포를 권장한다. 8-way 텐서 병렬리즘(EP8)으로 100 tok/s급 처리량이 가능하다.

💡 TIP

** Claude Code 환경에서 Step 3.5 Flash를 백엔드로 사용할 수 있다. ~/.claude/settings.json 파일에서 ANTHROPIC_BASE_URL을 StepFun API 주소로, 모델명을 step-3.5-flash로 설정하면 된다. StepFun 공식 벤치마크에 따르면 Professional Data Analysis 과제에서 Step 3.5 Flash(39.6%)가 GPT-5.2(39.3%)와 거의 동등한 성적을 보였다.

사용 방법	접근 경로	비용	특징
OpenRouter Free	stepfun/step-3.5-flash:free	무료	가장 빠른 시작, 256K 컨텍스트
OpenRouter 유료	stepfun/step-3.5-flash	유료 (토큰당)	더 높은 속도 보장
StepFun 공식 API	api.stepfun.ai/v1	유료	글로벌 사용자용
로컬 llama.cpp	GGUF INT4 모델	하드웨어 비용만	프라이버시 보장, 120GB+ 메모리 필요
vLLM / SGLang	HuggingFace 모델	하드웨어 비용만	고처리량 서빙, TP8 지원

StepFun은 어떤 회사이며 왜 이 모델을 만들었나

StepFun(스텝펀, 阶跃星辰)은 2023년 4월 전직 마이크로소프트 직원들이 상하이에 설립한 생성형 AI 스타트업이다. 창업자 장다신(姜大昕)은 마이크로소프트 글로벌 부사장과 아시아기술센터 수석과학자를 역임한 인물이다. 직원 수는 약 300명 규모이며, 중국에서 "육소호(여섯 마리의 작은 호랑이)"로 불리는 6대 AI 스타트업 중 하나로 꼽힌다.

2026년 1월 시리즈B+ 라운드에서 50억 위안(약 1조 원)을 조달하며 경쟁사의 IPO 공모액을 넘어서는 투자를 유치했다. 투자자에는 텐센트, 치밍 벤처 파트너스, 상하이 국유자본투자 등이 포함되어 있으며, 2026년 상하이 커촹반(科创板) 또는 홍콩 증시 IPO가 예상된다.

⚠️ 주의

** Step 3.5 Flash는 코딩과 업무 중심 작업에 최적화되어 있지만, 고도로 전문화된 도메인이나 장시간 멀티턴 대화에서 안정성이 저하될 수 있다고 공식 문서에서 밝히고 있다. 반복적 추론, 혼합 언어 출력, 시간 및 아이덴티티 인식 불일치가 발생할 수 있으므로, 미션 크리티컬한 프로덕션 환경에서는 충분한 테스트 후 도입하는 것이 바람직하다.

경쟁 모델과의 포지셔닝

Step 3.5 Flash의 포지션을 이해하려면 동일 세대의 경쟁 모델들과 비교해야 한다. 이 모델은 "오픈소스 MoE 추론 모델" 카테고리에서 비용 대비 성능 최강을 목표로 설계됐다.

DeepSeek V3.2는 671B 파라미터에 37B 활성으로, 절대적 성능에서는 여전히 강력하지만 디코딩 비용이 Step 3.5 Flash의 약 6배에 달한다. GLM-4.7은 355B 파라미터에 32B 활성으로 벤치마크 성적이 Step 3.5 Flash보다 대체로 낮다. Kimi K2.5는 1T(1조) 파라미터 규모로 일부 코딩 벤치마크에서 앞서지만, 디코딩 비용이 18.9배나 되며 MTP를 지원하지 않아 처리 속도에서 크게 뒤처진다.

클로즈드 소스 모델과 비교하면, StepFun이 공개한 8개 벤치마크 평균 점수 기준으로 Step 3.5 Flash(81.0)는 Claude Opus 4.5(80.6), Gemini 3.0 Pro(80.7)와 거의 동등하며 GPT-5.2 xhigh(82.2) 바로 아래에 위치한다. 오픈소스 모델이 최상위 프로프라이어터리 모델과 1 - 2점 차이로 경쟁하는 시대가 도래한 것이다.

비교 항목	Step 3.5 Flash	DeepSeek V3.2	Claude Opus 4.5	GPT-5.2 xhigh
오픈소스 여부	Apache 2.0	오픈소스	클로즈드	클로즈드
총 파라미터	196B	671B	비공개	비공개
8개 벤치마크 평균	81.0	77.3	80.6	82.2
추론 속도 (tok/s)	100 - 350	33	비공개	비공개
로컬 배포	가능 (128GB+)	가능 (고사양)	불가	불가
API 무료 티어	OpenRouter 무료	일부 무료	없음	없음

Step 3.5 Flash는 단순히 "작고 빠른 모델"이 아니다. 196B 규모의 지식 베이스를 보유하면서 11B급 추론 비용으로 작동하는, 효율과 지능의 경계를 재정의한 모델이다. 오픈소스 MoE 아키텍처의 잠재력이 이제 프로프라이어터리 모델과 직접 경쟁할 수 있는 수준에 도달했음을 보여주는 이정표적 모델이라고 할 수 있다.

현재 OpenRouter에서 무료로 제공되고 있으므로, 에이전트 개발, 코딩 어시스턴트, 리서치 자동화 등의 작업에 즉시 적용해볼 수 있다. 특히 Claude Code나 OpenClaw와 같은 에이전트 프레임워크의 백엔드 모델로 활용하면, 비용 부담 없이 프론티어급 추론 능력을 체험할 수 있다. 로컬 배포가 가능한 환경이라면, 데이터 프라이버시를 완벽하게 보장하면서도 클라우드에 준하는 성능을 확보할 수 있다는 점에서 Step 3.5 Flash는 한 번쯤 꼭 테스트해볼 가치가 있는 모델이다.

Step 3.5 Flash의 핵심 아키텍처와 기술적 차별점

MTP-3: 한 번에 4개 토큰을 예측하는 가속 기술

하이브리드 어텐션: 256K 컨텍스트를 효율적으로 처리

벤치마크 성능: 더 큰 모델을 능가하는 효율

수학 추론 영역

코딩 영역

에이전트(Agent) 영역

무료 사용법과 실전 배포 가이드

클라우드 API: OpenRouter 무료 티어

로컬 배포: 개인 하드웨어에서 실행

StepFun은 어떤 회사이며 왜 이 모델을 만들었나

경쟁 모델과의 포지셔닝

테크·IT 다른 글