EasyTip
전체
EasyTip
전체경제·금융지식·교양여행·글로벌시사·세계생활·건강테크·IT
Step 3.5 Flash AI 모델 특징 | 196B 파라미터 MoE 모델 성능과 활용법 | EasyTip
테크·IT

Step 3.5 Flash AI 모델 특징 | 196B 파라미터 MoE 모델 성능과 활용법

2026년 2월 13일 17:23·125 views·9분 읽기
Step 3.5 FlashStepFunMoE 모델오픈소스 AIAI 추론 모델DeepSeek 비교OpenRouter 무료 모델로컬 LLM

목차

1 Step 3.5 Flash의 핵심 아키텍처와 기술적 차별점 2 벤치마크 성능: 더 큰 모델을 능가하는 효율 3 무료 사용법과 실전 배포 가이드
4 StepFun은 어떤 회사이며 왜 이 모델을 만들었나 5 경쟁 모델과의 포지셔닝 6 자주 묻는 질문

2026년 1월 29일, 중국 상하이의 AI 스타트업 StepFun(스텝펀, 阶跃星辰)이 오픈소스 파운데이션 모델 Step 3.5 Flash를 공개했다. 공개 직후 OpenRouter 트렌드 차트 1위를 기록하고, Reddit의 LocalLLaMA 커뮤니티에서 폭발적인 관심을 받았다. 이 모델이 주목받는 이유는 단순하다. 총 196B(1,960억) 파라미터를 보유하면서도 토큰당 11B만 활성화해 추론 속도가 11B급 모델과 동등하면서, 성능은 DeepSeek V3.2(671B)와 GLM-4.7(355B)을 여러 벤치마크에서 능가하기 때문이다.

OpenRouter에서 무료(Free Tier)로 사용 가능하다는 점도 빠른 확산에 기여했다. 모델 식별자는 stepfun/step-3.5-flash:free이며, 256,000 토큰의 컨텍스트 윈도우를 지원한다. Apache 2.0 라이선스로 상업적·비상업적 사용이 모두 허용되어, 개인 개발자부터 기업까지 자유롭게 활용할 수 있다.

이 글에서는 Step 3.5 Flash의 아키텍처, 벤치마크 성능, 실전 사용 방법, 그리고 경쟁 모델과의 비교까지 개발자와 AI 활용자가 반드시 파악해야 할 핵심 정보를 정리한다.

Step 3.5 Flash AI 모델 특징
1

Step 3.5 Flash의 핵심 아키텍처와 기술적 차별점

Step 3.5 Flash의 가장 큰 기술적 특징은 Sparse Mixture of Experts(희소 혼합 전문가, MoE) 아키텍처다. 전체 196.81B 파라미터(백본 196B + 헤드 0.81B) 중에서 토큰 하나를 생성할 때 실제로 활성화되는 파라미터는 약 11B에 불과하다. StepFun은 이 구조를 "지능 밀도(Intelligence Density)"라고 부른다.

45개 레이어의 Transformer 백본으로 구성되며, 히든 디멘션은 4,096이다. 각 레이어에는 288개의 라우팅 전문가(routed experts)와 1개의 공유 전문가(항시 활성)가 배치되어 있고, 토큰마다 Top-8 전문가만 선택적으로 활성화된다. 보캡 크기는 128,896 토큰이다.

1.1

MTP-3: 한 번에 4개 토큰을 예측하는 가속 기술

추론 속도를 극대화하기 위해 3-way Multi-Token Prediction(MTP-3) 기술이 적용됐다. 일반적인 자기회귀 모델이 토큰을 하나씩 순차적으로 생성하는 것과 달리, MTP-3는 슬라이딩 윈도우 어텐션과 밀집 FFN으로 구성된 특수 MTP 헤드를 통해 한 번의 포워드 패스에서 4개 토큰을 동시 예측한다. 이를 통해 일반 사용 시 100 - 300 tok/s, 코딩 작업에서는 최대 350 tok/s의 생성 처리량을 달성한다.

💡 TIP

** MTP-3의 핵심 원리는 추측적 디코딩(Speculative Decoding)과 유사하다. 여러 개의 미래 토큰 가설을 병렬로 검증해 자기회귀 디코딩의 직렬 제약을 깨는 방식이다. NVIDIA Hopper GPU 기반에서 SWE-bench Verified 실행 시 최대 350 TPS를 기록했다.

1.2

하이브리드 어텐션: 256K 컨텍스트를 효율적으로 처리

256K 토큰의 긴 컨텍스트 윈도우를 지원하면서도 연산 비용을 억제하기 위해 3:1 비율의 하이브리드 어텐션 레이아웃을 채택했다. Sliding Window Attention(SWA) 3개 레이어마다 Full Attention 1개 레이어를 배치하는 구조다. SWA 레이어에서는 쿼리 헤드 수를 기본 64개에서 96개로 증가시켜 표현력을 강화하면서도, 어텐션 윈도우가 고정되어 있어 KV 캐시 용량 증가 없이 성능을 높인다.

사양 항목Step 3.5 Flash 상세
총 파라미터196.81B (백본 196B + 헤드 0.81B)
활성 파라미터 (토큰당)약 11B
아키텍처Sparse MoE Transformer (45레이어)
히든 디멘션4,096
전문가 구성288 라우팅 전문가 + 1 공유 전문가 (Top-8 활성)
컨텍스트 윈도우256,000 토큰
보캡 크기128,896 토큰
생성 속도100 - 300 tok/s (최대 350 tok/s)
라이선스Apache 2.0
⚠️ 주의

Step 3.5 Flash는 현재 텍스트 전용 모델**이다. 멀티모달(이미지, 오디오 등) 입력은 지원하지 않으므로, 비전 관련 작업에는 별도 모델이 필요하다. 또한 장시간 멀티턴 대화에서 반복적 추론이나 혼합 언어 출력, 시간·아이덴티티 인식 불일치가 발생할 수 있다고 공식적으로 안내하고 있다.

2

벤치마크 성능: 더 큰 모델을 능가하는 효율

Step 3.5 Flash가 업계에서 주목받는 가장 직접적인 이유는 벤치마크 성적이다. 활성 파라미터가 11B에 불과한 모델이 37B 활성의 DeepSeek V3.2, 32B 활성의 GLM-4.7과 Kimi K2.5를 다수 영역에서 앞서거나 대등한 성능을 보여준다.

2.1

수학 추론 영역

AIME 2025에서 97.3%를 기록했다. 이는 DeepSeek V3.2(93.1%), GLM-4.7(95.7%), Kimi K2.5(96.1%)를 모두 상회하는 수치다. HMMT 2025 Feb.에서는 98.4%, IMOAnswerBench에서는 85.4%를 달성했다. Python 코드 실행 도구를 결합하면 AIME 2025 점수가 99.8%까지 올라간다.

더 나아가 PaCoRe(Parallel Coordinated Reasoning)라는 테스트 타임 컴퓨트 스케일링 기법을 적용하면, AIME 2025에서 사실상 만점인 99.9%를 기록한다.

2.2

코딩 영역

SWE-bench Verified에서 74.4%를 달성해 DeepSeek V3.2(73.1%), GLM-4.7(73.8%)을 근소하게 앞선다. Terminal-Bench 2.0에서는 51.0%로 DeepSeek V3.2(46.4%)와 GLM-4.7(41.0%)을 명확히 앞서며, 장기 실행이 필요한 복잡한 코딩 작업에서의 안정성을 입증했다. LiveCodeBench-V6에서도 86.4%를 기록했다.

2.3

에이전트(Agent) 영역

에이전트 역량은 Step 3.5 Flash가 특히 강조하는 분야다. τ²-Bench에서 88.2%, BrowseComp에서 51.6%, GAIA(no file)에서 84.5%를 기록했다. ResearchRubrics(딥리서치 품질 평가)에서는 65.3%로 Gemini DeepResearch(63.7%)와 OpenAI DeepResearch(60.7%)를 넘어서는 성적을 보였다.

벤치마크Step 3.5 FlashDeepSeek V3.2GLM-4.7Kimi K2.5
활성 파라미터11B37B32B32B
총 파라미터196B671B355B1T
AIME 202597.3%93.1%95.7%96.1%
SWE-bench Verified74.4%73.1%73.8%76.8%
Terminal-Bench 2.051.0%46.4%41.0%50.8%
LiveCodeBench-V686.4%83.3%84.9%85.0%
τ²-Bench88.2%85.2%87.4%85.4%
ResearchRubrics65.3%55.8%62.0%59.5%
💡 TIP

** Step 3.5 Flash의 추론 비용 대비 성능 효율은 압도적이다. 128K 컨텍스트, Hopper GPU 기준 추정 디코딩 비용에서 Step 3.5 Flash를 1.0x로 놓으면 DeepSeek V3.2는 6.0x, Kimi K2.5와 GLM-4.7은 각각 18.9x에 달한다. 같은 성능을 내는 데 필요한 연산 자원이 6배 - 19배까지 차이 나는 셈이다.

3

무료 사용법과 실전 배포 가이드

Step 3.5 Flash를 활용하는 방법은 크게 클라우드 API와 로컬 배포 두 가지로 나뉜다.

3.1

클라우드 API: OpenRouter 무료 티어

가장 빠르게 시작하는 방법은 OpenRouter를 통한 무료 API 접근이다. 모델 식별자 stepfun/step-3.5-flash:free로 입력·출력 토큰 모두 0달러에 사용할 수 있다. OpenAI SDK와 호환되므로 기존 코드의 base_url과 모델명만 바꾸면 된다.

StepFun 공식 플랫폼도 API를 제공한다. 글로벌 사용자는 api.stepfun.ai/v1, 중국 내 사용자는 api.stepfun.com/v1을 base URL로 설정하면 된다.

3.2

로컬 배포: 개인 하드웨어에서 실행

Step 3.5 Flash는 고급 소비자 하드웨어에서도 로컬 실행이 가능하도록 최적화되어 있다. INT4 양자화된 GGUF 가중치의 크기는 약 111.5GB이며, 런타임 오버헤드 약 7GB를 더해 최소 120GB 통합 메모리가 필요하다. Apple Mac Studio M4 Max(128GB), NVIDIA DGX Spark, AMD AI Max+ 395 등에서 구동 가능하다.

NVIDIA DGX Spark 128GB에서 llama.cpp 기반으로 테스트한 결과, INT4 양자화 모델이 초당 약 20 토큰의 생성 속도를 기록했다. INT8 KVCache 양자화를 적용하면 256K 토큰까지 컨텍스트를 확장할 수 있어, 클라우드 추론에 준하는 긴 텍스트 처리가 로컬에서도 가능하다.

고성능 서빙이 필요하다면 vLLM이나 SGLang을 활용한 텐서 병렬 배포를 권장한다. 8-way 텐서 병렬리즘(EP8)으로 100 tok/s급 처리량이 가능하다.

💡 TIP

** Claude Code 환경에서 Step 3.5 Flash를 백엔드로 사용할 수 있다. ~/.claude/settings.json 파일에서 ANTHROPIC_BASE_URL을 StepFun API 주소로, 모델명을 step-3.5-flash로 설정하면 된다. StepFun 공식 벤치마크에 따르면 Professional Data Analysis 과제에서 Step 3.5 Flash(39.6%)가 GPT-5.2(39.3%)와 거의 동등한 성적을 보였다.

사용 방법접근 경로비용특징
OpenRouter Freestepfun/step-3.5-flash:free무료가장 빠른 시작, 256K 컨텍스트
OpenRouter 유료stepfun/step-3.5-flash유료 (토큰당)더 높은 속도 보장
StepFun 공식 APIapi.stepfun.ai/v1유료글로벌 사용자용
로컬 llama.cppGGUF INT4 모델하드웨어 비용만프라이버시 보장, 120GB+ 메모리 필요
vLLM / SGLangHuggingFace 모델하드웨어 비용만고처리량 서빙, TP8 지원
4

StepFun은 어떤 회사이며 왜 이 모델을 만들었나

StepFun(스텝펀, 阶跃星辰)은 2023년 4월 전직 마이크로소프트 직원들이 상하이에 설립한 생성형 AI 스타트업이다. 창업자 장다신(姜大昕)은 마이크로소프트 글로벌 부사장과 아시아기술센터 수석과학자를 역임한 인물이다. 직원 수는 약 300명 규모이며, 중국에서 "육소호(여섯 마리의 작은 호랑이)"로 불리는 6대 AI 스타트업 중 하나로 꼽힌다.

2026년 1월 시리즈B+ 라운드에서 50억 위안(약 1조 원)을 조달하며 경쟁사의 IPO 공모액을 넘어서는 투자를 유치했다. 투자자에는 텐센트, 치밍 벤처 파트너스, 상하이 국유자본투자 등이 포함되어 있으며, 2026년 상하이 커촹반(科创板) 또는 홍콩 증시 IPO가 예상된다.

⚠️ 주의

** Step 3.5 Flash는 코딩과 업무 중심 작업에 최적화되어 있지만, 고도로 전문화된 도메인이나 장시간 멀티턴 대화에서 안정성이 저하될 수 있다고 공식 문서에서 밝히고 있다. 반복적 추론, 혼합 언어 출력, 시간 및 아이덴티티 인식 불일치가 발생할 수 있으므로, 미션 크리티컬한 프로덕션 환경에서는 충분한 테스트 후 도입하는 것이 바람직하다.

5

경쟁 모델과의 포지셔닝

Step 3.5 Flash의 포지션을 이해하려면 동일 세대의 경쟁 모델들과 비교해야 한다. 이 모델은 "오픈소스 MoE 추론 모델" 카테고리에서 비용 대비 성능 최강을 목표로 설계됐다.

DeepSeek V3.2는 671B 파라미터에 37B 활성으로, 절대적 성능에서는 여전히 강력하지만 디코딩 비용이 Step 3.5 Flash의 약 6배에 달한다. GLM-4.7은 355B 파라미터에 32B 활성으로 벤치마크 성적이 Step 3.5 Flash보다 대체로 낮다. Kimi K2.5는 1T(1조) 파라미터 규모로 일부 코딩 벤치마크에서 앞서지만, 디코딩 비용이 18.9배나 되며 MTP를 지원하지 않아 처리 속도에서 크게 뒤처진다.

클로즈드 소스 모델과 비교하면, StepFun이 공개한 8개 벤치마크 평균 점수 기준으로 Step 3.5 Flash(81.0)는 Claude Opus 4.5(80.6), Gemini 3.0 Pro(80.7)와 거의 동등하며 GPT-5.2 xhigh(82.2) 바로 아래에 위치한다. 오픈소스 모델이 최상위 프로프라이어터리 모델과 1 - 2점 차이로 경쟁하는 시대가 도래한 것이다.

비교 항목Step 3.5 FlashDeepSeek V3.2Claude Opus 4.5GPT-5.2 xhigh
오픈소스 여부Apache 2.0오픈소스클로즈드클로즈드
총 파라미터196B671B비공개비공개
8개 벤치마크 평균81.077.380.682.2
추론 속도 (tok/s)100 - 35033비공개비공개
로컬 배포가능 (128GB+)가능 (고사양)불가불가
API 무료 티어OpenRouter 무료일부 무료없음없음

Step 3.5 Flash는 단순히 "작고 빠른 모델"이 아니다. 196B 규모의 지식 베이스를 보유하면서 11B급 추론 비용으로 작동하는, 효율과 지능의 경계를 재정의한 모델이다. 오픈소스 MoE 아키텍처의 잠재력이 이제 프로프라이어터리 모델과 직접 경쟁할 수 있는 수준에 도달했음을 보여주는 이정표적 모델이라고 할 수 있다.

현재 OpenRouter에서 무료로 제공되고 있으므로, 에이전트 개발, 코딩 어시스턴트, 리서치 자동화 등의 작업에 즉시 적용해볼 수 있다. 특히 Claude Code나 OpenClaw와 같은 에이전트 프레임워크의 백엔드 모델로 활용하면, 비용 부담 없이 프론티어급 추론 능력을 체험할 수 있다. 로컬 배포가 가능한 환경이라면, 데이터 프라이버시를 완벽하게 보장하면서도 클라우드에 준하는 성능을 확보할 수 있다는 점에서 Step 3.5 Flash는 한 번쯤 꼭 테스트해볼 가치가 있는 모델이다.

테크·IT 다른 글

  • 앤트로픽 소스코드 유출 사태앤트로픽 소스코드 유출 사태 | 클로드 코드부터 미토스까지 보안 사고 연대기2026년 3월 31일 12:02
  • 백그라운드에서 업데이트되었습니다 알림백그라운드에서 업데이트되었습니다 알림 | 원인과 대처법 6단계2026년 3월 31일 11:51
  • iOS 앱스토어 심사 통과 핵심 조건 8가지iOS 앱스토어 심사 통과 핵심 조건 8가지 | 리젝 방지 실전 노하우2026년 3월 31일 07:41
  • Sherlock OSINT 도구Sherlock OSINT 도구 | 유저네임 하나로 400개 이상 SNS 계정을 추적하는 방법2026년 3월 30일 17:21
  • AutoClaw로 OpenClaw 로컬 구동하기AutoClaw로 OpenClaw 로컬 구동하기 | 원클릭 AI 에이전트 설치와 활용법2026년 3월 30일 15:47