2026년 3월 5일, GPT-5.3 Instant 공개 불과 이틀 뒤에 OpenAI가 GPT-5.4를 내놓았다. 공개 1시간 전, OpenAI 공식 X 계정에 올라온 다섯 단어 "5.4 sooner than you Think"는 이중적 의미를 담고 있었다. 5.4가 곧 나온다는 뜻이기도, GPT-5.4 Thinking 모드를 암시하는 것이기도 했다. 출시 일주일이 지난 지금, 해외 개발자 커뮤니티에서는 이 모델로 30년 된 게임 바이너리를 6시간 만에 되살리고, 전문 영상 편집 소프트웨어를 한 줄 명령으로 조작하고, 유리와 대리석 질감의 3D 체스 게임을 프롬프트 한 번에 완성하는 결과물이 쏟아지고 있다.
GDPval 83.0%, OSWorld 75.0%(인간 수행률 72.4% 초과), 개별 주장의 허위 확률 33% 감소. 이 숫자들이 실제 업무 현장에서 어떤 형태로 나타나고 있는지를 제대로 파악하려면 벤치마크 표 너머를 봐야 한다.
이 글에서는 GPT-5.4가 가져온 기술적 전환을 8가지 핵심 기능으로 해부하고, 벤치마크를 경쟁 모델과 교차 비교한 뒤, 출시 일주일간 X·Reddit·GitHub·Threads에서 검증된 실전 사례 20건을 업무 영역별로 재구성해 분석한다.
출시 일주일 실전 사례 종합 | 업무 영역별 분류
아래 표는 GPT-5.4 출시 후 해외 커뮤니티에서 검증된 사례를 업무 영역 기준으로 정리한 것이다. 원본 소스의 나열이 아닌, 각 사례가 GPT-5.4의 어떤 기능 조합을 활용했는지와 난이도를 함께 분석했다.
| 업무 영역 | 사례 | 핵심 기능 조합 | 난이도 |
|---|---|---|---|
| 소프트웨어 조작 | 영상 편집 툴(After Effects)에서 모션 그래픽 자동 생성 | 네이티브 컴퓨터 제어 + 비전 | 중 |
| 소프트웨어 조작 | 브라우저로 부동산 사이트 탐색 → 스프레드시트 자동 정리(4분) | 컴퓨터 제어 + 브라우저 자동화 | 중 |
| 레거시 복원 | 소스 없는 1993년 DOS 게임 EXE → Rust로 플레이 가능 재구현(6시간 자율) | Codex + 100만 토큰 + 장시간 자율 에이전트 | 상 |
| 레거시 복원 | NES Super Mario ROM 분석 → JS 에뮬레이터 생성 + AI 자동 플레이(3 프롬프트) | 코딩 + 바이너리 분석 | 상 |
| ROM 해킹 | Pokemon Red ROM 자율 편집, 포켓몬을 AI 엔티티로 교체 | Codex + 자율 코드 편집 | 상 |
| 게임 프로토타입 | 테마파크 시뮬레이션(경로탐색 AI, 대기열) 단일 프롬프트 생성 | Codex + Playwright Interactive | 중 |
| 게임 프로토타입 | 유리/대리석 3D 체스 게임 Electron 앱 단일 프롬프트 생성 | Codex + 이미지 생성 | 중 |
| 게임 프로토타입 | Three.js 3D 도지볼 게임(물리 엔진 포함) 브라우저 실행 | 코딩 + 3D 렌더링 | 중 |
| 게임 프로토타입 | HTML/JS 브라우저 게임 원샷 생성 | Codex + 코드 생성 | 하 |
| 게임 프로토타입 | 전술 턴제 RPG(전투 루프, 캐릭터 비주얼, UI) Phaser 엔진 기반 | Codex + Playwright + 이미지 생성 | 상 |
| 게임 프로토타입 | Excel 수식만으로 Pokemon Red 오버월드 데모 구현 | 스프레드시트 모델링 + 코딩 | 상 |
| 풀스택 웹 | Reddit 스타일 커뮤니티 앱 풀스택 단일 프롬프트 생성 | Codex + 아키텍처 설계 | 중 |
| 풀스택 웹 | 가상 HVAC 비즈니스 SEO 웹사이트 30페이지, 20분 완성 | Codex + 이미지 생성 + SEO | 중 |
| 풀스택 웹 | AI 스튜디오 랜딩페이지(다크모드, 애니메이션, 가격표) 원샷 | Vite + React 프론트엔드 | 하 |
| 금융/데이터 | 100개 시트 1,000년 영국 거시경제 데이터 Excel 분석 | ChatGPT for Excel + 장문맥 | 상 |
| 3D 시각화 | Friends 드라마 Monica 아파트 Three.js 3D 재현(2 프롬프트) | 코딩 + 비전 이해 | 중 |
| 3D 시각화 | 실시간 OpenSky 항공 데이터 연동 3D 지구본 웹앱 | React + Three.js + API 연동 | 상 |
| 3D 시각화 | 아이소메트릭 3D 방 장면(외부 모델 없이 코드만으로) | Vite + React + Three.js | 중 |
| 물리 시뮬레이션 | 커튼 천 물리(드래그, 바람, 절단 반응) 인터랙티브 데모 | React 프론트엔드 물리 엔진 | 중 |
| DevOps | CI 실패 감지 → 자동 수정 PR → Datadog MCP 인시던트 대응 | 도구 검색 + MCP 연동 | 상 |
GPT-5.4 기능 해부 | 8가지 핵심 변화를 깊이 있게 분석
GPT-5.4는 GPT-5.3-Codex의 코딩 역량과 GPT-5.2의 추론 능력을 단일 모델로 통합하면서, 여기에 완전히 새로운 기능 세 가지를 추가했다. "더 똑똑한 챗봇"이 아니라 대화형 AI에서 실행형 AI로의 전환이다.
네이티브 컴퓨터 제어(Computer Use)
OpenAI 범용 모델 최초로 데스크톱 환경을 직접 조작하는 기능이 탑재됐다. 스크린샷을 분석해 UI 요소의 위치와 기능을 파악하고, 마우스 클릭과 키보드 입력 명령을 생성한다. Playwright 라이브러리를 활용한 브라우저 자동화 코드도 직접 작성한다.
이 기능의 실력을 보여주는 벤치마크가 OSWorld-Verified다. 데스크톱 환경을 스크린샷과 마우스/키보드로 조작하는 능력을 측정하는데, GPT-5.4는 75.0%를 기록해 인간 수행률 72.4%를 넘어섰다. GPT-5.2가 47.3%였던 것과 비교하면 +27.7%p라는 압도적 향상이다. 브라우저 사용 벤치마크 WebArena-Verified에서도 67.3%, 스크린샷 기반 Online-Mind2Web에서는 92.8%를 달성했다.
개발자 메시지를 통해 동작을 세밀하게 조정할 수 있고, 위험 허용 수준에 따라 확인 정책(confirmation policy)을 커스텀 설정할 수 있다. 현재 API와 Codex 환경에서만 접근 가능하며, ChatGPT 채팅 인터페이스에서는 직접 사용할 수 없다.
100만 토큰 컨텍스트 윈도우
Codex와 API에서 최대 100만 토큰의 컨텍스트를 실험적으로 지원한다. 기존 GPT-5.2의 40만 토큰(입력 27.2만) 대비 2.5배 이상 확장됐다. GPT-5.3-Codex에서 처음 100만 토큰이 도입됐고, GPT-5.4는 이를 계승하면서 성능을 더 안정화시켰다.
실질 성능은 구간에 따라 차이가 크다. OpenAI의 8-needle MRCR v2 테스트에서 4K-8K 구간은 97.3%, 64K-128K 구간은 86.0%, 128K-256K 구간은 79.3%, 512K-1M 구간은 36.6%까지 하락한다. 핵심 정보는 컨텍스트 앞쪽에 배치하는 것이 정확도 유지에 중요하다. 27.2만 토큰 초과분에 대해서는 2배 요금이 부과된다.
네이티브 컴팩션(Native Compaction)
GPT-5.4는 컴팩션을 네이티브로 지원하는 최초의 메인라인 모델이다. 컴팩션이란 긴 에이전트 작업 궤적(trajectory)에서 이전 대화 맥락을 압축하면서 핵심 정보를 보존하는 기능이다. 덕분에 컨텍스트 윈도우가 가득 차더라도 중요한 맥락을 잃지 않고 작업을 계속 이어갈 수 있다. Codex에서 model_auto_compact_token_limit 파라미터로 컴팩션 시점을 설정할 수 있다. 다만 일부 사용자 보고에 따르면 컴팩션 후 성능이 다소 떨어지는 경우도 있어, 가능하면 컨텍스트 한도 내에서 작업을 완료하는 것이 이상적이다.
도구 검색(Tool Search)
기존에는 사용 가능한 모든 도구 정의를 프롬프트에 미리 포함해야 했다. 도구가 많을수록 수만 토큰이 추가되어 비용과 지연 시간이 급증했다. GPT-5.4의 도구 검색은 가벼운 도구 목록만 제공하고, 실제 필요한 시점에 해당 도구 정의를 불러온다.
Scale의 MCP Atlas 벤치마크에서 36개 MCP 서버를 모두 연결한 250개 작업 테스트 결과, 도구 검색 방식이 전체 도구 로딩 방식 대비 총 토큰 사용량을 47% 줄이면서 동일한 정확도를 유지했다. 수만 개의 토큰이 포함된 MCP 서버 정의를 다루는 에이전트 개발자에게 실질적인 비용 절감을 가져다준다.
중간 조정 가능한 스티어러빌리티
GPT-5.4 Thinking은 복잡한 질문에 대해 작업을 시작하기 전에 계획(preamble)을 먼저 보여준다. 사용자는 이 계획을 검토한 뒤 방향을 수정하거나, 응답 생성 도중에도 추가 지시를 내릴 수 있다. 기존 Codex에서만 가능했던 이 기능이 ChatGPT로 확장된 것이다.
실제 사용자 평가에서 "이전 모델보다 더 자연스럽고 단호하다(natural and assertive)"는 피드백이 많았고, Cursor 팀은 GPT-5.4를 내부 벤치마크 1위 모델로 평가하며 "중간 작업 전환/중단에 대한 대응이 크게 개선됐다"고 밝혔다.
chatgpt.com과 Android 앱에서 사용 가능하며, iOS 앱은 곧 지원 예정이다.
Playwright Interactive
Codex에서 사용할 수 있는 실험적 스킬로, 빌드 중인 웹/Electron 앱을 시각적으로 디버깅하고 테스트할 수 있다. 모델이 코드를 작성하면서 동시에 브라우저를 열어 결과물을 확인하고, 오류를 발견하면 자동으로 수정하는 빌드-실행-검증-수정 루프를 수행한다.
OpenAI 공식 데모에서 테마파크 시뮬레이션 게임과 전술 RPG를 이 기능으로 제작해 공개했다. 텍스처 에셋은 이미지 생성 스킬로 만들고, 의존성 설치부터 코드 작성, QA까지 모두 자동으로 처리됐다.
고해상도 비전과 문서 파싱
GPT-5.4부터 새로운 original 이미지 입력 상세 레벨이 도입됐다. 최대 1,024만 픽셀(최대 6,000픽셀 차원)까지 원본 해상도로 인식할 수 있으며, 기존 high 레벨도 256만 픽셀(최대 2,048픽셀 차원)로 확장됐다.
MMMU-Pro(도구 미사용 시 81.2%, 도구 사용 시 82.1%)에서 향상된 시각 이해력을 확인할 수 있고, OmniDocBench에서 정규화 편집 거리 오류가 0.140(GPT-5.2)에서 0.109로 22% 감소했다. 밀도 높은 건축 도면, 의료 이미지, 고해상도 UI 스크린샷 분석에 실질적 차이를 만든다.
환각 감소와 ChatGPT for Excel
사용자가 사실 오류를 신고한 프롬프트 기준으로, 개별 주장이 거짓일 확률이 GPT-5.2 대비 33% 감소, 전체 응답에 오류가 포함될 확률은 18% 감소했다.
동시에 출시된 ChatGPT for Excel 베타 애드인은 자연어로 스프레드시트를 구축하고, 수식을 생성하고, 다중 시트 데이터를 분석하는 기능을 제공한다. 내부 투자은행 벤치마크에서 GPT-5.0이 43.7%에서 시작해 GPT-5.4에서 87.3%까지 도달했다. 프레젠테이션 품질 평가에서도 인간 평가자가 GPT-5.4의 결과물을 GPT-5.2 대비 68.0%의 비율로 선호했는데, 더 강한 미적 완성도, 시각적 다양성, 이미지 생성 도구의 효과적 활용이 이유였다.
GPT-5.4의 /fast 모드를 Codex에서 활성화하면 동일한 모델 성능으로 최대 1.5배 빠른 토큰 생성 속도**를 얻을 수 있다. API에서는 Priority Processing 옵션으로 같은 효과를 낼 수 있으며 요금은 표준의 2배다. 일상 작업에서는 reasoning effort를 medium이나 high로 설정해도 충분히 좋은 결과를 얻을 수 있고 비용도 크게 줄어든다.
** 컴퓨터 제어와 Playwright Interactive는 API/Codex 전용 기능이다. ChatGPT 인터페이스에서는 사용할 수 없으며, 민감한 시스템에서는 반드시 확인 정책(confirmation policy)을 설정한 뒤 사용해야 한다.
벤치마크 심층 비교 | GPT-5.4가 앞서는 곳과 밀리는 곳
GPT-5.4 vs GPT-5.2 직접 비교
| 벤치마크 | GPT-5.4 | GPT-5.4 Pro | GPT-5.2 | 변화폭 | 영역 |
|---|---|---|---|---|---|
| GDPval(44개 직업 지식 업무) | 83.0% | 82.0% | 70.9% | +12.1%p | 전문 업무 |
| OSWorld-Verified(데스크톱 제어) | 75.0% | - | 47.3% | +27.7%p | 컴퓨터 제어 |
| BrowseComp(웹 리서치) | 82.7% | 89.3% | 65.8% | +16.9%p | 도구 활용 |
| Toolathlon(다단계 도구 사용) | 54.6% | - | 45.7% | +8.9%p | 에이전트 |
| ARC-AGI-2(추상 추론) | 73.3% | 83.3% | 52.9% | +20.4%p | 추론 |
| FrontierMath Tier 1-3 | 47.6% | 50.0% | 40.7% | +6.9%p | 수학 |
| FrontierMath Tier 4 | 27.1% | 38.0% | 18.8% | +8.3%p | 고난도 수학 |
| SWE-Bench Pro(코딩) | 57.7% | - | 55.6% | +2.1%p | 코딩 |
| Terminal-Bench 2.0 | 75.1% | - | 62.2% | +12.9%p | 에이전트 코딩 |
| Humanity's Last Exam(도구 사용) | 52.1% | 58.7% | 45.5% | +6.6%p | 종합 학술 |
| Frontier Science Research | 33.0% | 36.7% | 25.2% | +7.8%p | 과학 연구 |
| 스프레드시트 모델링(내부) | 87.3% | 83.6% | 68.4% | +18.9%p | 엑셀/금융 |
| MMMU-Pro(도구 미사용) | 81.2% | - | 79.5% | +1.7%p | 멀티모달 |
| ARC-AGI-1 | 93.7% | 94.5% | 86.2% | +7.5%p | 추상 추론 |
가장 큰 도약은 컴퓨터 제어(+27.7%p)와 추상 추론 ARC-AGI-2(+20.4%p)다. 스프레드시트 모델링(+18.9%p)과 웹 리서치(+16.9%p)도 실무에 직결되는 대폭 향상이다. 반면 코딩(SWE-Bench Pro)은 +2.1%p에 그쳤는데, 이는 GPT-5.3-Codex의 코딩 역량을 거의 그대로 흡수했기 때문이다.
경쟁 모델 대비 위치
| 평가 항목 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| 컴퓨터 제어(OSWorld) | 75.0%(1위, 인간 72.4% 초과) | 미공개(Sonnet 4.5: 62.9%) | 미공개 |
| GDPval-AA 리더보드 | 1667점(1위) | 1633점 | 미공개 |
| Terminal-Bench 2.0 | 75.1% | 74.7% | 78.4%(1위) |
| ARC-AGI-1 | 93.7% | 94%(1위) | 미공개 |
| ARC-AGI-2 | 73.3% | 69.2% | 84.6%(1위, Deep Think) |
| 컨텍스트 윈도우 | 100만 토큰 | 100만 토큰 | 100만+ 토큰 |
| API 입력 가격(100만 토큰) | 2.50달러 | 5달러 | 미공개 |
| Cursor 내부 벤치마크 | 1위 | 이전 리더 | - |
| Design Arena Elo | 1312(9위, GPT-5.2 대비 9단계 상승) | - | - |
GPT-5.4가 독보적으로 앞서는 영역은 컴퓨터 제어와 전문 지식 업무(GDPval)다. 이 두 영역에서 현재 어떤 경쟁 모델도 GPT-5.4를 넘지 못한다. Cursor 팀은 GPT-5.4를 내부 벤치마크 리더로 공식 발표했다. 반면 최상위 추론은 Gemini 3.1 Pro Deep Think, 대규모 코드 작업은 Claude Opus 4.6이 여전히 강세를 유지하고 있다. 디자인 품질(Design Arena)에서는 Elo 1312로 9위를 기록해, 코딩과 지식 업무 대비 시각 디자인 능력은 아직 상위권에 들지 못한다.
** 벤치마크 비교 시 각 모델의 reasoning effort 설정이 다를 수 있다. GPT-5.4는 대부분 xhigh 설정이고, Claude Opus 4.6은 High effort 기준이다. 실제 업무에서의 직접 A/B 테스트가 가장 정확한 판단 기준이다.
** SWE-Bench Verified 점수는 GPT-5.4에서 비추론(non-thinking) 변형으로 측정된 약 52.8%이며, OpenAI는 이 벤치마크를 SWE-Bench Pro로 전환 중이다. 다른 모델의 SWE-Bench Verified 점수와 직접 비교 시 주의가 필요하다.
실전 사례 심층 분석 | 6대 업무 영역별 해부
소프트웨어 직접 조작: GUI를 이해하는 AI의 등장
"자전거 타는 펠리칸 애니메이션을 만들어줘"라는 단일 프롬프트를 입력하자, GPT-5.4가 Adobe After Effects를 열고 레이어를 생성하고, 키프레임을 설정하고, 스크립트를 실행해 완성된 모션 그래픽을 만들어냈다. 이것은 코드를 출력하는 것이 아니라, 전문 소프트웨어의 GUI를 실시간으로 인식하고 조작한 것이다.
이 기능의 기반이 되는 것이 original 이미지 상세 레벨이다. 최대 1,024만 픽셀까지 원본 해상도로 UI를 인식하므로, 복잡한 전문 도구의 작은 버튼과 메뉴 항목까지 정확하게 파악할 수 있다.
데이터 파이프라인 자동화 사례도 주목받았다. "샌프란시스코 Zillow 주택 가격을 모두 수집해서 Google Sheets로 정리해줘"라는 요청에 GPT-5.4가 브라우저를 직접 열고 웹사이트를 탐색하며 데이터를 추출하고 약 4분 만에 스프레드시트에 구조화해 입력했다. 다만 이 데모의 일부 과정이 Chrome 확장 프로그램의 도움을 받았다는 지적도 있어, 순수 재현 시에는 API의 computer use 도구를 활용해야 한다.
레거시 코드 복원과 ROM 해킹: 6시간 자율 에이전트
가장 기술적으로 인상적인 사례는 1993년 DOS 게임 SkyRoads의 리버스 엔지니어링이다. 구글 연구원이 소스코드 없는 실행 파일(.exe)만 Codex 5.4에 넣었더니, 모델이 6시간 동안 자율적으로 작동하며 다음 과정을 수행했다. EXE 파일을 분해(unpack)하고, 그래픽 에셋을 추출하고, 렌더링 파이프라인을 분석한 뒤, Rust 코드로 플레이 가능한 상태를 재구현했다. GitHub에 공개된 이 프로젝트는 즉시 수백 개의 스타를 받았다.
같은 맥락에서 Super Mario ROM을 분석한 사례도 있다. GPT-5.4가 NES ROM의 게임 구조와 RAM 이벤트 매핑을 파악한 뒤, JavaScript NES 에뮬레이터를 직접 생성하고 브라우저 요청을 통해 AI가 각 게임 캐릭터를 조종하는 데모가 프롬프트 3개만으로 완성됐다.
또 다른 개발자는 Pokemon Red ROM을 GPT-5.4에 넣어 게임의 포켓몬 캐릭터를 AI 엔티티로 자율 교체하는 실험(POK(AI)MON 프로젝트)을 진행했다. 모델이 ROM 구조를 분석하고 게임 데이터를 직접 편집해 새로운 캐릭터, 능력치, 규칙이 적용된 커스텀 버전을 만들어낸 것이다.
이런 작업이 가능한 핵심 이유는 100만 토큰 컨텍스트와 네이티브 컴팩션이다. 대규모 바이너리 데이터를 한 번에 로딩하고, 장시간 작업에서도 핵심 맥락을 유지하면서 계획-실행-검증 루프를 반복할 수 있다.
** 레거시 코드 복원 작업을 시도할 때는 Codex에서 model_context_window를 1M으로 설정하고, model_auto_compact_token_limit으로 컴팩션 시점을 제어해야 한다. reasoning effort를 xhigh로 올리면 더 정교한 분석이 가능하지만, 비용과 시간이 비례해서 증가한다.
게임 프로토타이핑: 프롬프트 한 번에 플레이 가능한 게임
OpenAI 공식 데모에서 단일 프롬프트로 아이소메트릭 테마파크 시뮬레이션 게임이 생성됐다. 경로 배치, 방문객 경로탐색(pathfinding) AI, 놀이기구 대기열 시스템까지 포함된 플레이 가능한 결과물이다. Playwright Interactive가 빌드 과정에서 브라우저를 열고 게임을 실제로 테스트하면서 오류를 수정하는 자동 QA 루프를 수행했다.
또 다른 공식 데모에서는 유리와 대리석 질감의 3D 체스 게임이 Electron 데스크톱 앱으로 생성됐다. 갤러리 조명, 프로스트 유리 보드, 반사/굴절 셰이더까지 포함된 결과물로, 하나의 프롬프트에서 시작해 이미지 생성 스킬로 텍스처 에셋을 만들고 Codex가 코드를 작성하는 방식이었다.
OpenAI 개발자 팀은 Phaser 게임 엔진 위에 전술 턴제 RPG(전투 루프, 캐릭터 비주얼, UI)를 Codex + GPT-5.4 + Playwright + 이미지 생성으로 제작한 데모도 공개했다.
커뮤니티에서는 더 다양한 게임이 쏟아졌다. Three.js로 물리 엔진이 포함된 3D 도지볼 게임, HTML/JavaScript만으로 실행되는 브라우저 게임 프로토타입, Pokemon Red 디컴파일 데이터로 Excel 수식만으로 구동되는 오버월드 데모까지 등장했다. 특히 Excel 게임 사례는 GPT-5.4의 스프레드시트 모델링 능력(87.3%)과 코딩 능력이 결합된 독특한 결과물이다.
풀스택 웹 개발: 20분 안에 프로덕션급 사이트
Codex + GPT-5.4로 Reddit 스타일 커뮤니티 앱을 단일 프롬프트로 풀스택 생성한 개발자가 등장했다. 모델이 아키텍처 설계, 프론트엔드/백엔드 코드 생성, 데이터베이스 스키마까지 한 번에 처리했다.
가상의 HVAC 비즈니스를 위한 30페이지 이상의 SEO 최적화 웹사이트가 약 20분 만에 완성된 사례도 공개됐다. 타이틀 태그, 메타 디스크립션, AI 생성 이미지(WebP 최적화), PageSpeed 95점까지 포함된 결과물이었다.
Vite + React 기반 AI 스튜디오 랜딩페이지(다크모드, 애니메이션, 가격표, 히어로, 기능 소개, 후기 섹션)가 원샷으로 생성된 사례도 있다. 이 사례는 GPT-5.4와 Claude Opus 4.6을 동일 프롬프트로 비교한 결과 중 하나로, GPT-5.4가 프론트엔드 UI의 미적 완성도에서 더 높은 평가를 받았다.
금융과 데이터 분석: 엑셀 안에 들어온 AI
GPT-5.4 출시와 동시에 베타 공개된 ChatGPT for Excel 애드인은 자연어로 스프레드시트를 구축하고, 기존 워크북의 수식을 수정하고, 다중 시트 데이터를 요약 분석한다. GPT-5.0이 내부 투자은행 벤치마크에서 43.7%로 시작했는데, 7개월 뒤 GPT-5.4에서 87.3%까지 도달했다. DCF 모델링, 3-statement 모델 구축, 시나리오 분석 같은 주니어 애널리스트급 금융 업무를 상당 수준으로 처리할 수 있다는 의미다.
1,000년 영국 거시경제 데이터가 담긴 100개 이상 시트의 대규모 Excel 파일을 이 애드인으로 분석한 사례도 화제가 됐다. 농업 생산, GDP, 인구, 노동시간의 상관관계를 수식과 그래프로 정리해 장기 경제 흐름을 시각화한 결과물이었다.
ChatGPT for Excel은 Plus, Pro, Business, Enterprise 구독자가 Home → Add-ins에서 설치할 수 있다.
3D 시각화와 인터랙티브 데모
Three.js 기반 3D 시각화 사례가 특히 풍부했다. 드라마 Friends의 Monica 아파트를 평면도 기준으로 Three.js 3D 장면으로 재현한 사례에서는 가구 배치, 조명, 벽 색감(상징적인 보라색 벽)까지 반영된 탐색 가능한 공간이 프롬프트 2개만으로 생성됐다.
React + Three.js 기반 3D 항공기 추적 웹앱은 OpenSky Network의 실시간 비행 데이터를 3D 지구본 위에 표시한다. 지구를 회전시키며 항공기 위치, 고도, 이동 경로를 확인할 수 있는 인터랙티브 데모로, GPT-5.4와 Claude Opus 4.6 비교 테스트에서 GPT-5.4가 비행기의 미묘한 빛 반사 같은 후처리(post-processing) 디테일에서 더 높은 평가를 받았다.
Vite + React + Three.js 환경에서 외부 3D 모델 파일 없이 코드만으로 아이소메트릭 3D 방을 구현한 사례, 바람에 흔들리고 드래그/절단에 반응하는 커튼 천 물리 시뮬레이션 사례도 모두 GPT-5.4의 프론트엔드 코드 생성 능력을 보여준다.
메타데이터가 제거된 사진에서 건물 구조와 주변 환경을 분석해 촬영 위치 좌표를 추정하는 비전 분석 사례도 등장했다. 1,024만 픽셀까지 처리하는 고해상도 비전 능력이 이를 가능하게 했다.
** 프론트엔드 3D 시각화 작업에서 GPT-5.4는 Claude Opus 4.6 대비 시각적 후처리와 미적 디테일에서 더 좋은 결과를 보이는 경향이 있다. 반면 복잡한 로직과 아키텍처 설계에서는 Claude Opus 4.6이 강점을 유지한다. 프로젝트의 핵심이 비주얼인지 로직인지에 따라 모델을 선택하는 것이 효율적이다.
안전성과 보안 | CoT 제어 가능성 0.3%의 의미
GPT-5.4는 OpenAI의 Preparedness Framework에서 High 사이버 능력으로 분류됐다. 모니터링 시스템, 신뢰 기반 접근 제어, Zero Data Retention 환경에서의 비동기 차단 등 확장된 사이버 안전 스택과 함께 배포됐다.
출시와 함께 공개된 연구가 특히 주목할 만하다. OpenAI는 Chain-of-Thought(CoT) 제어 가능성 평가를 새로운 오픈소스 벤치마크로 공개했다. 이 연구는 "AI 모델이 자신의 추론 과정을 의도적으로 숨길 수 있는가"를 측정한다.
결과는 안심할 만하다. 13개 프론티어 모델 테스트에서 제어 가능성 점수는 0.1% - 15.4% 범위에 머물렀고, GPT-5.4 Thinking은 0.3%라는 극히 낮은 점수를 기록했다. 이는 모델이 자신의 추론 과정을 모니터링 시스템으로부터 숨기는 능력이 거의 없다는 뜻이며, CoT 모니터링이 유효한 안전 도구로 기능할 수 있음을 보여준다. 흥미롭게도 사후 훈련(post-training)이 많이 진행되고 추론이 길어질수록 제어 가능성이 오히려 더 낮아지는 경향이 확인됐다.
이전 모델 대비 불필요한 거부(refusal)와 과도한 주의 문구도 줄었다. GPT-5.2에서 정당한 요청까지 차단하는 사례가 빈번했는데, GPT-5.4는 이를 개선해 정상적인 전문 업무를 방해하지 않으면서도 악의적 사용에 대한 보호는 유지하는 방향으로 조정됐다.
가격 구조와 실용적 모델 선택 전략
| 모델 | 입력(100만 토큰) | 캐시 입력 | 출력(100만 토큰) | 최적 용도 |
|---|---|---|---|---|
| GPT-5.3 Instant | 약 0.30달러 | - | 약 1.20달러 | 일상 대화, 요약, 비용 민감 작업 |
| GPT-5.4 Standard | 2.50달러 | 0.25달러 | 15달러 | 전문 업무, 에이전트, 컴퓨터 제어 |
| GPT-5.4 Batch/Flex | 1.25달러 | - | 7.50달러 | 대량 비동기 처리 |
| GPT-5.4 Priority | 5달러 | - | 30달러 | 지연시간 민감 작업 |
| GPT-5.4 Pro | 30달러 | - | 180달러 | 최고 성능(BrowseComp 89.3%) |
| 참고: Claude Opus 4.6 | 5달러 | - | 25달러 | GPT-5.4 Pro 대비 1/6 가격 |
GPT-5.4는 토큰당 가격이 GPT-5.2 대비 약 43% 높다(입력 기준). 하지만 토큰 효율성 향상과 도구 검색의 47% 토큰 절감으로 동일 작업의 실질 비용 차이는 수치보다 작다. GPT-5.4 Pro는 Claude Opus 4.6 입력 가격의 6배이므로, 모든 작업에 Pro를 쓰는 것은 비효율적이다.
3단계 분리 전략이 합리적이다. 일상 대화와 요약은 GPT-5.3 Instant(비용 1/8), 전문 업무와 에이전트 작업은 GPT-5.4 Standard, 최고 난도 분석과 연구는 GPT-5.4 Pro로 나누는 것이다.
GPT-5.2 Thinking은 2026년 6월 5일에 완전 폐지**된다. 3개월간 Legacy Models 섹션에서 접근 가능하지만 이후 차단된다. GPT-5.2 기반 워크플로우를 운영 중이라면 마이그레이션 계획을 지금 세워야 한다.
GPT-5.4의 한계 | 아직 해결되지 않은 5가지 문제
인상적인 데모 뒤에는 분명한 한계가 존재한다.
첫째, 순수 코딩 향상폭이 작다. SWE-Bench Pro +2.1%p에 불과하며, Terminal-Bench 2.0에서는 GPT-5.3-Codex(77.3%)보다 오히려 낮은 75.1%를 기록했다. 코딩 전문 작업에서는 Claude Opus 4.6이나 Gemini 3.1 Pro가 더 나은 선택일 수 있다.
둘째, 100만 토큰의 실질 성능이 균일하지 않다. 512K-1M 구간에서 MRCR 정확도가 36.6%까지 떨어진다. 일부 사용자는 컴팩션 후 성능 저하를 보고하기도 했다.
셋째, 환각이 줄었지 사라진 것은 아니다. DataCamp 테스트에서 펜타닐 패치의 공급 기간을 잘못 계산해 10배 오차를 보인 사례가 확인됐다. 복잡한 수학 문제의 마지막 합산 단계에서 실수하는 경우도 보고됐다. 의료, 금융, 법률 같은 민감한 영역에서는 반드시 전문가 검증이 필요하다.
넷째, 컴퓨터 제어가 ChatGPT에서 직접 안 된다. API와 Codex 환경만 지원하므로, 비개발자가 즉시 체감할 수 있는 기능은 Thinking 모드의 중간 조정, 향상된 웹 리서치, ChatGPT for Excel 정도다.
다섯째, 디자인 능력이 아직 상위권이 아니다. Design Arena Elo 1312로 9위를 기록했다. GPT-5.2 대비 9단계 상승했지만, 시각 디자인 전문 작업에서는 다른 모델이 더 나을 수 있다.
GPT-5.4의 한계를 보완하는 전략은 모델 조합 사용**이다. 프론트엔드 비주얼과 컴퓨터 제어는 GPT-5.4, 복잡한 백엔드 로직은 Claude Opus 4.6, 최상위 추론은 Gemini 3.1 Pro Deep Think로 나누어 사용하면 각 모델의 강점을 극대화할 수 있다.
다음 단계 | GPT-5.4를 업무에 적용하는 실용적 로드맵
7개월 만에 GPT-5.0부터 5.4까지 다섯 번의 메이저 업데이트가 이어졌다. GPT-5.4는 AI가 텍스트를 생성하는 도구에서 소프트웨어를 직접 조작하고, 장기 작업을 자율적으로 수행하는 에이전트로 전환되는 중요한 이정표다. 2026년 하반기에는 영구 메모리와 자율 에이전트를 핵심으로 한 GPT-6가 예상된다.
지금 당장 시작하려면 자신의 업무에서 반복적이면서 여러 도구를 오가는 작업 하나를 골라야 한다. 웹 데이터 수집 후 스프레드시트 정리, CI 파이프라인 모니터링과 자동 수정, 프론트엔드 프로토타입 생성, 대규모 문서 분석 같은 작업이 GPT-5.4의 강점과 가장 잘 맞는다.
ChatGPT Plus, Team, Pro 구독자는 GPT-5.4 Thinking을 즉시 사용할 수 있다. Enterprise와 Edu 사용자는 관리자 설정에서 얼리 액세스를 활성화하면 된다. API에서는 모델명 gpt-5.4로 접근하고, Codex에서는 100만 토큰 컨텍스트와 Playwright Interactive를 실험적으로 활용할 수 있다.
이번 주 안에 가장 시간이 많이 드는 반복 업무 하나를 골라 GPT-5.4로 자동화 테스트를 시작해보자. 컴퓨터 제어가 필요 없는 작업이라면 ChatGPT 인터페이스에서, 소프트웨어 조작이나 대규모 컨텍스트가 필요한 작업이라면 API나 Codex에서 시작하면 된다.