1시간짜리 회의 녹음 파일을 텍스트로 바꾸려고 Whisper를 돌려본 적이 있다면, 그 결과물에 실망한 경험이 한 번쯤 있을 것이다. 30초 단위로 잘린 오디오 조각들이 다시 이어 붙여지면서 문맥이 끊기고, 누가 한 말인지 구분조차 안 되는 텍스트 더미를 마주하게 된다. 회의 참석자가 5명이면 5명 모두 같은 사람이 말한 것처럼 처리되거나, 문장 중간에서 뚝 잘린 발화가 엉뚱한 텍스트로 변환되기도 한다.
Microsoft가 2025년 8월부터 순차적으로 공개해 온 VibeVoice는 이 문제에 정면으로 도전한 오픈소스 음성 AI 프로젝트다. 특히 2026년 1월에 공개된 VibeVoice-ASR은 최대 60분 분량의 오디오를 한 번에 처리하면서 화자 분리, 타임스탬프, 텍스트 변환을 동시에 수행한다. GitHub 스타 25,000개를 돌파하며 개발자 커뮤니티에서 폭발적인 관심을 받고 있고, 2026년 3월에는 Hugging Face Transformers 라이브러리와 Microsoft Azure Foundry 모델 카탈로그에도 정식 통합되었다.
이 글에서는 기존 음성 인식 기술의 구조적 문제부터 VibeVoice의 세 가지 모델 라인업, 핵심 아키텍처, 실제 벤치마크 수치, 설치 방법, 그리고 도입 시 고려해야 할 현실적인 제약까지 다룬다.
| 구분 | 핵심 정보 |
|---|---|
| 개발사 | Microsoft Research |
| 라이선스 | MIT - 상업적 사용 포함 무료 |
| 모델 라인업 | ASR 7B, TTS 1.5B, Realtime 0.5B |
| ASR 최대 처리 시간 | 60분 단일 패스 |
| 지원 언어 | 50개 이상 |
| Open ASR Leaderboard WER | 평균 7.77% |
| GitHub 스타 | 25,000개 이상 |
| Transformers 통합 | v5.3.0부터 정식 지원 |
기존 음성 인식의 구조적 병목과 Whisper의 한계
음성 인식 기술은 지난 수년간 비약적으로 발전했지만, 대부분의 모델은 하나의 근본적인 설계 제약을 공유한다. 오디오를 짧은 조각으로 잘라서 처리한 뒤 결과를 다시 이어 붙이는 청킹 방식이다.
OpenAI의 Whisper가 대표적이다. Whisper는 고정된 30초 윈도우를 입력으로 받도록 훈련되었다. 1시간짜리 회의 녹음을 넣으면 내부적으로 120개의 조각으로 분할하고, 각 조각을 독립적으로 처리한 뒤 결과를 순서대로 연결한다. 이 과정에서 세 가지 심각한 문제가 발생한다.
첫째, 문맥 단절이다. 30초 경계에서 문장이 잘리면 앞뒤 맥락 없이 처리되므로, 앞선 대화를 참조하는 발언이 엉뚱한 텍스트로 변환되는 일이 빈번하다. 둘째, 화자 식별 불가다. Whisper는 기본적으로 누가 말했는지 구분하지 못한다. 회의 참석자가 여러 명이어도 출력은 단일 화자의 연속 텍스트일 뿐이다. 별도의 화자 분리 도구를 붙여야 하고, 이는 또 다른 파이프라인 복잡성을 만든다. 셋째, 긴 오디오에서의 품질 저하다. Whisper large-v3 기준 평균 WER은 약 10.3%인데, 긴 오디오에서는 타임스탬프 불일치, 반복 생성, 침묵 구간 오류 등이 빈번하게 보고된다.
WhisperX처럼 Whisper에 화자 분리 기능을 추가한 래퍼 도구가 있지만, 근본적으로 두 개의 별도 모델을 순차적으로 실행하는 파이프라인 방식이므로 모델 간 결과 불일치가 발생할 수 있다. 특히 짧은 발화가 오가는 토론 형식 오디오에서 화자 혼동이 심해진다.
VibeVoice 3가지 모델 라인업과 각각의 역할
VibeVoice는 단일 모델이 아니라 용도에 따라 분화된 모델 패밀리다. 음성 인식, 음성 합성, 실시간 스트리밍 세 축으로 구성되며 각각 독립적으로 사용할 수 있다.
VibeVoice-ASR 7B — 장시간 음성 인식의 핵심
가장 주목받는 모델이다. 70억 개의 파라미터를 탑재한 대형 음성 인식 모델로, 최대 60분 분량의 오디오를 64K 토큰 컨텍스트 윈도우 안에서 한 번에 처리한다. 출력은 단순 텍스트가 아니라 구조화된 전사다. 각 발화 구간마다 화자 ID, 시작-종료 타임스탬프, 발화 내용이 함께 기록된다.
50개 이상의 언어를 네이티브로 지원하며, 별도의 언어 설정 없이도 한 오디오 안에서 여러 언어가 섞여 나오는 코드 스위칭을 자동 처리한다. 또한 사용자가 미리 제공하는 커스텀 핫워드(인명, 사명, 기술 용어 등)를 통해 특정 도메인의 인식 정확도를 크게 높일 수 있다.
VibeVoice-TTS 1.5B — 장시간 다화자 음성 합성
텍스트를 음성으로 변환하는 TTS 모델로, 최대 90분 분량의 대화형 음성을 생성할 수 있다. 최대 4명의 화자를 동시에 지원하며, 자연스러운 발화 교대와 감정 표현이 가능하다. 다만 2025년 9월 Microsoft가 책임 있는 AI 원칙에 따라 딥페이크 악용 사례가 발견되어 TTS 코드를 저장소에서 제거했다. 모델 가중치는 Hugging Face에 여전히 공개되어 있으나, 공식 코드 지원은 중단된 상태다.
VibeVoice-Realtime 0.5B — 실시간 스트리밍 TTS
5억 개 파라미터의 경량 모델로, 실시간 대화형 AI 서비스에 최적화되었다. 텍스트가 입력되는 즉시 스트리밍 방식으로 음성을 생성하며, 첫 소리가 나오기까지의 지연 시간이 약 200 - 300ms에 불과하다. 약 10분 분량의 연속 음성 생성을 지원하고, 2025년 12월 업데이트에서 독일어, 프랑스어, 일본어, 한국어 등 9개 언어의 실험적 음성이 추가되었다.
| 비교 항목 | ASR 7B | TTS 1.5B | Realtime 0.5B |
|---|---|---|---|
| 용도 | 음성을 텍스트로 | 텍스트를 음성으로 | 실시간 음성 생성 |
| 파라미터 수 | 70억 개 | 15억 개 | 5억 개 |
| 최대 처리 시간 | 60분 | 90분 | 약 10분 |
| 화자 지원 | 자동 화자 분리 | 최대 4명 동시 | 다양한 스타일 |
| 핵심 특징 | 구조화 전사 | 다화자 대화 | 300ms 레이턴시 |
| 코드 공개 | 공개 | 제거됨 | 공개 |
VibeVoice-TTS는 공식 코드가 제거된 상태이므로 커뮤니티 포크를 활용해야 한다. 커뮤니티 버전은 공식 지원이 아니므로 안정성과 업데이트 보장이 어렵다.
VibeVoice-ASR의 기술 아키텍처 — 왜 60분을 한 번에 처리할 수 있는가
VibeVoice의 기술적 혁신은 세 가지 요소의 결합에 있다. 연속 음성 토크나이저, 넥스트-토큰 디퓨전 프레임워크, 그리고 통합 단일 패스 아키텍처다.
초저프레임율 연속 음성 토크나이저
일반적인 음성 모델은 오디오를 이산적인 토큰으로 변환할 때 상당한 프레임율을 사용한다. VibeVoice는 어쿠스틱 토크나이저와 시맨틱 토크나이저를 결합하면서도 프레임율을 약 7.5Hz까지 낮췄다. 이는 1초당 7.5개의 토큰만으로 음성 정보를 표현한다는 뜻이다. 프레임율이 낮을수록 동일한 컨텍스트 윈도우 안에 더 긴 오디오를 담을 수 있고, VibeVoice-ASR의 64K 토큰 윈도우가 60분이라는 긴 오디오를 수용할 수 있는 것도 이 덕분이다.
넥스트-토큰 디퓨전
VibeVoice는 LLM의 텍스트 이해 능력과 디퓨전 모델의 고품질 음향 생성 능력을 결합한다. LLM이 텍스트 문맥과 대화 흐름을 파악하고, 디퓨전 헤드가 고충실도 어쿠스틱 디테일을 생성하는 구조다. 이 방식 덕분에 짧은 청크 단위가 아닌 긴 맥락 전체를 고려한 정확한 음성 처리가 가능하다.
단일 패스 통합 처리
기존 방식에서는 ASR 모델, 화자 분리 모델, 타임스탬프 정렬 모듈이 각각 독립적으로 동작했다. VibeVoice-ASR은 이 세 가지를 하나의 모델 안에서 한 번의 추론으로 동시에 수행한다. 별도의 후처리 파이프라인이 필요 없고, 모델 간 결과 불일치 문제도 원천적으로 발생하지 않는다.
VibeVoice-ASR은 오디오 입력과 함께 선택적으로 컨텍스트 토큰을 주입할 수 있다. 회의 참석자 이름, 회사명, 프로젝트 코드명 등을 미리 입력하면 모델이 해당 단어를 우선적으로 인식하도록 가이드된다. 의료, 법률, 기술 분야처럼 전문 용어가 많은 도메인에서 인식 정확도를 크게 개선할 수 있는 기능이다.
벤치마크 수치로 보는 VibeVoice-ASR의 실제 성능
모델의 가치를 판단하는 가장 객관적인 기준은 벤치마크 수치다. VibeVoice-ASR은 여러 공개 벤치마크에서 경쟁력 있는 성적을 보여주고 있다.
Open ASR Leaderboard 결과
Hugging Face가 운영하는 Open ASR Leaderboard에서 VibeVoice-ASR은 영어 8개 데이터셋 기준 평균 WER 7.77%를 기록했다. LibriSpeech Clean에서 2.20%, TED-LIUM에서 2.57%의 WER을 달성했으며, 추론 속도를 나타내는 RTFx는 51.80으로 실시간 대비 약 52배 빠른 처리 속도를 보인다.
화자 분리 성능
MLC-Challenge 다화자 벤치마크에서 VibeVoice-ASR의 DER은 4.28%, cpWER은 11.48%, tcpWER은 13.02%를 기록했다. 독립 벤치마크에서도 토론 형식 오디오 기준 DER 9.19%로, 프로덕션 수준의 정확도라는 평가를 받았다.
의료 도메인 벤치마크
31개 STT 모델을 의료 오디오로 벤치마킹한 독립 테스트에서, VibeVoice-ASR은 WER 8.34%로 오픈소스 모델 중 1위를 차지했다. 이는 Gemini 2.5 Pro의 8.15%에 근접한 수치로, 상용 API 수준의 정확도를 오픈소스로 달성했다는 점에서 의미가 크다.
| 벤치마크 | 지표 | VibeVoice-ASR | Whisper Large-v3 |
|---|---|---|---|
| Open ASR 영어 평균 | WER | 7.77% | 약 10.3% |
| LibriSpeech Clean | WER | 2.20% | 약 2.7% |
| MLC-Challenge | DER | 4.28% | 미지원 |
| MLC-Challenge | cpWER | 11.48% | 해당 없음 |
| 의료 오디오 | WER | 8.34% | 약 12% 이상 |
WER은 낮을수록 좋고, DER도 낮을수록 화자를 정확하게 구분한다는 뜻이다. VibeVoice-ASR이 단순 음성 인식 정확도뿐 아니라 화자 분리까지 동시에 우수한 성적을 낸다는 점이 핵심 차별점이다.
설치부터 실행까지 — 개발자를 위한 실전 적용 방법
VibeVoice-ASR은 MIT 라이선스로 공개되어 개인 프로젝트는 물론 상업적 서비스에도 무료로 사용할 수 있다. 설치와 실행 경로는 크게 세 가지다.
Hugging Face Transformers를 통한 설치
2026년 3월 6일 Transformers v5.3.0 릴리스에 VibeVoice-ASR이 정식 통합되었다. 기존에 Transformers를 사용 중인 개발자라면 추가 설정 없이 바로 쓸 수 있다. pip install 명령어 한 줄이면 설치가 완료되고, from transformers import pipeline 으로 파이프라인을 불러온 뒤 model 인자에 microsoft/VibeVoice-ASR을 지정하면 된다. 오디오 파일 경로를 넘기면 화자 ID, 타임스탬프, 발화 내용이 포함된 구조화된 전사 결과가 반환된다.
vLLM을 활용한 고속 추론
대량의 오디오를 처리해야 하는 환경에서는 vLLM 백엔드를 활용해 추론 속도를 높일 수 있다. 공식 문서에서 vLLM 연동 가이드를 제공하고 있으며, RTFx 51.80이라는 수치는 vLLM 환경에서 측정된 것이다.
Microsoft Azure Foundry를 통한 클라우드 배포
인프라 구축 없이 바로 사용하려면 Azure Foundry 모델 카탈로그를 통해 배포할 수 있다. 2026년 3월 기준 Foundry Labs에서 실험적으로 사용해볼 수 있고, Hugging Face와의 통합 배포 가이드도 공개되어 있다.
LoRA 파인튜닝으로 도메인 특화
VibeVoice-ASR은 LoRA 기반의 파인튜닝 코드를 공식 제공한다. 자체 보유한 오디오 데이터와 정확한 전사 텍스트가 있다면, 특정 도메인에 맞게 모델을 미세 조정할 수 있다. 학습률, 에포크 수, LoRA 랭크 등의 하이퍼파라미터를 데이터셋 규모와 도메인 특성에 맞게 조절하면 된다.
VibeVoice-ASR은 7B 파라미터 모델이라 최소 18GB 이상의 GPU VRAM이 필요하다. 일반 소비자용 GPU로는 RTX 4090 24GB 이상이 권장되며, 양자화를 적용하면 메모리를 줄일 수 있으나 정확도 손실이 발생할 수 있다. Colab 무료 티어 T4 16GB에서는 메모리 부족으로 실행이 어려운 사례가 보고되고 있다.
도입 전 반드시 알아야 할 제약과 고려 사항
어떤 기술이든 장점만 있지는 않다. VibeVoice를 실제 프로젝트에 도입하기 전에 인지해야 할 현실적인 제약 사항이 있다.
첫째, GPU 리소스 요구량이 상당하다. 7B 모델을 풀 정밀도로 로딩하면 약 18GB 이상의 VRAM이 필요하고, 60분짜리 오디오를 처리할 때 추가 메모리가 더 소비된다. 중소 규모 팀이 자체 인프라로 운영하기에는 부담이 될 수 있다.
둘째, TTS 모델의 코드 제거 이력이 있다. VibeVoice-TTS는 딥페이크 악용 사례 발견 후 2025년 9월 공식 코드가 삭제되었다. 모델 가중치 자체는 Hugging Face에 남아 있지만, Microsoft는 연구 및 개발 목적으로만 사용할 것을 권장한다.
셋째, 짧은 발화 구간에서의 화자 분리 정확도가 완벽하지 않다. Hugging Face 커뮤니티 논의에서 약 1초 미만의 짧은 끼어들기 발화에서 화자 분리 정확도가 떨어진다는 보고가 있다. 토론이나 디베이트처럼 짧은 맞장구가 빈번한 오디오에서는 결과를 수동으로 검수하는 과정이 필요할 수 있다.
넷째, 기반 모델의 편향 문제가 존재한다. VibeVoice는 Qwen2.5를 기반 모델로 사용하며, 해당 모델이 가진 편향이나 오류가 그대로 전달될 수 있다. 고품질 합성 음성이 사칭이나 허위 정보 유포에 악용될 가능성도 공식 문서에서 명시적으로 경고하고 있다.
| 항목 | 장점 | 제약 |
|---|---|---|
| 처리 길이 | 60분 단일 패스 | GPU 메모리 18GB 이상 필요 |
| 화자 분리 | 모델 내장 DER 4.28% | 1초 미만 발화 정확도 저하 |
| 라이선스 | MIT 상업 사용 가능 | TTS 코드 제거됨 |
| 다국어 | 50개 이상 코드 스위칭 | 언어별 성능 편차 가능 |
| 생태계 | Transformers vLLM Azure | Colab 무료 티어 제한 |
Whisper에서 VibeVoice로의 전환이 의미하는 것
VibeVoice-ASR의 등장은 음성 인식 기술의 패러다임 전환을 보여준다. 기존의 짧게 자르고 개별 처리하고 다시 붙이는 파이프라인 방식에서, 긴 오디오를 통째로 이해하고 구조화된 출력을 생성하는 통합 모델 방식으로의 이동이다.
이 전환이 가장 큰 영향을 미치는 영역은 기업 환경의 회의록 자동화다. 화자 분리와 타임스탬프가 기본 내장되어 있으므로, 별도의 후처리 파이프라인 없이 누가 언제 무슨 말을 했는지가 바로 정리된다. 이 구조화된 출력은 LLM 기반 요약, 검색, 분석 워크플로우와 자연스럽게 연결된다.
팟캐스트 제작자, 강의 녹취 담당자, 콜센터 운영팀, 법률 사무소의 녹취록 관리자 등 장시간 오디오를 다루는 모든 현장에서 VibeVoice-ASR은 실질적인 대안이 된다. 물론 GPU 리소스 요구량과 짧은 발화 구간에서의 정확도 한계는 분명한 약점이지만, 오픈소스이므로 LoRA 파인튜닝으로 도메인 특화가 가능하고, 커뮤니티 기여를 통해 빠르게 개선되고 있다.
지금 당장 60분짜리 회의 녹음 파일이 있다면 pip install transformers 한 줄로 VibeVoice-ASR을 설치하고 결과를 직접 확인해보는 것이 가장 빠른 판단 근거가 될 것이다.