LTX-2.3과 LTX-2의 가장 큰 차이점은 무엇인가요?

LTX-2.3은 재설계된 VAE로 더 선명한 텍스처와 디테일을 제공하고, 게이트 어텐션 텍스트 커넥터로 프롬프트 이해력이 향상되었습니다. 또한 네이티브 세로(9:16) 영상 지원이 추가되었고, 보코더가 BigVGAN v2로 교체되어 오디오 품질이 크게 개선되었습니다. 파라미터 수도 19B에서 약 20B로 소폭 증가했습니다.

LTX-2.3을 로컬 환경에서 실행하려면 어떤 GPU가 필요한가요?

공식 권장 사양은 NVIDIA A100(80GB) 또는 H100 GPU입니다. 하지만 커뮤니티에서는 12GB VRAM GPU(RTX 4060 Ti 등)에서 FP8 양자화 모델을 사용하여 720p 수준의 영상을 생성한 사례가 보고되고 있습니다. 8GB VRAM에서도 매우 제한적인 설정으로 실행 가능하지만, 프로덕션 품질은 기대하기 어렵습니다.

LTX-2.3 API 사용 비용은 얼마인가요?

생성된 영상의 초 단위로 과금됩니다. Fast 모델 1080p 기준 초당 0.04 달러, Pro 모델 1080p 기준 초당 0.06 달러입니다. 4K 해상도에서는 Fast가 0.16 달러, Pro가 0.24 달러로 올라갑니다. Retake, Extend, Audio-to-Video는 모두 초당 0.10 달러가 적용됩니다.

LTX-2에서 훈련한 LoRA를 LTX-2.3에서 그대로 사용할 수 있나요?

아키텍처 변경(Feature Extractor V2, Prompt AdaLN 활성화, 보코더 교체 등)으로 인해 LTX-2용 LoRA는 LTX-2.3에서 호환되지 않습니다. LTX-2.3에 맞게 LoRA를 새로 훈련해야 합니다. 다만 LTX-2.3은 Apache 2.0 라이선스로 LoRA 훈련 코드가 공개되어 있어 재훈련 환경 구축은 어렵지 않습니다.

LTX-2.3은 상업적 프로젝트에 사용할 수 있나요?

LTX-2.3은 Apache 2.0 라이선스로 배포되어 상업적 사용이 허용됩니다. 다만 연간 매출이 일정 기준(약 1,000만 달러)을 초과하는 경우 Lightricks와 별도 수익 공유 계약이 필요할 수 있습니다. LTX Studio 웹 플랫폼을 통한 상업적 사용은 Lite 플랜(월 15 달러)부터 가능하며, 무료 플랜은 개인용으로만 제한됩니다.

LTX-2.3의 Retake 기능은 어떻게 작동하나요?

Retake는 이미 생성된 영상의 특정 구간을 새로운 프롬프트로 교체하는 기능입니다. 주변 프레임의 모션, 조명, 연속성은 그대로 유지하면서 대사, 표정, 배경 등을 선택적으로 변경할 수 있습니다. 광고의 CTA 문구 변경, 감정 톤 조정, A/B 테스트 변형 제작 등에 활용되며, 전체 영상을 처음부터 재생성하는 비용과 시간을 절약할 수 있습니다.

LTX-2.3 AI 영상 생성 모델 | 특징·가격·기능·편집 핵심 정리

AI 영상 생성 기술이 매달 새로운 전환점을 만들고 있다. 2025년 10월 오픈소스 진영에 충격을 준 LTX-2에 이어, Lightricks가 2026년 3월 LTX-2.3을 공개했다. 재설계된 VAE, 개선된 프롬프트 이해력, 네이티브 세로 영상 지원까지 갖춘 이 모델은 크리에이터와 개발자 모두의 관심을 끌기에 충분하다.

텍스트 한 줄로 4K 영상과 동기화된 오디오를 동시에 만들어내는 시대가 열렸다면, 이제 남은 질문은 하나다. "LTX-2.3은 기존 LTX-2와 구체적으로 무엇이 다르고, 실제로 어떻게 활용할 수 있는가?" 이 글에서 LTX-2.3의 핵심 아키텍처 변경 사항부터 API 가격 체계, 실전 편집 워크플로, 그리고 LTX-2와의 상세 비교까지 빠짐없이 다룬다.

특히 오픈소스 라이선스(Apache 2.0) 하에 배포되어 로컬 GPU에서 직접 구동할 수 있다는 점은 클라우드 종속 없이 프로덕션 파이프라인을 구축하려는 팀에 결정적인 이점이 된다.

LTX-2.3 핵심 특징과 아키텍처 변화

LTX-2.3은 Lightricks가 개발한 DiT(Diffusion Transformer) 기반 오픈소스 오디오-비디오 생성 모델이다. 기존 LTX-2가 19B(190억) 파라미터로 구성되었다면, LTX-2.3은 약 20B(200억) 파라미터로 소폭 확장되었다. 비디오 스트림에 14B, 오디오 스트림에 5B를 할당하는 비대칭 듀얼 스트림 트랜스포머 구조는 유지하면서, 네 가지 핵심 영역에서 근본적인 개선을 이뤘다.

1.1

재설계된 VAE로 더 선명한 디테일

LTX-2.3의 가장 두드러진 변화는 새로운 VAE(Variational Autoencoder)다. 이전 버전에서 고해상도 구간에서 미세 디테일이 뭉개지던 문제를 해결했다. 텍스처, 얼굴 세부 묘사, 작은 오브젝트가 프레임 전체에 걸쳐 선명하게 유지된다. 특히 4K 해상도에서 이전 버전 대비 확연한 차이를 보인다.

1.2

게이트 어텐션 텍스트 커넥터

프롬프트 이해력을 높이는 Gated Attention Text Connector가 도입되었다. 타이밍, 모션, 표정에 대한 묘사가 기존보다 훨씬 정확하게 영상으로 변환된다. 기술적으로는 Cross-Attention을 sigma 값으로 변조하는 Prompt AdaLN(Adaptive Layer Normalization)이 활성화되어, 텍스트 조건부 생성의 정밀도가 크게 향상되었다.

1.3

네이티브 세로(9:16) 영상 지원

모바일 콘텐츠 수요에 대응하여 네이티브 1080x1920 세로(Portrait) 모드를 지원한다. 가로 영상에서 크롭하는 방식이 아니라 처음부터 세로 비율로 생성하므로, TikTok이나 Instagram Reels용 콘텐츠를 별도 후처리 없이 바로 제작할 수 있다.

1.4

개선된 오디오 품질

훈련 데이터에서 침묵 구간과 노이즈 아티팩트를 필터링하여 오디오 품질이 대폭 개선되었다. 보코더(Vocoder)도 기존 HiFi-GAN에서 BigVGAN v2 + 대역폭 확장(BWE) 방식으로 교체되어, 더 깨끗하고 자연스러운 사운드를 생성한다.

💡 TIP

LTX-2.3의 Feature Extractor는 V2로 업그레이드되어, 비디오용과 오디오용 aggregate_embed가 분리되고 토큰별 RMSNorm이 적용된다. 기존 LTX-2 LoRA는 아키텍처 변경으로 인해 호환되지 않으므로, 새로운 모델에 맞게 재훈련이 필요하다.

구성 요소	LTX-2 (19B)	LTX-2.3 (20B)
Feature Extractor	V1: 단일 aggregate_embed	V2: 비디오/오디오 분리 embed + RMSNorm
Caption Projection	트랜스포머 내부 처리	Feature Extractor 내부 처리
Prompt AdaLN	비활성	활성 (sigma 기반 Cross-Attention 변조)
Vocoder	HiFi-GAN	BigVGAN v2 + BWE
세로 영상	미지원 (크롭 필요)	네이티브 1080x1920 지원
파라미터	19B (비디오 14B + 오디오 5B)	약 20B (확장된 커넥터 포함)

⚠️ 주의

LTX-2.3은 LTX-2와 동일한 잠재 공간(Latent Space)을 공유하지만, 텍스트 조건부 처리 방식과 오디오 생성 구조가 다르다. ComfyUI에서 사용할 경우 반드시 최신 버전으로 업데이트해야 하며(커밋 43c64b6 이상), 기존 LTX-2 워크플로가 그대로 동작하지 않을 수 있다.

LTX-2.3 및 LTX-2 API 가격 체계 상세 분석

LTX 모델은 오픈소스로 로컬 실행이 가능하지만, 프로덕션 환경에서는 API를 통한 사용이 일반적이다. 가격은 생성된 영상의 초(second) 단위로 과금되며, 모델 종류(Fast/Pro)와 해상도에 따라 차등 적용된다.

2.1

LTX-2 공식 API 가격표

엔드포인트	모델	해상도	초당 비용
Text-to-Video	ltx-2-fast	1920x1080	0.04 달러
Text-to-Video	ltx-2-fast	2560x1440	0.08 달러
Text-to-Video	ltx-2-fast	3840x2160	0.16 달러
Text-to-Video	ltx-2-pro	1920x1080	0.06 달러
Text-to-Video	ltx-2-pro	2560x1440	0.12 달러
Text-to-Video	ltx-2-pro	3840x2160	0.24 달러
Image-to-Video	ltx-2-fast	1920x1080	0.04 달러
Image-to-Video	ltx-2-pro	1920x1080	0.06 달러
Audio-to-Video	ltx-2-pro	1920x1080	0.10 달러
Retake (편집)	ltx-2-pro	1920x1080	0.10 달러
Extend (연장)	ltx-2-pro	1920x1080	0.10 달러

fal.ai에서 제공하는 LTX-2.3 가격도 유사한 구조로, Text-to-Video와 Image-to-Video는 1080p 기준 0.06 달러/초부터, Fast 변형은 0.04 달러/초부터 시작한다. Audio-to-Video, Extend, Retake는 0.10 달러/초로 동일하다.

2.2

LTX Studio 구독 요금제

API가 아닌 웹 플랫폼(LTX Studio)을 통해 사용할 경우 월정액 구독 모델이 적용된다.

플랜	월 요금	컴퓨팅 시간	상업적 이용	주요 특징
Free	0 달러	800 크레딧 (1회)	개인용만	기본 기능 체험
Lite	15 달러	8,640초/월	가능	LTX-2 영상 생성
Standard	28 달러	28,000 크레딧/월	가능	추가 컴퓨팅 시간 포함
Pro	100 - 125 달러	최대 25시간/월	가능	최고 품질·우선 처리

💡 TIP

비용 효율을 극대화하려면 반복 실험 단계에서는 Fast 모델(1080p)을 사용하고, 최종 렌더링에서만 Pro 모델(4K)로 전환하는 것이 좋다. Fast 모델의 1080p 10초 영상 비용은 약 0.40 달러인 반면, Pro 4K 동일 길이는 2.40 달러로 6배 차이가 난다.

⚠️ 주의

오픈소스 모델을 로컬에서 실행하면 API 비용이 발생하지 않지만, 권장 하드웨어는 NVIDIA A100(80GB) 또는 H100급 GPU, 64GB 이상 시스템 RAM, 200GB 이상 SSD 저장공간이다. 12GB VRAM GPU(RTX 4060 Ti 등)에서도 낮은 해상도 설정으로 구동이 가능하다는 보고가 있으나, 생성 속도와 품질에 제약이 있다.

LTX-2.3의 7가지 엔드포인트와 활용 시나리오

LTX-2.3은 총 7개의 API 엔드포인트를 제공하며, 각각 고유한 활용 시나리오를 갖는다.

3.1

Text-to-Video (텍스트-투-비디오)

텍스트 프롬프트만으로 영상을 생성하는 가장 기본적인 모드다. 최대 20초 길이, 4K 해상도, 24/48 FPS로 출력할 수 있다. 광고 시안 제작, 소셜 미디어 콘텐츠, 프로토타이핑에 적합하다.

3.2

Image-to-Video (이미지-투-비디오)

참조 이미지 한 장에서 영상을 생성한다. LTX-2.3에서는 Ken Burns 효과(정지 이미지 위 단순 패닝/줌) 현상이 크게 줄었고, 입력 프레임과의 시각적 일관성이 향상되었다. 제품 사진을 움직이는 광고 영상으로 변환하거나, 컨셉 아트에서 시네마틱 시퀀스를 만드는 데 활용된다.

3.3

Audio-to-Video (오디오-투-비디오)

오디오 클립을 입력하면 해당 사운드에 맞는 비주얼을 생성한다. 음악에 맞춘 뮤직비디오 프리비즈, 팟캐스트 시각화, 사운드 디자인 작업에 유용하다.

3.4

Extend (영상 연장)

기존 영상의 앞이나 뒤에 추가 프레임을 생성하여 시퀀스를 연장한다. 최대 505 프레임까지 과금되며, 여러 번 연장을 연결하면 20초를 초과하는 장편 시퀀스도 구성할 수 있다.

3.5

Retake (영상 편집/리테이크)

이미 생성된 영상의 특정 구간만 교체하면서 모션, 조명, 프레임 연속성을 유지하는 기능이다. 대사 변경, 감정 톤 조정, 배경 교체, A/B 테스트 변형 제작 등 후반 작업에 핵심적으로 사용된다.

3.6

Fast 변형 (Text-to-Video Fast / Image-to-Video Fast)

Text-to-Video와 Image-to-Video 각각에 속도 최적화 변형이 존재한다. 시각적 디테일보다 빠른 반복 실험이 중요한 단계에서 사용하며, 렌더링 시간과 비용이 모두 절감된다.

💡 TIP

Retake 기능을 활용하면 전체 영상을 처음부터 다시 생성하지 않고, 클라이언트 피드백에 따른 수정 사항(CTA 문구 변경, 표정 톤 조정, 배경 분위기 전환 등)을 빠르게 적용할 수 있다. 이는 프로덕션 파이프라인에서 렌더링 비용과 시간을 크게 절약해준다.

LTX-2 기반 모델 계보와 기술 스펙 비교

Lightricks의 LTX 모델은 LTXV(초기 오픈소스 모델)에서 LTX-2, 그리고 LTX-2.3으로 진화해왔다. 각 버전의 핵심 스펙을 비교하면 발전 궤적을 명확히 파악할 수 있다.

항목	LTXV (0.9.x)	LTX-2	LTX-2.3
파라미터	약 2B	19B (14B+5B)	약 20B
아키텍처	DiT 기반	비대칭 듀얼 스트림 DiT	개선된 듀얼 스트림 DiT
최대 해상도	720p	4K (3840x2160)	4K (3840x2160)
최대 FPS	24	50	50
최대 영상 길이	약 5초	20초	20초
오디오 생성	미지원	네이티브 동기화	개선된 네이티브 동기화
세로 영상	미지원	미지원 (크롭 필요)	네이티브 지원
LoRA	지원	지원	지원 (재훈련 필요)
라이선스	Apache 2.0	Apache 2.0 / Community	Apache 2.0
출시일	2024년 11월	2025년 10월 (발표) / 2026년 1월 (오픈소스)	2026년 3월

LTX-2의 연구 논문에 따르면 H100 GPU 기준으로 WAN 2.2 14B 대비 약 18배 빠른 스텝 처리 속도를 기록했다. 이는 동일한 설정에서 고해상도 장시퀀스 영상을 프로덕션 수준으로 생성할 수 있다는 의미다.

⚠️ 주의

LTXV 시절의 경량 모델(약 2B 파라미터)과 현재 LTX-2/2.3(19-20B)은 완전히 다른 스케일이다. LTXV는 크리에이터 친화적 생성·편집에 초점을 두었고, LTX-2 이후는 개발자와 프로덕션 팀이 요구하는 예측 가능한 성능, 깊은 제어력, 측정 가능한 스펙에 맞춰 설계되었다.

LTX-2.3 영상 편집 워크플로 실전 가이드

5.1

ComfyUI에서의 LTX-2.3 설정

LTX-2.3은 공개와 동시에 ComfyUI 공식 지원이 추가되었다(커밋 43c64b6, PR #12773). 로컬 환경에서 사용하려면 다음 조건을 갖춰야 한다.

하드웨어 측면에서 권장 사양은 NVIDIA A100(80GB) 또는 H100, 시스템 RAM 64GB 이상, SSD 200GB 이상이다. 그러나 커뮤니티 보고에 따르면 12GB VRAM GPU에서도 FP8 양자화 모델과 GGUF 포맷을 활용하여 720p - 480p 수준의 영상을 생성한 사례가 있다. RTX 4060 Ti 16GB 사용자라면 중간 해상도에서 합리적인 생성 속도를 기대할 수 있다.

5.2

실전 편집 워크플로 구성

LTX-2.3을 활용한 영상 편집 파이프라인은 일반적으로 5단계로 구성된다.

1단계 - 초안 생성: Text-to-Video Fast로 1080p 10초 클립을 빠르게 여러 개 생성한다. 비용은 클립당 약 0.40 달러이며, 프롬프트 방향성을 검증하는 단계다.

2단계 - Image-to-Video 정밀 제어: 원하는 장면의 기준 이미지(컨셉 아트, 스틸컷 등)를 입력하여 모션과 카메라 워크를 제어한다. 깊이 인식(Depth-Aware) 생성, OpenPose 기반 모션, 카메라 컨트롤 등을 결합할 수 있다.

3단계 - Retake로 부분 수정: 생성된 영상 중 특정 구간의 대사, 표정, 배경을 Retake 기능으로 교체한다. 전체 영상의 연속성(모션, 조명, 프레임)은 그대로 유지된다.

4단계 - Extend로 시퀀스 확장: 필요한 장면을 앞뒤로 연장하여 20초 이상의 연결된 시퀀스를 만든다.

5단계 - 최종 렌더링: Pro 모델 4K 설정으로 최종 영상을 출력하고, 네이티브 오디오와 함께 내보낸다.

5.3

LoRA 파인튜닝과 스타일 커스터마이징

LTX-2.3은 LoRA(Low-Rank Adaptation) 파인튜닝을 지원한다. 특정 캐릭터, 브랜드 스타일, 아트 디렉션에 맞춘 모델을 만들 수 있어 프로덕션 파이프라인에서의 활용도가 높다. 다만 LTX-2에서 훈련한 LoRA는 LTX-2.3에서 호환되지 않으며 재훈련이 필요하다.

💡 TIP

로컬 환경에서 VRAM이 부족할 경우, HuggingFace에서 제공하는 distilled FP8 체크포인트를 사용하면 모델 크기를 절반 가까이 줄일 수 있다. 8GB VRAM GPU에서도 매우 낮은 해상도로 실행이 가능하다는 사용자 보고가 있지만, 프로덕션 품질을 기대하기는 어렵다.

LTX-2.3 활용 용도와 산업별 적용 사례

6.1

광고·마케팅

제품 사진 한 장에서 다양한 앵글과 모션의 광고 영상을 생성하고, Retake 기능으로 타겟 오디언스별 메시지를 빠르게 변형할 수 있다. 한 조사에 따르면 AI 영상 생성을 도입한 마케팅 팀은 영상 콘텐츠 제작 시간을 평균 약 65% 단축한 것으로 나타났다.

6.2

영화·VFX 프리비즈

시나리오 텍스트에서 바로 프리비주얼라이제이션 시퀀스를 생성하여 촬영 전 스토리보드를 동적으로 검증한다. 4K 50FPS 출력은 방송 품질 기준에 부합하며, 카메라 컨트롤과 깊이 인식 기능은 시네마틱 컴포지션 검증에 직접 활용된다.

6.3

소셜 미디어·숏폼 콘텐츠

LTX-2.3의 네이티브 세로(9:16) 모드는 TikTok, Instagram Reels, YouTube Shorts 등 숏폼 플랫폼에 최적화된 콘텐츠를 크롭 없이 바로 만들 수 있게 한다.

6.4

교육·이러닝

복잡한 개념을 시각화하는 교육 영상을 텍스트 설명만으로 생성한다. Audio-to-Video 기능을 활용하면 강의 음성에 맞춘 시각 자료를 자동으로 만들 수 있다.

6.5

게임·인터랙티브 미디어

LoRA 파인튜닝으로 게임 내 캐릭터나 세계관에 맞춘 시네마틱 컷씬을 생성한다. 스타일 LoRA를 적용하면 스톱모션, 펠트 질감, 셀 애니메이션 등 다양한 비주얼 스타일을 일관되게 유지할 수 있다.

⚠️ 주의

LTX-2.3의 오디오 품질은 이전 버전 대비 크게 개선되었지만, 커뮤니티 피드백에 따르면 일부 예시에서 여전히 금속성(metallic) 느낌이 남아있다는 평가가 있다. 대사 중심의 영상에서는 별도 음성 합성(TTS) 도구와 조합하여 사용하는 것이 현재로서는 더 안정적이다.

이상으로 LTX-2.3의 기술적 특징, 가격 체계, 실전 활용 방법, 그리고 LTX-2와의 차이점을 다뤘다. 오픈소스 AI 영상 생성 모델은 빠르게 진화하고 있으며, LTX-2.3은 해당 분야에서 품질과 효율성 사이의 균형을 한 단계 끌어올린 모델이다.

이 기술을 프로덕션에 적용하려는 팀이라면, 먼저 HuggingFace에서 FP8 체크포인트를 다운로드하여 로컬 테스트를 진행하는 것을 권장한다. API 기반 워크플로를 선호한다면 fal.ai나 LTX 공식 API에서 Text-to-Video Fast 엔드포인트로 소규모 파일럿을 시작해보는 것이 효율적이다. 프롬프트 작성, LoRA 훈련, ComfyUI 워크플로 설계까지 LTX-2.3의 잠재력을 최대한 활용하는 구체적 실험을 지금 바로 시작해보길 바란다.

LTX-2.3 핵심 특징과 아키텍처 변화

재설계된 VAE로 더 선명한 디테일

게이트 어텐션 텍스트 커넥터

네이티브 세로(9:16) 영상 지원

개선된 오디오 품질

LTX-2.3 및 LTX-2 API 가격 체계 상세 분석

LTX-2 공식 API 가격표

LTX Studio 구독 요금제

LTX-2.3의 7가지 엔드포인트와 활용 시나리오

Text-to-Video (텍스트-투-비디오)

Image-to-Video (이미지-투-비디오)

Audio-to-Video (오디오-투-비디오)

Extend (영상 연장)

Retake (영상 편집/리테이크)

Fast 변형 (Text-to-Video Fast / Image-to-Video Fast)

LTX-2 기반 모델 계보와 기술 스펙 비교

LTX-2.3 영상 편집 워크플로 실전 가이드

ComfyUI에서의 LTX-2.3 설정

실전 편집 워크플로 구성

LoRA 파인튜닝과 스타일 커스터마이징

LTX-2.3 활용 용도와 산업별 적용 사례

광고·마케팅

영화·VFX 프리비즈

소셜 미디어·숏폼 콘텐츠

교육·이러닝

게임·인터랙티브 미디어

테크·IT 다른 글