AI 이미지 생성 도구를 사용하면서 원하는 결과물이 나오지 않아 수십 번 프롬프트를 수정한 경험이 있다면, 그 좌절감을 충분히 이해할 수 있다. 키워드를 나열해도, 문장을 바꿔도, 머릿속에 그린 이미지와 실제 결과물 사이의 간극은 좀처럼 좁혀지지 않는다.
이 문제의 핵심은 모델이 프롬프트를 "이해"하는 방식에 있다. Google의 Nano Banana 모델은 Gemini 3 패밀리 위에 구축된 이미지 생성 및 편집 모델로, 딥 러닝 기반의 추론 능력을 활용해 프롬프트의 의도를 먼저 파악한 뒤 이미지를 생성한다. 2026년 2월 출시된 Nano Banana 2는 Pro 수준의 품질을 Flash 속도로 제공하며, 실시간 웹 검색 기반의 정보 반영까지 지원한다.
Google Cloud 팀이 수 주간에 걸쳐 Nano Banana 2와 Nano Banana Pro를 다양한 유스케이스에서 테스트하고 정리한 공식 프롬프팅 가이드를 기반으로, 이 글에서는 모델의 기술 사양부터 5가지 프롬프팅 프레임워크, 크리에이티브 디렉터처럼 프롬프트를 작성하는 고급 기법까지 실전에서 바로 적용 가능한 핵심 전략을 제공한다.
Nano Banana 모델 개요와 핵심 특징
Nano Banana 모델은 실세계 지식과 딥 러닝 추론 능력을 결합해 정교하고 풍부한 시각적 결과물을 전달하는 고급 이미지 생성 및 편집 모델이다. 현재 두 가지 핵심 모델이 존재하며, 각각의 포지셔닝이 명확하게 다르다.
Nano Banana Pro는 Gemini 3 Pro 아키텍처 기반으로 최고 수준의 시각적 품질과 정밀한 추론 능력을 제공한다. 복잡한 장면 구성, 정밀한 팩트 기반 이미지 생성 등 고충실도 작업에 최적화되어 있으며, 이미지 한 장 생성에 약 10 - 20초가 소요된다.
Nano Banana 2는 Gemini 3.1 Flash Image 아키텍처 기반으로, Pro 수준의 품질을 약 4 - 6초 내에 달성한다. 2026년 2월 26일 출시와 동시에 Gemini 앱, Google 검색, AI Studio, Vertex AI, Google Ads, Flow 등 Google 전 제품군에 배포되었다. Nano Banana 2의 3가지 핵심 강점은 다음과 같다.
첫째, 정확한 시각적 표현이다. 실시간 웹 검색 정보와 이미지를 기반으로 특정 주제를 더 정확하게 렌더링한다. 교육 도구, 지역 맞춤 마케팅, 여행 앱 등에서 즉각적인 활용이 가능하다.
둘째, 빠른 속도의 프로급 기능이다. 텍스트 렌더링, 번역, 2K/4K 업스케일링 등 프리미엄 기능을 Flash 속도로 사용할 수 있어, 크리에이티브 팀이 스토리보드, 제품 목업, 내러티브 구축을 빠르게 진행할 수 있다.
셋째, 정밀한 제어다. 16:9, 9:16, 2:1 등 다양한 종횡비를 네이티브 지원하며, 생생한 조명과 풍부한 텍스처로 포스터, 마케팅 목업, 광고 등 모든 프로젝트 요구사항에 맞출 수 있다.
Nano Banana 2는 Gemini 앱에서 Nano Banana Pro를 대체하는 기본 모델로 설정되었지만, Google AI Pro 및 Ultra 구독자는 이미지 재생성 메뉴(점 3개 메뉴)를 통해 여전히 Nano Banana Pro에 접근할 수 있다. 복잡한 장면이나 최대 수준의 팩트 정확도가 필요한 경우 Pro를 선택하는 것이 유리하다.
Nano Banana 2와 Nano Banana Pro 기술 사양 비교
두 모델의 API 및 Vertex AI 기반 기술 사양을 정확히 이해하면 프로젝트에 맞는 모델을 선택하는 데 큰 도움이 된다.
| 비교 항목 | Nano Banana 2 (Gemini 3.1 Flash Image) | Nano Banana Pro (Gemini 3 Pro Image) |
|---|---|---|
| 컨텍스트 윈도우 (입력) | 최대 131,072 토큰 | 최대 65,536 토큰 |
| 컨텍스트 윈도우 (출력) | 최대 32,768 토큰 | 최대 32,768 토큰 |
| 지원 해상도 | 0.5K(512px), 1K, 2K, 4K | 1K, 2K, 4K |
| 기본 종횡비 | 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9 | 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9 |
| 추가 종횡비 | 1:4, 4:1, 1:8, 8:1 | 없음 |
| 이미지 입력 | 최대 14개 레퍼런스 이미지 | 최대 14개 레퍼런스 이미지 |
| 이미지 생성 속도 | 약 4 - 6초 | 약 10 - 20초 |
| API 가격 (1K-2K) | 약 0.04 - 0.09달러/이미지 | 약 0.09 - 0.134달러/이미지 |
| API 가격 (4K) | 약 0.08 - 0.12달러/이미지 | 약 0.12 - 0.24달러/이미지 |
두 모델 모두 지원하는 이미지 입력 포맷은 PNG, JPEG, WebP, HEIC, HEIF이며, 문서 입력은 텍스트 및 PDF 파일을 지원한다. API 및 Cloud Storage를 통한 파일 업로드는 최대 50MB, Google Cloud 콘솔 직접 업로드는 최대 7MB까지 가능하다. 모델 지식 기반의 컷오프 날짜는 2025년 1월이지만, 실시간 웹 검색 기능을 통해 최신 정보를 반영할 수 있다.
신뢰성과 안전 측면에서 두 모델 모두 생성된 이미지에 C2PA Content Credentials와 SynthID 워터마크를 포함한다. SynthID는 이미지에 "붙이는" 전통적 워터마크가 아니라 생성 과정에서 이미지 자체에 내재되는 비가시적 워터마크로, 통계적 분석을 통해 감지할 수 있다. 2025년 11월 출시 이후 Gemini 앱 내 SynthID 검증 기능은 2천만 회 이상 사용되었다.
API 가격은 제공업체와 해상도에 따라 크게 달라진다. 공식 Google Vertex AI 가격 외에 OpenRouter, Fal.ai 등 서드파티 제공업체를 통하면 최대 40% 이상 절약할 수 있으므로, 대량 이미지 생성 프로젝트에서는 비용 최적화 전략을 반드시 수립해야 한다.
효과적인 프롬프팅을 위한 4가지 핵심 원칙
원하는 시각적 결과물을 정확하게 얻기 위한 프롬프팅에는 몇 가지 기본 원칙이 존재한다. Google Cloud 팀의 테스트 결과, 이 원칙을 따르는 프롬프트는 그렇지 않은 프롬프트 대비 평균 2 - 3배 높은 만족도를 기록했다.
원칙 1: 구체적으로 작성하라. 피사체, 조명, 구도에 대한 구체적인 디테일을 제공해야 한다. "예쁜 꽃"이 아니라 "이슬이 맺힌 붉은 장미 클로즈업, 부드러운 역광, 얕은 피사계 심도"처럼 장면을 서술적으로 묘사하는 것이 핵심이다. 단순한 키워드 나열은 Nano Banana의 추론 능력을 충분히 활용하지 못한다.
원칙 2: 긍정적 프레이밍을 사용하라. 원하지 않는 것이 아니라 원하는 것을 설명해야 한다. "자동차가 없는 거리" 대신 "텅 빈 거리"로 프롬프트를 작성하면 모델이 훨씬 정확하게 의도를 파악한다. 부정문은 모델이 해석하기 어려운 구조이므로, 항상 긍정문으로 재구성하는 습관을 들여야 한다.
원칙 3: 카메라를 제어하라. "로우 앵글", "에어리얼 뷰", "매크로 렌즈", "f/1.8의 얕은 피사계 심도" 등 사진 및 영화 촬영 용어를 적극 활용해야 한다. Nano Banana 모델은 이러한 기술적 용어에 매우 민감하게 반응하며, 구체적인 카메라 하드웨어 명칭(GoPro, Fujifilm, 일회용 카메라 등)까지 인식한다.
원칙 4: 반복적으로 다듬어라. 대화형 방식으로 후속 프롬프트를 제공해 이미지를 점진적으로 개선할 수 있다. 한 번의 프롬프트로 결과를 얻으려 하지 말고, 2 - 3회의 반복 수정을 통해 최적의 결과를 도출하는 것이 효율적이다.
프롬프트의 첫 단어를 강한 동사로 시작하면 모델이 수행할 핵심 작업을 즉시 파악한다. "Generate", "Create", "Transform", "Remove", "Edit" 등의 동사로 시작하는 것이 좋다. 예를 들어 "A beautiful sunset..."보다 "Create a cinematic wide shot of a golden sunset..."가 훨씬 정확한 결과를 만들어낸다.
5가지 프롬프팅 프레임워크 실전 적용법
Google Cloud 팀이 정리한 5가지 프롬프팅 프레임워크는 각각 고유한 사용 시나리오에 최적화되어 있다. 각 프레임워크의 공식과 실전 예시를 함께 제시한다.
프레임워크 1: 이미지 생성 (Image Generation)
이미지 생성은 레퍼런스 이미지 사용 여부에 따라 프롬프트 구조가 완전히 달라진다.
텍스트-투-이미지 생성(레퍼런스 없음)의 공식은 다음과 같다.
[주제(Subject)] + [행동(Action)] + [장소/맥락(Location/Context)] + [구도(Composition)] + [스타일(Style)]
실전 프롬프트 예시: "A striking fashion model wearing a tailored brown dress, sleek boots, and holding a structured handbag. Posing with a confident, statuesque stance, slightly turned. A seamless, deep cherry red studio backdrop. Medium-full shot, center-framed. Fashion magazine style editorial, shot on medium-format analog film, pronounced grain, high saturation, cinematic lighting effect."
이 예시에서 주제(패션 모델), 행동(자신감 있는 포즈), 장소(체리 레드 스튜디오), 구도(미디엄 풀샷, 중앙 프레이밍), 스타일(패션 매거진 에디토리얼, 중형 아날로그 필름)이 각각 명확하게 정의되어 있다.
멀티모달 생성(레퍼런스 이미지 포함)의 공식은 다음과 같다.
[레퍼런스 이미지들] + [관계 지시(Relationship Instruction)] + [새로운 시나리오]
Gemini는 최대 14개의 레퍼런스 이미지를 결합해 최종 결과물을 안내할 수 있다. 캐릭터 일관성을 유지하거나, 특정 제품을 새로운 환경에 합성하는 데 적합하다. 실전 예시: "Using the attached napkin sketch as the structure and the attached fabric sample as the texture, transform this into a high-fidelity 3D armchair render. Place it in a sun-drenched, minimalist living room."
Nano Banana 2는 최대 5개 캐릭터의 얼굴 유사성과 최대 14개 오브젝트의 충실도를 단일 워크플로우 내에서 유지할 수 있다. 스토리보드나 내러티브 구축 시 입력 이미지의 외관을 변경하지 않고도 일관된 캐릭터를 생성할 수 있는 것이 Nano Banana 2의 핵심 강점이다.
프레임워크 2: 이미지 편집 (Image Editing)
편집은 생성과 근본적으로 다른 마인드셋이 필요하다. 이미 베이스 이미지가 있으므로, 프롬프트는 무엇이 변하고 무엇이 동일하게 유지되는지에 초점을 맞춰야 한다.
대화형 편집(새 레퍼런스 없음)에서 가장 강력한 기능은 시맨틱 마스킹(인페인팅)이다. 수동으로 마스크를 그릴 필요 없이 텍스트로 편집 영역을 정의할 수 있다. "Remove the man from the photo"처럼 간단한 자연어 지시만으로 이미지의 특정 부분만 편집하고 나머지는 그대로 유지한다. 이때 반드시 유지해야 할 부분을 명시적으로 언급하면 더 정확한 결과를 얻을 수 있다.
구도 및 스타일 트랜스퍼(새 레퍼런스 포함)에서는 새로운 이미지를 프롬프트에 함께 업로드해 기존 이미지를 변형한다. 베이스 이미지와 오브젝트 이미지를 업로드한 뒤 결합을 지시하면 요소 추가가 가능하고, 사진을 업로드한 뒤 "Van Gogh 스타일로 재현해 달라"고 요청하면 스타일 트랜스퍼가 실행된다.
편집 프롬프트에서 가장 흔한 실수는 유지해야 할 부분을 명시하지 않는 것이다. "배경을 바꿔 달라"보다 "인물의 포즈, 의상, 표정은 정확히 동일하게 유지하면서 배경만 해변으로 변경해 달라"가 훨씬 안정적인 결과를 만든다.
프레임워크 3: 실시간 웹 검색 기반 생성
Nano Banana 모델은 웹을 능동적으로 검색해 실시간 정보를 기반으로 이미지를 생성할 수 있다. 이 기능은 가상의 장면을 묘사하는 대신, 모델에게 실제 데이터를 조회하고 시각화 방법을 지정하는 방식으로 작동한다.
공식: [출처/검색 요청] + [분석 작업] + [시각적 번역]
실전 예시: "Search for current weather and date in San Francisco. Analytically, use this data to modify the scene (if raining, make it look grey and rainy). Visualize this in a miniature city-in-a-cup concept embedded within a realistic, modern smartphone UI."
이 프레임워크는 뉴스 기반 인포그래픽, 날씨 앱 UI 목업, 실시간 데이터 시각화 등에서 특히 강력하다. 다만 이 기능은 Vertex AI에서는 아직 프리뷰 단계이며, 완전한 기능은 순차적으로 제공될 예정이다.
프레임워크 4: 텍스트 렌더링 및 다국어 현지화
Nano Banana 2와 Pro는 포스터, 다이어그램, 제품 목업에서 선명하고 읽기 쉬운 텍스트를 렌더링하는 데 탁월한 성능을 보인다. 10개 이상의 언어에서 최첨단 다국어 텍스트 생성을 지원하며, 스페인어, 프랑스어, 일본어, 중국어, 한국어, 아랍어 등 복잡한 문자 체계도 높은 정확도로 처리한다.
최적의 타이포그래피 결과를 위한 4가지 규칙이 있다. 첫째, 원하는 텍스트를 반드시 따옴표로 감싸야 한다(예: "Happy Birthday", "URBAN EXPLORER"). 둘째, 폰트 스타일이나 이름을 명시해야 한다(예: "bold, white, sans-serif font" 또는 "Century Gothic 12px font"). 셋째, 하나의 언어로 프롬프트를 작성하고 텍스트 출력의 대상 언어를 별도로 지정하면 번역과 현지화가 동시에 이루어진다. 넷째, "텍스트 우선" 전략으로, 먼저 대화형으로 텍스트 콘셉트를 생성한 뒤 해당 텍스트가 포함된 이미지를 요청하면 정확도가 크게 향상된다.
프레임워크 5: 크리에이티브 디렉터처럼 프롬프팅하기
단순한 키워드 입력에서 벗어나 장면을 "연출"하는 수준으로 프롬프팅을 끌어올리는 고급 기법이다. Nano Banana 모델은 스튜디오급 제어 능력을 갖추고 있으며, 4가지 핵심 축을 통해 결과물의 수준을 극적으로 향상시킬 수 있다.
| 제어 축 | 핵심 키워드 예시 | 효과 |
|---|---|---|
| 조명 설계 | "three-point softbox setup", "Chiaroscuro lighting", "Golden hour backlighting" | 장면의 분위기와 입체감 결정 |
| 카메라/렌즈/포커스 | "GoPro", "Fujifilm", "disposable camera", "macro lens", "f/1.8" | 왜곡, 색감, 피사계 심도 제어 |
| 컬러 그레이딩/필름 스톡 | "1980s color film, slightly grainy", "Cinematic color grading with muted teal tones" | 감정적 톤과 시대적 느낌 설정 |
| 질감과 물성 | "navy blue tweed", "ornate elven plate armor, etched with silver leaf patterns" | 오브젝트의 물리적 실재감 강화 |
조명 설계에서는 "three-point softbox setup"으로 제품을 균일하게 조명하거나, "Chiaroscuro lighting with harsh, high contrast"로 극적인 명암 효과를, "Golden hour backlighting creating long shadows"로 따뜻한 역광 효과를 연출할 수 있다.
카메라와 렌즈 선택에서는 구체적인 하드웨어 명칭이 이미지의 시각적 DNA를 바꾼다. GoPro를 지정하면 몰입감 있는 왜곡된 액션 느낌이, Fujifilm을 지정하면 고유한 색감 과학이, 일회용 카메라를 지정하면 날것의 향수 어린 플래시 미학이 반영된다. 또한 "low-angle shot with a shallow depth of field (f/1.8)"로 원근감을 강제하거나, "wide-angle lens"로 거대한 스케일을, "macro lens"로 섬세한 디테일을 표현할 수 있다.
컬러 그레이딩과 필름 스톡 정의에서는 "as if on 1980s color film, slightly grainy"로 향수적이고 거친 분위기를, "Cinematic color grading with muted teal tones"로 현대적이고 무디한 미학을 구현한다. 최종 이미지의 텍스처와 색감이 감정적 톤을 결정한다는 점을 기억해야 한다.
질감과 물성 강조에서는 오브젝트의 물리적 구성을 정의하는 것이 핵심이다. 단순히 "수트 재킷" 대신 "네이비 블루 트위드 수트 재킷"으로, "갑옷" 대신 "은빛 잎 패턴이 새겨진 정교한 엘프 플레이트 갑옷"으로, "커피 머그" 대신 "미니멀리스트 세라믹 커피 머그"로 구체화하면 시각적 실재감이 크게 향상된다.
크리에이티브 디렉터 프레임워크의 4가지 축을 한 번에 모두 적용하면 프롬프트가 지나치게 복잡해져 모델이 핵심 의도를 놓칠 수 있다. 한 번에 1 - 2개 축에 집중하고, 반복 수정을 통해 나머지 요소를 추가하는 것이 더 안정적인 결과를 만든다.
다른 크리에이티브 모델과의 통합 워크플로우
Nano Banana Pro와 Nano Banana 2는 Google의 다른 생성형 AI 모델과 자연스럽게 연동되도록 설계되어 있다. 이 통합 워크플로우를 활용하면 이미지 생성을 넘어 비디오, 사운드까지 아우르는 크리에이티브 프로덕션 파이프라인을 구축할 수 있다.
Nano Banana + Gemini 조합에서는 Gemini 3를 크리에이티브 디렉터처럼 활용한다. 프롬프트 아이디어를 Gemini와 대화로 발전시킨 뒤, 다듬어진 프롬프트를 Nano Banana에 입력해 이미지를 생성하는 2단계 워크플로우가 효과적이다. 특히 텍스트 렌더링 작업에서 Gemini가 먼저 텍스트 콘셉트를 생성하고, 이를 Nano Banana가 이미지로 변환하는 "텍스트 우선" 전략이 정확도를 크게 높인다.
Nano Banana + Veo 조합에서는 Nano Banana로 키프레임을 생성하고, Veo 3.1이 키프레임 사이의 영상을 생성한다. 일관된 캐릭터와 스타일을 유지하면서 애니메이션을 제작할 수 있으며, 실제로 Reddit과 YouTube의 크리에이터 커뮤니티에서 이 워크플로우를 활용한 단편 영상 제작이 활발하게 이루어지고 있다.
Nano Banana + Veo + Lyria 조합은 전체 멀티미디어 프로덕션 파이프라인이다. Nano Banana로 비주얼을 생성하고, Veo로 영상화한 뒤, Lyria로 맞춤형 AI 사운드트랙을 추가한다. 2026년 2월에는 Lyria 3가 Nano Banana 모델과 통합되어 크리에이티브 아웃풋을 더욱 강화했다는 소식도 전해졌다.
Google의 Flow 플랫폼은 이러한 통합 워크플로우의 허브 역할을 한다. 2026년 2월 업데이트로 Whisk과 ImageFX 프로젝트가 Flow에 통합되었으며, Nano Banana 2가 기본 이미지 생성 모델로 설정되어 모든 Flow 사용자에게 제로 크레딧으로 제공된다.
이처럼 Nano Banana 프롬프팅은 단순한 이미지 생성 기술이 아니라, AI 기반 크리에이티브 프로덕션의 전체 워크플로우를 관통하는 핵심 스킬이다. 5가지 프레임워크의 공식을 내재화하고 크리에이티브 디렉터의 관점에서 장면을 연출하는 습관을 기르면, 머릿속의 이미지와 실제 결과물 사이의 간극을 획기적으로 줄일 수 있다.
가장 효과적인 시작점은 가장 많이 사용하는 유스케이스 하나를 선택해 해당 프레임워크의 공식을 10회 이상 반복 적용하는 것이다. 제품 사진이라면 크리에이티브 디렉터 프레임워크에서 조명 설계와 질감 강조에 집중하고, 마케팅 자료라면 텍스트 렌더링 프레임워크의 4가지 규칙부터 마스터하면 된다. 지금 바로 Google AI Studio나 Gemini 앱에서 첫 프롬프트를 작성해 보자.