AI가 매번 처음 만난 사람처럼 구는 이유
AI 에이전트를 실제 서비스에 도입해 본 개발자라면 공통적으로 마주치는 벽이 있다. 오늘 나눈 대화가 내일이면 완전히 사라진다는 것이다. 프로젝트 구조, 사용자의 취향, 지난주에 합의한 코딩 컨벤션까지 모두 초기화된다. 대형 언어 모델(LLM)은 구조적으로 무상태(stateless)다. 각 추론 호출은 새로운 컨텍스트 창으로 시작하고, 이전 대화의 흔적은 남지 않는다.
개발자들이 이 문제를 해결하기 위해 RAG(검색 증강 생성) 파이프라인을 구축하지만, 벡터 유사도 검색은 명시적으로 기록된 사실만 찾아낼 뿐이다. "사용자가 구독 서비스를 싫어한다"는 발언은 검색할 수 있어도, 여러 대화에 걸쳐 형성된 패턴이나 암묵적 선호까지 포착하지는 못한다. RAG를 아무리 정교하게 튜닝해도 해결되지 않는 근본적인 한계다.
이 지점에서 등장한 것이 Honcho다. Plastic Labs가 개발한 오픈소스 메모리 라이브러리로, 단순 저장·검색이 아닌 추론(Reasoning) 자체를 메모리의 핵심으로 삼는다. 2025년 5월 540만 달러 규모의 프리시드 투자를 유치하며 공식 출범한 이 서비스는, LongMem·LoCoMo·BEAM 세 가지 주요 메모리 벤치마크에서 동시에 SOTA(최고 성능) 달성이라는 성과로 AI 에이전트 개발자 커뮤니티의 주목을 받고 있다.
| 항목 | 내용 |
|---|---|
| 개발사 | Plastic Labs |
| 라이선스 | AGPL-3.0 (오픈소스) |
| 운용 방식 | 관리형 SaaS + 셀프호스팅 모두 지원 |
| 핵심 기술 | Neuromancer 추론 모델, Dreaming 비동기 추론 |
| 인제스션 요금 | 100만 토큰당 2달러 |
| 가입 크레딧 | 100달러 무료 제공 |
| 벤치마크 | LongMem 90.4%, LoCoMo 89.9%, BEAM 전 항목 1위권 |
| 토큰 절감 | 기존 대비 60-90% 절감 |
| 지원 통합 | Claude Code, Cursor, Windsurf, MCP 서버 |
Honcho의 작동 원리 | 추론이 곧 메모리인 이유
기존 RAG의 한계와 Honcho의 접근법 차이
전통적인 벡터 검색 기반 메모리는 '명시적으로 저장된 것'만 반환한다. 사용자가 "저는 고양이를 좋아해요"라고 말했을 때만 그 사실을 기억하는 방식이다. 하지만 실제 대화에서 드러나는 맥락은 훨씬 복잡하다. 여러 세션에 걸쳐 반복된 행동 패턴, 말하지 않았지만 암시된 목표, 이전 발언과 충돌하는 새 정보 등 잠재적 정보는 단순 유사도 검색으로는 포착되지 않는다.
Honcho는 메시지가 시스템에 기록되는 즉시 Neuromancer라는 전용 추론 모델이 백그라운드에서 그 대화를 형식 논리 기반으로 분석한다. 연역·귀납·귀추적 추론을 통해 Peer(참여 엔티티)에 대한 결론을 도출하고, 이를 Representation(표현)으로 저장한다. 이 과정은 메시지 기록 직후 비동기로 실행되므로 응답 속도에 영향을 주지 않는다.
결론이 도출된 이후에는 get_context() 메서드 한 번으로 에이전트가 다음 응답에 필요한 맥락 전체를 약 200ms 안에 받아볼 수 있다. 이 호출은 횟수 제한 없이 무료다. 더 깊은 분석이 필요할 때는 .chat() 메서드로 자연어 쿼리를 날리면, 추론 수준(minimal부터 max까지 5단계)에 따라 기본 사실 확인부터 수 세션에 걸친 패턴 종합 리포트까지 생성할 수 있다.
** Honcho 팀은 메모리를 '탐정의 추론'에 비유한다. 벡터 검색이 증인 진술을 그대로 보관하는 서류함이라면, Honcho의 추론 엔진은 새로운 증거가 들어올 때마다 기존 결론을 재검토하고 업데이트하는 탐정과 같다. 이 접근 방식이 SOTA 벤치마크 성과의 핵심이다.
4개의 데이터 모델 구조
Honcho의 스토리지 구조는 4개의 계층으로 구성된다. Workspace는 서로 다른 앱이나 환경을 격리하는 최상위 컨테이너다. Peers는 시스템 내 모든 참여자, 즉 사람 사용자, AI 에이전트, NPC, 그룹 등을 단일 모델로 통합한 엔티티다. 기존 메모리 시스템이 '사용자-어시스턴트' 이분법에 묶여 있는 것과 달리, Honcho는 어떤 형태의 엔티티든 Peer로 모델링할 수 있다. Sessions는 시간적 경계가 있는 상호작용 스레드이며, Messages는 추론을 촉발하는 데이터 단위다. 일반 대화 메시지뿐 아니라 이벤트, 활동 로그, 문서도 Messages로 처리된다.
| 데이터 계층 | 역할 | 특징 |
|---|---|---|
| Workspace | 앱·환경 격리 | 서로 다른 서비스 간 완전 분리 |
| Peers | 엔티티 모델링 | 사용자, AI, NPC, 그룹 모두 통합 |
| Sessions | 대화 스레드 | 시간 경계 설정, 멀티 Peer 참여 가능 |
| Messages | 추론 트리거 | 대화, 이벤트, 문서 등 모든 데이터 |
Honcho 3.0의 핵심 기능 | 드리밍과 5단계 추론 레벨
Honcho 3.0의 아키텍처 혁신
2026년 1월 출시된 Honcho 3.0은 단순한 버전 업그레이드가 아니라 내부 아키텍처의 전면 재설계였다. 가장 큰 변화는 기존의 고정 경로(fixed-path) 검색이 에이전트 루프 기반의 Dialectic Agent로 대체된 것이다. 정적인 코드 경로로 메모리를 검색하는 방식에서 벗어나, 쿼리가 들어오면 에이전트가 모든 검색 메서드를 도구(tool)로 활용하여 최적의 답변을 자율적으로 조합하는 방식으로 전환됐다. 이것이 SOTA 벤치마크 성과 달성에 가장 결정적인 변화로 평가된다.
추론 레벨 5단계 체계
.chat() 메서드는 이제 5단계의 추론 깊이를 지원한다. minimal 수준은 "사용자 이름이 뭔가요?", "어느 도시에 사나요?" 같은 단순 사실 확인에 쓰이며 쿼리당 0.001달러다. low와 medium은 여러 세션에 걸친 기억 연결이 필요한 질문에 적합하다. high와 max는 실시간 평가 벤치마크가 측정할 수 없는 깊이의 추론을 제공한다. 예를 들어 특정 사용자의 학습 패턴을 분석한 케이스 스터디 리포트를 생성하거나, 수개월치 대화를 종합한 성향 프로파일을 작성하는 것이 가능하다.
** 실제 프로덕션 환경에서는 쿼리 복잡도에 따라 추론 레벨을 동적으로 라우팅하면 비용과 정확도를 동시에 최적화할 수 있다. 가입자 이름 조회는 minimal, 선호도 기반 추천은 medium, 장기 코칭 리포트는 high로 분리하는 방식이 대표적이다.
드리밍(Dreaming): 잠자는 동안에도 진화하는 메모리
Dreaming은 Honcho가 런타임 외 시간에 Peer에 대한 이해를 스스로 심화하는 비동기 백그라운드 추론 기능이다. 드리밍 에이전트는 특정 Peer의 모든 축적 데이터를 순회하며 패턴을 식별하고, 가설을 세우고, 새 데이터와 대조하여 결론의 신뢰도를 업데이트한다. 인간이 수면 중 기억을 공고화하는 메커니즘에서 영감을 받은 명칭이다. 현재 표준 드리밍은 모든 워크스페이스에 무료로 포함된다.
** 드리밍은 간헐적으로 실행되기 때문에, 아직 드리밍이 처리되지 않은 Peer의 summary나 peer card는 존재하지 않을 수 있다. 따라서 에이전트 컨텍스트 구성 시 summary에만 의존하지 말고, 최근 메시지·Peer representation·.chat() 쿼리 결과를 종합하는 방식을 권장한다.
토큰 효율과 벤치마크 성과
기존 메모리 솔루션이 "혹시 모르니 다 넣자"는 방식으로 수십만 토큰을 컨텍스트 창에 밀어넣는다면, Honcho는 추론을 통해 정말 필요한 정보만 추출하여 전달한다. 실제로 60-90%의 토큰 절감 효과가 보고되고 있으며, LongMem S 벤치마크에서 90.4%(Gemini 3 Pro 사용 시 92.6%), LoCoMo에서 89.9%의 정확도를 기록했다. 가격 측면에서도 Honcho 3.0 출시와 함께 이전 대비 최대 5배 인하가 이루어졌다.
| 비교 항목 | 기존 RAG 방식 | Honcho 추론 방식 |
|---|---|---|
| 메모리 저장 | 명시적 사실 벡터 저장 | 추론 결론 + 원문 동시 저장 |
| 검색 방식 | 유사도 기반 벡터 검색 | 에이전트 루프 기반 동적 검색 |
| 모순 처리 | 최신 정보 덮어쓰기 또는 혼재 | 논리적 결론 업데이트 |
| 패턴 인식 | 불가 (명시 언급 필요) | 다중 세션 패턴 자동 도출 |
| 컨텍스트 창 | 100K+ 토큰 소비 | 10K 내외로 최적화 |
| 지연시간 | 검색에 수백ms 이상 | get_context() 약 200ms |
활용 시나리오 | 어떤 서비스에 적합한가
AI 컴패니언 및 장기 관계 에이전트
Honcho가 가장 강점을 발휘하는 영역은 지속적인 관계를 전제로 하는 에이전트다. 코칭 앱, AI 친구, 멘탈 헬스 앱처럼 사용자가 반복해서 돌아오며 관계가 축적되는 서비스는 기억 공백이 치명적이다. 매 세션마다 "처음 만나는 사람 모드"로 리셋되는 현상, 즉 에이전트 '치매(dementia)'는 사용자 이탈의 핵심 원인이 된다. Honcho는 감정적 흐름, 공유된 역사, 암묵적 의미, 선호도 변화까지 누적하여 관계가 시간이 지날수록 깊어지는 경험을 만든다.
코딩 에이전트와 개발 도구
Claude Code, Cursor, Windsurf 같은 코딩 에이전트에 Honcho를 연결하면 팀의 코딩 컨벤션, 아키텍처 철학, 특정 엔지니어의 작업 패턴을 지속적으로 학습한다. 새 프로젝트를 시작할 때마다 "첫날"처럼 맥락을 다시 설명해야 하는 비효율이 사라진다. 특히 Cursor 사용자를 위한 cursor-honcho 플러그인과 Claude Code 스킬이 공식 지원된다.
** Honcho를 코딩 에이전트에 연결할 때는 npx 기반의 MCP 서버 설치 방식이 가장 간단하다. 코드 리뷰 패턴이나 PR 코멘트 스타일처럼 반복되는 상호작용이 많은 팀일수록 효과가 배가된다.
게임 NPC와 교육 플랫폼
게임 분야에서는 NPC가 플레이어와의 관계를 누적하여 서사를 형성하는 적응형 스토리텔링에 활용된다. 상호작용당 0.5달러에 달하는 고비용 없이도 풍부한 기억 기반 NPC를 구현할 수 있다. 교육 플랫폼에서는 학습자가 어디서 막혔는지, 어떤 오개념을 반복하는지를 세션 간에 추적하여 점차 개인화되는 교육 경험을 제공한다. 표준 e-러닝 플랫폼이 학습자를 매번 처음 만난 수강생으로 대하는 것과 근본적으로 다른 접근이다.
고객 지원과 생산성 도구
고객 지원 에이전트에서는 고객 이력이 세션·채널·담당 에이전트 교체에 관계없이 유지된다. "처음부터 다시 설명해 주세요"라는 가장 큰 고객 불만이 구조적으로 해결된다. 생산성 도구에서는 협업 맥락과 진행 중인 태스크 상태가 도구 전환 시에도 유지되어 불필요한 온보딩 반복을 없앤다.
셀프호스팅 vs 관리형 서비스 | 선택 기준
관리형 SaaS: app.honcho.dev
가장 빠르게 시작하는 방법은 app.honcho.dev에 계정을 만드는 것이다. 가입 즉시 100달러 상당의 무료 크레딧이 지급되며, Python SDK(pip install honcho-ai)나 Node.js SDK(npm install @honcho-ai/sdk)를 설치하고 API 키를 설정하면 몇 분 안에 첫 메모리 인제스션을 테스트할 수 있다. 관리형 서비스는 Plastic Labs가 자체 운용하는 Neuromancer 모델을 사용하므로 별도의 LLM API 키 없이 Honcho 요금만 지불하면 된다. 또한 스타트업(누적 투자 500만 달러 이하)은 별도 프로그램을 통해 1,000달러 크레딧과 12개월 지원을 받을 수 있다.
셀프호스팅: 데이터 주권과 비용 제어
셀프호스팅은 민감한 사용자 데이터를 외부로 내보내고 싶지 않은 기업이나, 비용 구조를 직접 제어하고 싶은 개발자에게 적합하다. GitHub에서 소스를 클론한 뒤 Docker Compose로 구동하는 것이 권장 방식이며, API 서버·Deriver 워커·PostgreSQL(pgvector)·Redis 4개 서비스가 단일 명령으로 일괄 실행된다. pgvector 확장이 활성화된 PostgreSQL이 반드시 필요하며, Supabase나 Railway 같은 관리형 DB 서비스도 사용 가능하다.
** 셀프호스팅 시 Honcho 플랫폼 요금은 없지만, Deriver·Summary·Dream·Dialectic 등 각 역할에 대해 LLM API를 별도로 구성해야 한다. 처음 접하는 경우 환경 변수 파일에서 역할별로 10개 가까운 모델 설정을 완료해야 서버가 정상 구동되므로, 시작 전 공식 문서의 LLM Setup 섹션을 꼼꼼히 확인하는 것이 중요하다.
| 비교 항목 | 관리형 SaaS | 셀프호스팅 |
|---|---|---|
| 초기 설정 | API 키 발급만으로 완료 | Docker + DB + LLM 구성 필요 |
| LLM 비용 | Honcho 요금에 포함 | 별도 API 비용 직접 부담 |
| 데이터 위치 | Plastic Labs 클라우드 | 자체 인프라 |
| Neuromancer 모델 | 최신 최적화 버전 사용 | 직접 선택한 모델 사용 |
| 유지보수 | 자동 업데이트 | 직접 관리 |
| 무료 크레딧 | 100달러 가입 즉시 제공 | 없음 (LLM 비용만 발생) |
| 적합 대상 | 빠른 MVP, 중소규모 | 대용량, 데이터 규제 준수 필요 기업 |
Honcho를 선택할 때 알아야 할 현실적 고려사항
Honcho는 기술적 성숙도와 커뮤니티 측면에서 빠르게 성장하고 있지만, 실제 도입 전 검토해야 할 지점들이 있다.
추론 기반 접근은 단순 벡터 검색보다 처리 비용이 더 많이 든다. 인제스션 시점에 Neuromancer가 바로 추론을 실행하기 때문에, 메시지 수가 많을수록 토큰 비용이 누적된다. 다만 get_context() 호출 비용이 없고 컨텍스트 창 절감 효과가 크기 때문에 순수 비용 비교를 단일 지표로 판단하기는 어렵다. 프리 티어 100달러 크레딧으로 실제 워크로드를 검증한 뒤 단위 경제성을 계산해 보는 것이 가장 정확하다.
셀프호스팅 설정의 복잡도도 현실적인 고려 대상이다. AI 커뮤니티의 실제 사용 후기를 보면, 처음 셀프호스팅을 시도할 때 역할별 모델 설정이 10개에 달하는 것에 당황한다는 반응이 많다. 이는 Honcho가 각 기능마다 최적화된 모델을 별도로 배치한다는 설계 철학의 결과이지만, 진입 장벽으로 작용할 수 있다. 이 경우 관리형 서비스로 개념 검증을 완료한 뒤 필요에 따라 셀프호스팅으로 전환하는 경로가 현실적이다.
라이선스 측면에서 Honcho는 AGPL-3.0을 채택하고 있다. 소스 코드를 수정해서 서비스에 활용할 경우 수정 코드를 공개해야 하는 의무가 발생할 수 있으므로, 상업적 활용 시 라이선스 조건을 사전에 검토하는 것이 권장된다. 완전히 폐쇄적인 내부 활용에는 별도의 엔터프라이즈 계약이 필요할 수 있다.
** Honcho는 활발히 개발 중인 프로젝트로, Honcho 3.0 출시 시 API와 SDK에 다수의 브레이킹 체인지가 있었다. 프로덕션 환경에서는 버전을 고정하고 변경 로그(changelog)를 정기적으로 확인하는 것이 안전하다.
AI 에이전트의 기억, 이제는 전략적 자산이다
Honcho가 제시하는 관점은 단순히 "AI가 더 잘 기억하게 만들자"는 것이 아니다. 에이전트가 사용자와 상호작용하며 축적한 이해는 시간이 지날수록 깊어지는 데이터 해자(data moat)가 된다. 경쟁 서비스가 같은 LLM을 쓰더라도, 수개월치 사용자 맥락을 추론하여 형성한 Peer representation은 쉽게 복제되지 않는다.
AI 에이전트 시장이 성숙해질수록 모델 성능의 차이는 좁혀지고, 사용자가 얼마나 잘 '알려져 있는가'의 차이가 서비스 경쟁력을 결정하는 시대가 된다. 카운슬러가 상담 기록 없이 환자를 매번 처음 만나는 것처럼 대한다면 신뢰를 얻을 수 없듯, AI 에이전트도 마찬가지다.
오픈소스 기반인 Honcho는 100달러 무료 크레딧으로 즉시 검증을 시작할 수 있으며, 기술적 부담 없이 관리형 서비스로 MVP를 구축한 뒤 데이터 규제 요건이나 비용 구조에 따라 셀프호스팅으로 전환하는 유연한 경로가 열려 있다. 에이전트에 '기억'이 필요한 순간, Honcho는 검토할 가치가 있는 유력한 선택지다.