Multi-Agent Harness 활성 개발 단독

Glimi — Multi-agent Harness OSS

프레임워크 없이 직접 만든 멀티 에이전트 런타임(Glimi Core)과, 그 위의 두 앱·평가/관측/비용/HITL 운영 계층까지 1인 설계·구현했습니다.

기간: 2025.01 – 진행 중 · 1년 6개월
본인 역할: AI 에이전트 런타임 Glimi(Apache-2.0)를 단독 설계·개발. LangGraph 등 프레임워크 없이 8계층 하네스를 직접 구현하고, 같은 커널 위에 두 개의 앱과 평가·관측성·비용·사람 개입(HITL) 운영 계층을 올려 '데모'가 아니라 운영 가능한 형태로 만듦. LLM의 수동(요청-응답) 구조를 넘어 입력이 없어도 먼저 움직이는 능동(proactive) 계층 설계.
정량 임팩트: 1인 설계·구현했습니다. 하나의 커널 위에 성격이 다른 두 앱(소셜 심 Community와 작업 팀 Workspace)을 올려 재사용성을 실제로 확인했습니다. 프레임워크(LangGraph·AutoGen)에 의존하지 않고 LLM 호출 하나를 8계층으로 감싼 자체 하네스를 만들었고, 57개 권한제어 도구와 5단 영속 기억, 시간경계 사실 supersession으로 환각·드리프트를 막았습니다. 평가 하네스(golden 14 + LLM-as-judge + 회귀 게이트)는 실측 10/14 통과, judge 평균 8.7, 턴 지연 p50 6.0s를 기록했고 도구 미발화 같은 실제 실패를 검출했습니다. 도구·비용·지연 관측 대시보드, 월예산 가드(초과 시 로컬 강등), Workspace의 사람 개입 승인 게이트(승인·수정·거부)까지 붙였습니다. 세 가지 라이브 데모(glimi.iruyo.com)를 Apache-2.0 라이선스로 운영 중입니다.
버전·릴리즈: 라이브 데모 3종 운영(glimi.iruyo.com 랜딩 / glimi-community / glimi-workspace) · 커널 src/glimi 의존성 0 분리 완료(pip 패키지화 진행) · 모노레포(Core + Community + Workspace)

링크

외부 링크 glimi.iruyo.com

언어

Python
JavaScript
Bash

기술

FastAPI
WebSocket
SQLite
Cytoscape.js
Jinja2
LLM-as-judge
Claude CLI
ollama
Cloudflare Tunnel
pytest
GitHub Actions CI

환경

macOS
Windows
Linux
Cloudflare
Ollama

사람이 자리를 비워도 AI 에이전트들이 서로 대화하고 관계를 이어가는 멀티 에이전트 런타임 Glimi(Apache-2.0)를 프레임워크 없이 직접 설계·구현했습니다. 하나의 커널 위에 성격이 다른 두 앱을 올려 재사용성을 확인했고, 평가·관측·비용·사람 개입까지 운영 가능한 형태로 만들었습니다.

배경·과제

LLM은 요청이 있어야 응답하는 수동 구조이므로, 에이전트를 여러 개 둬도 사람이 입력을 멈추면 같이 멈춥니다. 사람이 없어도 스스로 돌아가는 에이전트 집단을 구현하는 것이 과제였습니다.
특정 모델 벤더에 종속되지 않으면서, 에이전트의 행동·비용·품질을 직접 통제할 수 있어야 실제 운영이 가능하다고 판단했습니다.

수행·기여

프레임워크(LangGraph·AutoGen 등)에 의존하지 않고, LLM 호출 하나를 8계층으로 감싸는 하네스를 직접 만들었습니다. 프롬프트 조립, 권한제어 도구 57종, 5단 영속 기억, 채널 규율, 환각·반복 가드, 에이전트 간 자율 대화(A2A), 자가복구, 능동 관리자까지 포함됩니다.
중심은 능동 관리자 계층입니다. 자체 타이머로 멈춘 에이전트에 자극을 주입해 사람 입력이 없어도 스스로 대화를 시작하게 했습니다.
기억은 5단 영속 구조 위에 시간경계 사실(supersession)을 추가했습니다. 새 사실이 과거와 충돌하면 이전 사실을 닫고 이력만 남겨, 낡은 정보를 유지하지 않도록 했습니다. 환각·드리프트 방지를 목적에 두었습니다.
같은 커널 위에 두 앱을 올렸습니다. AI 친구 커뮤니티(Glimi Community)와 역할 기반 작업 팀(Glimi Workspace, Coordinator가 Researcher·Builder·Critic에 위임)입니다. 두 앱이 같은 엔진·대시보드를 공유해 커널의 재사용 가능성을 검증했습니다.
운영 신뢰성 계층을 추가했습니다. 골든셋·LLM-as-judge·회귀 게이트 기반의 평가 하네스, 도구 호출과 토큰·비용·지연을 관측하는 대시보드, 초과 시 클라우드에서 로컬로 강등하는 월예산 가드, 그리고 Workspace의 사람 개입 게이트(승인·수정·거부)입니다.
디스코드 의존을 없애고 내장 웹 채팅(라이트/다크, 답글, 반응, 스레드, 모바일 지원)으로 옮겼습니다. 로그인 없이 둘러볼 수 있는 공개 데모를 라이브로 운영 중입니다.

성과

평가 하네스를 실제 백엔드로 돌려 14케이스 중 10건 통과(judge 평균 8.7, 턴 지연 p50 6.0s·p95 7.7s)를 기록했습니다. 기본 모델의 도구 미발화 같은 실질 실패를 검출했습니다. 단순 통과율보다 회귀 탐지가 목적입니다.
라이브 데모 3종을 운영하고 있습니다. 공개 랜딩(glimi.iruyo.com), 커뮤니티 데모(glimi-community), 워크스페이스 데모(glimi-workspace)로, 로그인 없이 읽기 전용 둘러보기가 가능합니다.
커널(src/glimi)을 의존성 0으로 분리했고, pip 패키지화를 진행 중입니다. Apache-2.0으로 공개를 준비하고 있습니다.

화면

Glimi Community 대시보드 — 커넥션 그래프·이벤트 피드

에이전트 페르소나 5단 영속 기억

커뮤니티 도전과제(achievements)

에이전트 관계 커넥션 그래프

Workspace 슈퍼바이저 그래프(Coordinator 위임)

AI 엔지니어링 용어 매핑

Glimi의 각 계층은 아래 개념의 구현체입니다.

Reasoning(추론): 프롬프트 조립 계층과 8계층 하네스
Tool use(도구): 57종 권한제어 도구와 호출 타임라인 관측
State(상태·기억): 5단 영속 기억 + 사실 supersession(환각·드리프트 방지)
Evaluation(평가): 골든셋·LLM-as-judge·회귀 게이트(실측 10/14·judge 8.7)
HITL(사람 개입): Workspace 승인·수정·거부 게이트 + 권한제어 도구
Observability·Cost(관측·비용): 도구·토큰·비용·지연 대시보드 + 월예산 가드
Fallback(폴백): 자가복구 + 클라우드/로컬 무중단 교체 + 예산 초과 시 로컬 강등