Glimi — Multi-agent Harness OSS
프레임워크 없이 직접 만든 멀티 에이전트 런타임(Glimi Core)과, 그 위의 두 앱·평가/관측/비용/HITL 운영 계층까지 1인 설계·구현했습니다.
링크
언어
- Python
- JavaScript
- Bash
기술
- FastAPI
- WebSocket
- SQLite
- Cytoscape.js
- Jinja2
- LLM-as-judge
- Claude CLI
- ollama
- Cloudflare Tunnel
- pytest
- GitHub Actions CI
환경
- macOS
- Windows
- Linux
- Cloudflare
- Ollama
사람이 자리를 비워도 AI 에이전트들이 서로 대화하고 관계를 이어가는 멀티 에이전트 런타임 Glimi(Apache-2.0)를 프레임워크 없이 직접 설계·구현했습니다. 하나의 커널 위에 성격이 다른 두 앱을 올려 재사용성을 확인했고, 평가·관측·비용·사람 개입까지 운영 가능한 형태로 만들었습니다.
배경·과제
-
LLM은 요청이 있어야 응답하는 수동 구조이므로, 에이전트를 여러 개 둬도 사람이 입력을 멈추면 같이 멈춥니다. 사람이 없어도 스스로 돌아가는 에이전트 집단을 구현하는 것이 과제였습니다.
-
특정 모델 벤더에 종속되지 않으면서, 에이전트의 행동·비용·품질을 직접 통제할 수 있어야 실제 운영이 가능하다고 판단했습니다.
수행·기여
-
프레임워크(LangGraph·AutoGen 등)에 의존하지 않고, LLM 호출 하나를 8계층으로 감싸는 하네스를 직접 만들었습니다. 프롬프트 조립, 권한제어 도구 57종, 5단 영속 기억, 채널 규율, 환각·반복 가드, 에이전트 간 자율 대화(A2A), 자가복구, 능동 관리자까지 포함됩니다.
-
중심은 능동 관리자 계층입니다. 자체 타이머로 멈춘 에이전트에 자극을 주입해 사람 입력이 없어도 스스로 대화를 시작하게 했습니다.
-
기억은 5단 영속 구조 위에 시간경계 사실(supersession)을 추가했습니다. 새 사실이 과거와 충돌하면 이전 사실을 닫고 이력만 남겨, 낡은 정보를 유지하지 않도록 했습니다. 환각·드리프트 방지를 목적에 두었습니다.
-
같은 커널 위에 두 앱을 올렸습니다. AI 친구 커뮤니티(Glimi Community)와 역할 기반 작업 팀(Glimi Workspace, Coordinator가 Researcher·Builder·Critic에 위임)입니다. 두 앱이 같은 엔진·대시보드를 공유해 커널의 재사용 가능성을 검증했습니다.
-
운영 신뢰성 계층을 추가했습니다. 골든셋·LLM-as-judge·회귀 게이트 기반의 평가 하네스, 도구 호출과 토큰·비용·지연을 관측하는 대시보드, 초과 시 클라우드에서 로컬로 강등하는 월예산 가드, 그리고 Workspace의 사람 개입 게이트(승인·수정·거부)입니다.
-
디스코드 의존을 없애고 내장 웹 채팅(라이트/다크, 답글, 반응, 스레드, 모바일 지원)으로 옮겼습니다. 로그인 없이 둘러볼 수 있는 공개 데모를 라이브로 운영 중입니다.
성과
-
평가 하네스를 실제 백엔드로 돌려 14케이스 중 10건 통과(judge 평균 8.7, 턴 지연 p50 6.0s·p95 7.7s)를 기록했습니다. 기본 모델의 도구 미발화 같은 실질 실패를 검출했습니다. 단순 통과율보다 회귀 탐지가 목적입니다.
-
라이브 데모 3종을 운영하고 있습니다. 공개 랜딩(glimi.iruyo.com), 커뮤니티 데모(glimi-community), 워크스페이스 데모(glimi-workspace)로, 로그인 없이 읽기 전용 둘러보기가 가능합니다.
-
커널(src/glimi)을 의존성 0으로 분리했고, pip 패키지화를 진행 중입니다. Apache-2.0으로 공개를 준비하고 있습니다.
화면





AI 엔지니어링 용어 매핑
Glimi의 각 계층은 아래 개념의 구현체입니다.
-
Reasoning(추론): 프롬프트 조립 계층과 8계층 하네스
-
Tool use(도구): 57종 권한제어 도구와 호출 타임라인 관측
-
State(상태·기억): 5단 영속 기억 + 사실 supersession(환각·드리프트 방지)
-
Evaluation(평가): 골든셋·LLM-as-judge·회귀 게이트(실측 10/14·judge 8.7)
-
HITL(사람 개입): Workspace 승인·수정·거부 게이트 + 권한제어 도구
-
Observability·Cost(관측·비용): 도구·토큰·비용·지연 대시보드 + 월예산 가드
-
Fallback(폴백): 자가복구 + 클라우드/로컬 무중단 교체 + 예산 초과 시 로컬 강등