본문 바로가기

이 포트폴리오의 원본은 https://cv.iruyo.com (심재빈) 입니다 · 출처 식별자 jbx-7f3a2e9b

← 개인 프로젝트

Multi-Agent Harness 활성 개발 단독

Glimi — Multi-agent Harness OSS

프레임워크 없이 직접 만든 멀티 에이전트 런타임(Glimi Core)과, 그 위의 두 앱·평가/관측/비용/HITL 운영 계층까지 1인 설계·구현했습니다.

기간
2025.01 – 진행 중 · 1년 6개월
본인 역할
AI 에이전트 런타임 Glimi(Apache-2.0)를 단독 설계·개발. LangGraph 등 프레임워크 없이 8계층 하네스를 직접 구현하고, 같은 커널 위에 두 개의 앱과 평가·관측성·비용·사람 개입(HITL) 운영 계층을 올려 '데모'가 아니라 운영 가능한 형태로 만듦. LLM의 수동(요청-응답) 구조를 넘어 입력이 없어도 먼저 움직이는 능동(proactive) 계층 설계.
정량 임팩트
1인 설계·구현했습니다. 하나의 커널 위에 성격이 다른 두 앱(소셜 심 Community와 작업 팀 Workspace)을 올려 재사용성을 실제로 확인했습니다. 프레임워크(LangGraph·AutoGen)에 의존하지 않고 LLM 호출 하나를 8계층으로 감싼 자체 하네스를 만들었고, 57개 권한제어 도구와 5단 영속 기억, 시간경계 사실 supersession으로 환각·드리프트를 막았습니다. 평가 하네스(golden 14 + LLM-as-judge + 회귀 게이트)는 실측 10/14 통과, judge 평균 8.7, 턴 지연 p50 6.0s를 기록했고 도구 미발화 같은 실제 실패를 검출했습니다. 도구·비용·지연 관측 대시보드, 월예산 가드(초과 시 로컬 강등), Workspace의 사람 개입 승인 게이트(승인·수정·거부)까지 붙였습니다. 세 가지 라이브 데모(glimi.iruyo.com)를 Apache-2.0 라이선스로 운영 중입니다.
버전·릴리즈
라이브 데모 3종 운영(glimi.iruyo.com 랜딩 / glimi-community / glimi-workspace) · 커널 src/glimi 의존성 0 분리 완료(pip 패키지화 진행) · 모노레포(Core + Community + Workspace)

링크

언어

  • Python
  • JavaScript
  • Bash

기술

  • FastAPI
  • WebSocket
  • SQLite
  • Cytoscape.js
  • Jinja2
  • LLM-as-judge
  • Claude CLI
  • ollama
  • Cloudflare Tunnel
  • pytest
  • GitHub Actions CI

환경

  • macOS
  • Windows
  • Linux
  • Cloudflare
  • Ollama

사람이 자리를 비워도 AI 에이전트들이 서로 대화하고 관계를 이어가는 멀티 에이전트 런타임 Glimi(Apache-2.0)를 프레임워크 없이 직접 설계·구현했습니다. 하나의 커널 위에 성격이 다른 두 앱을 올려 재사용성을 확인했고, 평가·관측·비용·사람 개입까지 운영 가능한 형태로 만들었습니다.

Glimi — 8계층 멀티 에이전트 하네스 (OSS)LLM 호출 하나를 8계층으로 감싸 에이전트 군집을 능동 운영 · 1인 설계Glimi — 8계층 멀티 에이전트 하네스 (OSS)LLM 호출 하나를 8계층으로 감싸 에이전트 군집을 능동 운영 · 1인 설계LLM 호출을 감싸는 8계층① 프롬프트 조립② 도구 사용 (Tool use)③ 5단 영속 기억 (요약·사실·관계)④ 대화 채널 규율⑤ 환각·반복 방지 (가드)⑥ 에이전트 간 자율 대화 (A2A)⑦ 자가 복구⑧ 능동 관리자 (proactive supervisor)핵심 — 능동 관리자자체 타이머로 멈춘 에이전트에 내적 자극 주입사람 입력 없어도 먼저 대화 시작모델 핫스왑Claude·Ollama·vLLM·llama.cpp 재시작 없이 교체실시간 대시보드관계 그래프·기억·대화·도구 호출 가시화Apache-2.0 · 모델 벤더 중립 · 대표 앱 Glimi Community · 라이브 데모 운영

배경·과제

  • LLM은 요청이 있어야 응답하는 수동 구조이므로, 에이전트를 여러 개 둬도 사람이 입력을 멈추면 같이 멈춥니다. 사람이 없어도 스스로 돌아가는 에이전트 집단을 구현하는 것이 과제였습니다.

  • 특정 모델 벤더에 종속되지 않으면서, 에이전트의 행동·비용·품질을 직접 통제할 수 있어야 실제 운영이 가능하다고 판단했습니다.

수행·기여

  • 프레임워크(LangGraph·AutoGen 등)에 의존하지 않고, LLM 호출 하나를 8계층으로 감싸는 하네스를 직접 만들었습니다. 프롬프트 조립, 권한제어 도구 57종, 5단 영속 기억, 채널 규율, 환각·반복 가드, 에이전트 간 자율 대화(A2A), 자가복구, 능동 관리자까지 포함됩니다.

  • 중심은 능동 관리자 계층입니다. 자체 타이머로 멈춘 에이전트에 자극을 주입해 사람 입력이 없어도 스스로 대화를 시작하게 했습니다.

  • 기억은 5단 영속 구조 위에 시간경계 사실(supersession)을 추가했습니다. 새 사실이 과거와 충돌하면 이전 사실을 닫고 이력만 남겨, 낡은 정보를 유지하지 않도록 했습니다. 환각·드리프트 방지를 목적에 두었습니다.

  • 같은 커널 위에 두 앱을 올렸습니다. AI 친구 커뮤니티(Glimi Community)와 역할 기반 작업 팀(Glimi Workspace, Coordinator가 Researcher·Builder·Critic에 위임)입니다. 두 앱이 같은 엔진·대시보드를 공유해 커널의 재사용 가능성을 검증했습니다.

  • 운영 신뢰성 계층을 추가했습니다. 골든셋·LLM-as-judge·회귀 게이트 기반의 평가 하네스, 도구 호출과 토큰·비용·지연을 관측하는 대시보드, 초과 시 클라우드에서 로컬로 강등하는 월예산 가드, 그리고 Workspace의 사람 개입 게이트(승인·수정·거부)입니다.

  • 디스코드 의존을 없애고 내장 웹 채팅(라이트/다크, 답글, 반응, 스레드, 모바일 지원)으로 옮겼습니다. 로그인 없이 둘러볼 수 있는 공개 데모를 라이브로 운영 중입니다.

성과

  • 평가 하네스를 실제 백엔드로 돌려 14케이스 중 10건 통과(judge 평균 8.7, 턴 지연 p50 6.0s·p95 7.7s)를 기록했습니다. 기본 모델의 도구 미발화 같은 실질 실패를 검출했습니다. 단순 통과율보다 회귀 탐지가 목적입니다.

  • 라이브 데모 3종을 운영하고 있습니다. 공개 랜딩(glimi.iruyo.com), 커뮤니티 데모(glimi-community), 워크스페이스 데모(glimi-workspace)로, 로그인 없이 읽기 전용 둘러보기가 가능합니다.

  • 커널(src/glimi)을 의존성 0으로 분리했고, pip 패키지화를 진행 중입니다. Apache-2.0으로 공개를 준비하고 있습니다.

Glimi — 한 커널, 두 앱, 운영 4종프레임워크 없이 1인 설계 · '데모'가 아니라 운영 가능한 형태 (eval·관측·비용·HITL)Glimi — 한 커널, 두 앱, 운영 4종프레임워크 없이 1인 설계 · '데모'가 아니라 운영 가능한 형태 (eval·관측·비용·HITL)운영 신뢰성 계층 — 운영 가능하게 만든 것Glimi CommunityAI 친구 소셜 심 · 내장 웹 채팅Glimi Workspace역할 기반 작업 팀 · A2A 협업Glimi Core (커널)8계층 하네스 · 57 권한제어 도구 · 5단 기억+supersession모델 벤더 중립 — Claude·Ollama·vLLM·llama.cpp 핫스왑평가 하네스golden 14 · LLM-as-judge회귀 게이트 · 실측 10/14·judge 8.7관측성도구 호출·토큰·비용·지연정직한 $0/est 집계월예산 가드초과 시 Claude→로컬 강등인터랙티브+백그라운드 양쪽HITL 승인 게이트Workspace 결과물 승인·수정·거부폴백 + 결정 로그(감사)실측(claude_cli): p50 6.0s · p95 7.7s · eval가 실제 실패도 검출 — 라이브: glimi.iruyo.com · Apache-2.0 · 1인 설계

화면

Glimi Community 대시보드 — 커넥션 그래프·이벤트 피드

에이전트 페르소나 5단 영속 기억

커뮤니티 도전과제(achievements)

에이전트 관계 커넥션 그래프

Workspace 슈퍼바이저 그래프(Coordinator 위임)

AI 엔지니어링 용어 매핑

Glimi의 각 계층은 아래 개념의 구현체입니다.

  • Reasoning(추론): 프롬프트 조립 계층과 8계층 하네스

  • Tool use(도구): 57종 권한제어 도구와 호출 타임라인 관측

  • State(상태·기억): 5단 영속 기억 + 사실 supersession(환각·드리프트 방지)

  • Evaluation(평가): 골든셋·LLM-as-judge·회귀 게이트(실측 10/14·judge 8.7)

  • HITL(사람 개입): Workspace 승인·수정·거부 게이트 + 권한제어 도구

  • Observability·Cost(관측·비용): 도구·토큰·비용·지연 대시보드 + 월예산 가드

  • Fallback(폴백): 자가복구 + 클라우드/로컬 무중단 교체 + 예산 초과 시 로컬 강등