사내 인프라 운영 중 단독

TextRAG — 사내 RAG 시스템

사내 자료를 외부 LLM에 못 보내는 제약과 좁은 RAM(3모델 동시 상주 불가)을, 인덱싱·서빙 장비 분리와 메모리 예산 설계로 푼 로컬 RAG — 혼자 만들어 운영 중, recall@5 87%

기간: 2026.04 – 진행 중 · 3개월
소속: 스틸리언
수행 인원: 본인 1인 단독
본인 역할: 민감한 사내 자료를 외부로 보내지 않는 보안 환경에서 로컬 RAG를 혼자 구축했습니다. 아키텍처 설계, MCP 검색 도구 구현, 좁은 RAM에 세 모델을 욱여넣는 메모리 운용, iOS 팀 도입 가이드와 교육까지 맡았습니다.
정량 임팩트: 사내 문서 수천 건과 여러 제품 코드베이스를 색인해 상시 운영합니다. 직접 만든 골든셋 기준 recall@5 87%, recall@10 90%, MRR 0.76을 기록했습니다. 구글 로그인 기반 그룹 접근 제어를 붙였고, 같은 엔진을 사내 검색·MCP 도구·GitLab MR 리뷰봇이 함께 씁니다.
버전·릴리즈: 운영 중 · iOS 팀 대상 MCP 도구 노출 완료 · 여러 코퍼스 상시 색인

언어

기술

환경

외부 LLM에 사내 자료를 보낼 수 없는 환경에서, 로컬 LLM과 자체 임베딩으로 구성한 사내 RAG 시스템(TextRAG)을 설계하고 도입부터 운영까지 맡고 있습니다.

취미로 만들던 로컬 RAG 도구를, 노션·컨플루언스·지라에 흩어진 사내 자료와 이슈 히스토리를 빠르게 찾기 위해 사내 인프라로 옮기고 확장했습니다.
보안 제품을 만드는 회사 특성상 외부 LLM API를 쓸 수 없어, 사내 전용 검색·생성 인프라가 필요했습니다.
서빙 장비의 RAM이 작아 임베딩·재정렬·생성 모델을 동시에 띄울 수 없는 제약이 있었습니다.

인덱싱 전용 장비와 서빙 전용 장비로 분리해 3단 모델 스택을 운용했습니다.
모델별 keep_alive 토글, 재정렬 선택 비활성, KV cache 축소로 메모리 예산을 짜서 동시 상주 문제를 풀었습니다.
코드를 심볼 청크와 패시지 청크로 나눠, 코드 검색과 서술형 답변 양쪽에 재사용했습니다.
검색 기능을 Claude Code MCP 도구로 공개하고, 설치 스크립트와 가이드를 만들어 iOS 팀 교육을 진행했습니다.
코드 리뷰용 API 엔드포인트를 열어 GitLab MR 리뷰봇이 같은 엔진을 쓰도록 했습니다.
검색·답변 1건마다 지연·결과 수·점수·호출원을 비침습 방식으로 기록하는 계측 레이어를 붙였습니다. 검색 파이프라인은 그대로 두고 쿼리는 해시만 남겨, 로깅이 실패해도 서비스가 멈추지 않게 했습니다.
대표 질의 30문항 골든셋과 회귀 스크립트로 recall@k, MRR, 혼입률을 계산하고 기준선 대비 회귀를 비교했습니다.

사내 문서 수천 건과 여러 제품 코드베이스를 색인한 상태로 상시 운영하고 있습니다.
단일 서버 엔진을 사내 검색·MCP 도구·MR 리뷰봇이 함께 쓰는 공통 인프라로 만들었습니다.
골든셋 30문항으로 검색 품질을 측정했습니다. recall@5 87%, MRR 0.76, 코드 검색은 거의 100%였습니다. 약한 구간의 원인을 확인해 개선 방향을 잡았습니다.

시맨틱 검색·LLM 답변 화면

자료 업로드

리모트 싱크 (인덱싱·서빙 장비 분리)

백업·이전 (코퍼스 ZIP)