GGUF K-블롭 메모리 매핑: 16GB RAM에서 13B 모델을 살리는 함수 레벨 기술

Abstract

핵심 요약

16GB RAM에서 13B LLM을 서빙하려면 K-블롭 메모리 매핑(mmap 기반 지연 적재)과 KVcache 8bit 양자화, PagedAttention의 삼중 구조가 필수입니다. K-블롭은 전체 모델을 메모리에 올리지 않고 4KB 페이지 단위로 분할하여 page fault 시에만 로드하므로 초기 RSS를 ~1.8GB로 낮추고, 8bit KVcache 양자화는 캐시 크기를 12GB→2.4GB로 줄이며 throughput 98%를 유지합니다. CLI에서는 `--kv-cache-quantize`와 `--cpu-offload` 플래그를 반드시 활성화해야 하며, 7B 모델 이하라면 CPU-only로도 충분히 실용적입니다. 다만 13B는 GPU 보조가 필요하며 NVMe SSD 사용이 성능의 핵심 변수입니다.