llama.cpp의 한계를 넘어서 llama.cpp가 Demand Paging와 GGUF으로 가능하게 하는 메모리 과학의 정수

Abstract

핵심 요약

llama.cpp는 GGUF 바이너리에 메타데이터와 텐서 데이터를 통합 저장하고, OS의 Demand Paging을 활용해 메모리 매핑(mmap) 방식으로 필요한 페이지만 RAM에 적재함으로써 16GB RAM 환경에서도 전체 모델을 로드하지 않고 추론할 수 있다. K‑Quant 기반 4.5bpw 가중치 양자화와 효율적인 KV‑캐시 관리로 메모리 사용량을 추가로 절감하며, VRAM 부족 시 CPU 오프로딩으로 로컬 추론의 한계를 우회한다. 이 설계 덕분에 모델 파일 크기가 물리 RAM을 초과하더라도 부분 로딩으로 구동할 수 있어 개인 개발자의 로컬 AI 환경이 극적으로 변화했다.