llama.cpp 온디맨드 페이징 아키텍처와 16GB RAM 환경에서의 OOM 방지 메커니즘

Abstract

개요

llama.cpp에서 온디맨드 페이징을 활용하면 7B 모델도 16GB RAM 환경에서 안정적으로 실행할 수 있고, Q4_K_M 양자화와 --max-context 2048~4096 토큰 제한을 조합하면 13B 모델까지 메모리 초과 없이 추론이 가능하며, 성능 저하를 최소화하면서 OOM 위험을 근본적으로 차단할 수 있습니다.