LMStudio에서 Llama.cpp 모델 구동의 사중 CPU 오프로드, KV-cache, 온디맨드 페이징, Quant 양자화

Abstract

핵심 요약

llama.cpp는 --n-gpu-layers 또는 --cpu-offload 옵션을 통해 반복 레이어와 비반복 레이어를 분리 관리하며, Apple Silicon 통합 메모리 환경에서는 PCIe 전송 오버헤드 없이 GPU와 RAM이 동일한 물리 메모리를 공유하여 데이터 이동 비용이 없는 것이 핵심 장점이다. 이를 통해 반복 레이어는 GPU/Metal 가속의 이점을, 비반복 레이어는 시스템 RAM 활용의 유연성을 동시에 확보할 수 있다.