llama.cpp 의 오프로드와 메모리 매핑 양자화의 통합 구조

Abstract

개요

llama.cpp 는 GGUF 의 K-Quant 양자화와 메모리 매핑을 결합하여 KVcache 를 별도 압축하고, CPU 다중 스레드 병렬 처리로 16GB RAM 환경에서도 대용량 LLM 추론이 가능하도록 설계되었다.