llama.cpp 의 오프로드와 메모리 매핑 양자화로 에서 토큰 구현하기

Abstract

핵심 요약

Llama.cpp 는 GGUF 메모리 매핑을 기반으로 하이브리드 오프로드(핵심 레이어는 GPU, KV‑cache 는 CPU) 로 16GB GPU 에서 8k 토큰 컨텍스트를 지원하며, 전체 CPU 오프로드로는 7B 모델의 GPU 사용량을 12GB 에서 1GB 이하로 줄이고, GPTQ 코드북 256 개 양자화로 KV‑cache 메모리를 약 4 배 압축한다.