. 의 오프로드와 블롭 메모리 매핑이 만드는 양자화 구조

Abstract

핵심 요약

llama.cpp 는 CPU 오프로드 엔진으로 어텐션 연산을 호스트 CPU 로 전환해 GPU 메모리 부담을 줄이고, K블롭은 메모리 매핑 I/O 를 통해 모델 가중치와 KVcache 를 호스트 RAM 과 디스크 간 효율적으로 페이징하며, 4비트 KVcache 양자화는 최대 75% 메모리 절감과 추론 지연 시간 개선을 동시에 달성한다.