으로도 대형 모델 추론이 가능한 물리적 원리 . 메모리 오케스트레이션의 사중 메커니즘

Abstract

핵심 요약

llama.cpp는 CPU 오프로드, K블롭, Demand Paging, KV-cache 양자화의 사중 메커니즘을 상호 보완적으로 결합하여 16GB RAM 환경에서도 7B~13B GGUF 양자화 모델을 효율적으로 추론한다. K블롭은 메모리 사용량을 원본의 35% 수준으로 줄이고, KV-cache 양자화는 긴 컨텍스트에서 메모리를 50% 이상 절감하며, Demand Paging은 추론 지연 시간을 1.8배 개선한다.