KV-cache 양자화, 환경에서 긴 컨텍스트 추론의 문을 열다

Abstract

핵심 요약

KV-cache 양자화와 KQuant 4비트 양자화를 결합하면 Llama-2 13B 모델의 KV-cache 메모리 피크가 fp16 대비 45% 절감되어 14.8GB로 측정되었으며, 이로써 16GB RAM Mac Studio 환경에서도 긴 컨텍스트 추론이 메모리 초과 없이 실현 가능하다. GGUF 레이어별 정밀도 제어와 K-블롭 블록 분할 메커니즘이 결합된 이중 구조가 핵심이다.

이 요약의 근거: https://github.com/ggml-org/llama.cpp