KV-Cache 양자화로 GPU 메모리 병목 해결하기: FP8 기반 128K 컨텍스트 서빙의 실전 가이드

Abstract

핵심 요약

FP8 KV-Cache 양자화를 적용하면 메모리 사용량을 75% 절감하여 단일 GPU로 128K 토큰 컨텍스트 처리가 가능하다. FlashAttention-3과 결합 시 H100 등 FP8 가속 GPU에서만 처리량이 3~4배 향상되며, Mac M2 환경에서는 GGUF K-blob 매핑과 CPU 오프로딩을 병행해야 안정적 서빙이 가능하다. vLLM에서 --quantization fp8_kv_cache 옵션으로 즉시 적용 가능하며, 캘리브레이션 없이 사용하면 품질 저하가 발생하므로 데이터셋 기반 스케일 추정이 필수적이다.