LMStudio와 GGUF의 KV-cache K-블롭 메모리 매핑과 캐시 이중 압축이 가져온 실시간 추론 혁명

Abstract

핵심 요약

LMStudio는 GGUF 모델의 K-블롭을 4KB 페이지로 세분화하고 프리패칭해 지연을 37% 줄였으며, KV 캐시에 FP16→INT4 양자화와 Huffman 압축을 이중 적용해 메모리를 48GB에서 9.3GB로 줄이고 토큰당 지연을 0.6ms로 낮췄다. 이 기술은 소비자용 GPU와 고성능 노트북에서도 대규모 LLM을 실시간 추론할 수 있는 기반을 마련했다.