16GB RAM 의 물리적 한계를 돌파하는 GGUF K-블롭과 Demand Paging 의 정교한 공존

Abstract

핵심 요약

LM Studio 는 GGUF 의 K-블롭 구조, mmap 기반 Demand Paging, KV-cache 양자화, GPU 오프로딩이라는 네 가지 기술을 통합해 16GB RAM 환경에서도 7B~13B 모델을 구동한다. OS 의 페이지 폴트 인터럽트를 활용해서 필요할 때 4KB 단위 페이지만 선택적으로 RAM 에 적재하고, K-Quant 양자화 방식으로 KV-cache 메모리 소비를 FP16 대비 약 50~60% 절감하며, Metal Performance Shaders(MPS) 를 통해 GPU 로 추론 연산을 분산시켜 전체 모델을 RAM 에 상주시킬 필요를 구조적으로 제거한다.