양자화와 이 로컬 추론의 메모리 경계를 확장하는 작동 원리

Abstract

핵심 요약

KQuant 양자화는 모델 가중치를 저비트 형태로 변환해 메모리 사용량을 90% 이상 감소시키고, Demand Paging은 필요할 때만 디스크에서 K-블롭 블록 단위의 페이지를 선택적으로 불러와 전체 모델을 RAM에 상주시키지 않는다. K-블롭 구조의 4KB 페이지 정렬과 OS 페이지 폴트 메커니즘, 그리고 KV-cache 양자화와 PagedAttention의 이중 압축이 결합되어 16GB RAM이라는 물리적 제약 내에서 7B~13B GGUF 모델의 로컬 AI 추론을 가능하게 하는 것이 핵심 작동 원리이다.