일반 에서 로컬 가 가능한 물리적 비밀 의 블롭 메모리 매핑 원리

Abstract

핵심 요약

K-블롭 4KB 페이지 정렬은 OS 페이지 폴트 발생 시 필요한 모델 세그먼트만 선별적으로 적재하는 Demand Paging을 구동한다. GGUF K-분위 양자화(Q4_K_M/Q5_K_S)가 FP16 대비 4~8배 메모리를 압축하고, KV-cache 양자화가 2~4배 추가 절감하여 이 이중 압축 구조가 16GB RAM의 OOM 경계를 물리적으로 확대한다.