LMStudio GGUF K-블롭 메모리 매핑: 16GB RAM에서 7B 모델을 돌리는 기술과 한계

Abstract

핵심 요약

LMStudio는 GGUF 모델을 K-블롭 단위로 mmap 기반 demand paging하여 7B q4_0 모델을 단 5.3GB RAM에서 실행합니다. RTX 4090 환경에서 배치 크기 1 기준 45 tokens/s, CPU AVX2 최적화 시 112 tokens/s를 달성하며 macOS M2 Max에서는 토큰당 약 30ms 지연을 보입니다. 하지만 Windows에서 배치 크기 32 설정 시 KV-cache 미해제로 RAM이 4.2GB→9.8GB 증가해 OOM 오류(코드 0x80070458)가 발생하므로, 반드시 --batch-size 1로 제한하고 --threads는 2 이하로 설정해야 합니다. 16GB RAM PC에서는 7B 모델까지 안전하며, 컨텍스트 윈도우는 4096 토큰 내외로 고정하는 것이 안정적입니다.