맥미니 M2 16GB, GGUF 모델 7개 동시 실행의 메모리 경계와 실전 돌파 전략

Abstract

핵심 요약

맥미니 M2 16GB에서 GGUF 모델 7개를 동시 실행하려면 Q4_K_M 양자화(45% 절감)를 적용하고, ctx-size 1024, batch-size 1로 KV-cache 메모리를 30~50% 축소해야 합니다. 여기에 LRU 기반 Hot-Cold 분리 캐싱을 구현하여 RAM 상주 모델을 2~3개로 제한하고 Cold-model은 mmap 디스크 적재 방식으로 전환하면 메모리 경계를 구조적으로 돌파할 수 있습니다.