LMStudio 환경에서 GGUF Demand Paging으로 모델이 멈추지 않는 비결의 마법

Abstract

핵심 요약

LMStudio 는 GGUF 파일의 가중치를 mmap 으로 메모리 주소 공간에 연결한 뒤, 실제 추론 시점에 필요한 텐서만 4KB 단위 페이지로 적재하고 LRU 알고리즘으로 사용하지 않는 레이어를 디스크로 내보내며, OpenCL/CUDA 를 활용해 페이지 폴트 발생 시 비동기 적재해 16GB RAM 환경에서도 대용량 모델을 안정적으로 실행한다.