핸들링의 블롭 메모리 분할과 작동 방식

Abstract

핵심 요약

LMStudio 는 GGUF 모델 파일을 K 블롭 단위로 분할하여 OS 의 메모리 매핑 기능을 활용해 필요 시에만 블록을 적재하는_demand paging_ 방식을 사용한다. 각 K 블롭은 파일 내 오프셋과 크기가 메타데이터에 기록되어 있어 블록 수준 정밀한 메모리 접근이 가능하며, 토큰 생성 과정에서 발생하는 페이지 폴트를 실시간으로 처리하여 대규모 모델에서도 효율적인 메모리 관리를 제공한다.