희소 어텐션과 GGUF를 결합한 1M 토큰 컨텍스트 구현: 메모리 최적화와 한계의 균형

Abstract

핵심 요약

Sparse Attention과 GGUF의 결합은 O(N²)에서 O(N·k)로 복잡도를 감소시키고, Paged Attention과 TurboQuant을 통한 메모리 절감으로 1M 토큰 컨텍스트 구현이 가능해졌으나, CPU 전용 구현과 16GB 이하 GPU의 메모리 한계, OOM 문제 등은 여전히 실용화를 가로막는 핵심 과제로 남아 있습니다. RTX 4090(24GB) 환경에서는 1M 토큰 처리가 가능하지만, 16GB VRAM 시스템에서는 950k 토큰 이후 OOM이 빈번히 발생하므로 다층 최적화 조합이 필수적입니다.