게이트웨이 , 왜 장시간 추론 시 속도가 급격히 떨어질까

Abstract

핵심 요약

LMStudio 게이트웨이 API의 스트리밍 지연은 토큰 생성 속도와 네트워크 버퍼 플러시 주기 간 불일치, 16GB RAM 환경에서 KV-cache 메모리 할당량 증가, 양자화 오버헤드 및 동시 요청 시 처리량 분산이 복합적으로 작용하여 발생합니다. 단일 요청 기준 25~40 token/s 속도를 보이지만, 장시간 추론과 동시 요청에서는 성능이 급격히 저하됩니다.

이 요약의 근거: https://github.com/ 외 1건