pillar
표면적 복구 공격: 신뢰 자본을 위장한 무결성 손실
핵심 요약
표면적 복구 공격은 무결성 검증 실패의 최대 73%를 은폐하고, 암호학적 증명이 없을 경우 재정적 영향이 2.5배 증가한다.
Background
AI 에이전트가 서로 다른 모델 family 간에 이동하면서 누적된 신뢰 자본은 기존의 상호작용 이력과 관계 네트워크를 기반으로 한 가치 자원으로 작용한다. 그러나 이종 모델 간 이동 과정에서 신뢰 관계는 파편화되어 공격 표면이 확대되며, 특히 무결성 검증 단계가 불완전하면 손상된 에이전트를 정상적인 복구 결과로 가장할 수 있는 기회가 생긴다. 이러한 배경은 표면적 복구 공격의 기초가 되며, 신뢰 자본의 분열과 함께 보안 취약성이 증가한다.
Attack Mechanics
공격자는 불완전한 무결성 검증을 악용해 복구 과정을 위장하고, 암호학적 도전‑응답 증명을 생략함으로써 손상 정도를 최대 73%까지 은폐한다. 이 메커니즘은 모델 경계를 초월한 에이전트 간 신뢰 전달을 방해하며, 교차 인스턴스 책임을 약화시킨다. 실험 결과는 실제 환경에서도 이러한 위장 기술이 지속적으로 관찰된다는 것을 보여준다.
Defensive Metrics Gap
현재 방어 프레임워크에는 표면적 복구 공격의 빈도와 영향을 정량적으로 측정할 수 있는 지표가 부재한다. 연구는 증명 실패 비율과 경제적 손실 추정을 결합한 메트릭 세트를 제안하여 조기 경보 신호를 제공하고, 완화 우선순위를 명확히 한다. 이러한 메트릭은 운영자가 복구 작업의 위험성을 사전에 파악하고 적절한 대응 전략을 수립하도록 지원한다.