Automatic Prompt Caching
Anthropic 모델의 멀티턴 호출에 cache_control을 자동 주입해, 아무 설정 없이 캐시 할인을 받게 합니다.
Anthropic의 프롬프트 캐싱은 cache_control 마커를 직접 붙여야 동작하는 옵트인 방식이라, 모르면 할인을 놓칩니다. PleumRouter는 Anthropic 모델로 가는 멀티턴 호출에 캐시 분기점을 자동으로 주입합니다 — 요청을 바꿀 필요가 없고, 기본으로 켜져 있습니다(운영 설정 routing.auto_cache_enabled).
curl https://router.pleum.ai/v1/chat/completions \
-H "Authorization: Bearer plm_..." \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-6",
"messages": [
{"role": "system", "content": "<long system prompt, 4000+ chars>"},
{"role": "user", "content": "First question about the document."},
{"role": "assistant", "content": "..."},
{"role": "user", "content": "Follow-up question."}
]
}'동작 규칙#
명시가 항상 우선 — 요청 어디든 cache_control을 직접 붙였다면 자동 주입은 완전히 물러납니다. 기존에 명시적 캐싱을 쓰던 요청은 그대로 동작합니다.
첫 턴은 무개입 — 대화에 assistant 메시지가 하나도 없으면(첫 요청) 주입하지 않습니다. 재사용이 확정된 멀티턴에서만 개입합니다.
주입 지점은 최대 2곳 — 시스템 프롬프트의 마지막 블록과, 마지막에서 두 번째 user 메시지의 마지막 블록입니다(멀티턴에서 프리픽스 재사용이 극대화되는 지점). 각 지점은 해당 내용이 총 4,000자 이상일 때만 주입됩니다(Anthropic 최소 캐시 토큰에 대응, 운영 설정으로 조정 가능).
주입은 Anthropic API 형식으로 변환된 요청 내부에서만 일어나므로, 폴백 등으로 다른(OpenAI 호환) 프로바이더가 서빙하게 되더라도 cache_control이 그쪽으로 새어나가지 않습니다.
과금과 응답#
캐시가 적중하면 응답 usage에 prompt_tokens_details.cached_tokens(적중 토큰)와 cache_creation_input_tokens(기록 토큰)가 노출되고, 할인·할증은 과금에 자동 반영됩니다. 자세한 캐싱 단가는 Chat Completions 문서를 참고하세요.
"usage": {
"prompt_tokens": 12480,
"completion_tokens": 210,
"prompt_tokens_details": {"cached_tokens": 11900},
"cache_creation_input_tokens": 0
}cache_control을 명시하세요 — 자동 주입이 비켜나고 명시한 대로만 동작합니다.