Automatic Prompt Caching

Anthropic 모델의 멀티턴 호출에 cache_control을 자동 주입해, 아무 설정 없이 캐시 할인을 받게 합니다.

Anthropic의 프롬프트 캐싱은 cache_control 마커를 직접 붙여야 동작하는 옵트인 방식이라, 모르면 할인을 놓칩니다. PleumRouter는 Anthropic 모델로 가는 멀티턴 호출에 캐시 분기점을 자동으로 주입합니다 — 요청을 바꿀 필요가 없고, 기본으로 켜져 있습니다(운영 설정 routing.auto_cache_enabled).

multi-turn call — nothing to add

curl https://router.pleum.ai/v1/chat/completions \
  -H "Authorization: Bearer plm_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-6",
    "messages": [
      {"role": "system", "content": "<long system prompt, 4000+ chars>"},
      {"role": "user", "content": "First question about the document."},
      {"role": "assistant", "content": "..."},
      {"role": "user", "content": "Follow-up question."}
    ]
  }'

동작 규칙#

명시가 항상 우선 — 요청 어디든 cache_control을 직접 붙였다면 자동 주입은 완전히 물러납니다. 기존에 명시적 캐싱을 쓰던 요청은 그대로 동작합니다.

첫 턴은 무개입 — 대화에 assistant 메시지가 하나도 없으면(첫 요청) 주입하지 않습니다. 재사용이 확정된 멀티턴에서만 개입합니다.

주입 지점은 최대 2곳 — 시스템 프롬프트의 마지막 블록과, 마지막에서 두 번째 user 메시지의 마지막 블록입니다(멀티턴에서 프리픽스 재사용이 극대화되는 지점). 각 지점은 해당 내용이 총 4,000자 이상일 때만 주입됩니다(Anthropic 최소 캐시 토큰에 대응, 운영 설정으로 조정 가능).

주입은 Anthropic API 형식으로 변환된 요청 내부에서만 일어나므로, 폴백 등으로 다른(OpenAI 호환) 프로바이더가 서빙하게 되더라도 cache_control이 그쪽으로 새어나가지 않습니다.

첫 턴에 주입하지 않는 이유: Anthropic 캐시 기록(write)은 정가의 1.25배 할증인데, 단발 요청은 읽기(read) 할인을 받을 기회가 없어 할증만 내고 끝납니다. 멀티턴에서만 개입해 자동 주입으로 사용자가 손해 보는 경우를 없앴습니다.

과금과 응답#

캐시가 적중하면 응답 usage에 prompt_tokens_details.cached_tokens(적중 토큰)와 cache_creation_input_tokens(기록 토큰)가 노출되고, 할인·할증은 과금에 자동 반영됩니다. 자세한 캐싱 단가는 Chat Completions 문서를 참고하세요.

usage on a cache hit

"usage": {
  "prompt_tokens": 12480,
  "completion_tokens": 210,
  "prompt_tokens_details": {"cached_tokens": 11900},
  "cache_creation_input_tokens": 0
}

첫 턴부터 캐시를 걸고 싶거나(이어질 대화가 확실할 때) 분기점을 직접 제어하고 싶다면 cache_control을 명시하세요 — 자동 주입이 비켜나고 명시한 대로만 동작합니다.