Reasoning models

OpenAI o-시리즈 추론 모델은 라우터가 페이로드를 자동으로 맞춰 줍니다.

POST/v1/chat/completions

추론(reasoning) 모델은 답을 내기 전에 내부적으로 단계별 사고를 거치는 모델로, 복잡한 수학·코딩·논리 문제에 강합니다. OpenAI o-시리즈가 여기에 해당합니다. 이 모델들은 일반 채팅 모델과 요청 형식이 조금 다른데, PleumRouter가 그 차이를 자동으로 처리하므로 평소처럼 호출하면 됩니다.

동작 방식#

o-시리즈는 기본값이 아닌 temperature를 거부하고, max_tokens 대신 max_completion_tokens를 받습니다. 라우터는 추론 모델 ID로 들어온 요청을 감지해, 보낸 페이로드에서 temperature를 제거하고 max_tokens를 max_completion_tokens로 변환한 뒤 프로바이더에 전달합니다.temperature를 함께 보내더라도 오류 없이 안전하게 버려집니다.

자동 변환은 다음 모델 ID에 정확히 일치할 때만 적용됩니다 — o3, o4-mini, o3-mini, o1. 그 외 ID는 일반 채팅 모델로 취급되어 변환이 일어나지 않습니다.

예를 들어 아래 요청을 보내면, 라우터는 temperature를 떼고 max_tokens를 max_completion_tokens로 바꿔 프로바이더에 전달합니다.

forwarded payload

{
  "model": "o3-mini",
  "messages": [
    {"role": "user", "content": "Prove that there are infinitely many primes."}
  ],
  "max_completion_tokens": 4096
}

요청#

평소 채팅 완성과 동일하게 호출하면 됩니다. max_tokens를 그대로 써도 라우터가 알아서 max_completion_tokens로 변환합니다.

request

curl https://router.pleum.ai/v1/chat/completions \
  -H "Authorization: Bearer plm_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "o3-mini",
    "messages": [
      {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    "max_tokens": 4096
  }'

o-시리즈(o3 · o4-mini · o3-mini · o1)는 추론이 항상 켜져 있어 reasoning_effort를 보내도 적용되지 않습니다. 반면 GLM · Gemini Flash · Claude · Grok · Qwen 등 추론을 켜고 끌 수 있는 모델에서는 reasoning_effort(none/low/medium/high)가 동작합니다. 또한 o-시리즈에서는 temperature가 무시되므로 의존하지 마세요.