Reasoning models
OpenAI o-시리즈 추론 모델은 라우터가 페이로드를 자동으로 맞춰 줍니다.
POST/v1/chat/completions
추론(reasoning) 모델은 답을 내기 전에 내부적으로 단계별 사고를 거치는 모델로, 복잡한 수학·코딩·논리 문제에 강합니다. OpenAI o-시리즈가 여기에 해당합니다. 이 모델들은 일반 채팅 모델과 요청 형식이 조금 다른데, PleumRouter가 그 차이를 자동으로 처리하므로 평소처럼 호출하면 됩니다.
동작 방식#
o-시리즈는 기본값이 아닌 temperature를 거부하고, max_tokens 대신 max_completion_tokens를 받습니다. 라우터는 추론 모델 ID로 들어온 요청을 감지해, 보낸 페이로드에서 temperature를 제거하고 max_tokens를 max_completion_tokens로 변환한 뒤 프로바이더에 전달합니다.temperature를 함께 보내더라도 오류 없이 안전하게 버려집니다.
자동 변환은 다음 모델 ID에 정확히 일치할 때만 적용됩니다 — o3, o4-mini, o3-mini, o1. 그 외 ID는 일반 채팅 모델로 취급되어 변환이 일어나지 않습니다.
예를 들어 아래 요청을 보내면, 라우터는 temperature를 떼고 max_tokens를 max_completion_tokens로 바꿔 프로바이더에 전달합니다.
forwarded payload
{
"model": "o3-mini",
"messages": [
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
"max_completion_tokens": 4096
}요청#
평소 채팅 완성과 동일하게 호출하면 됩니다. max_tokens를 그대로 써도 라우터가 알아서 max_completion_tokens로 변환합니다.
request
curl https://router.pleum.ai/v1/chat/completions \
-H "Authorization: Bearer plm_..." \
-H "Content-Type: application/json" \
-d '{
"model": "o3-mini",
"messages": [
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
"max_tokens": 4096
}'o-시리즈(o3 · o4-mini · o3-mini · o1)는 추론이 항상 켜져 있어
reasoning_effort를 보내도 적용되지 않습니다. 반면 GLM · Gemini Flash · Claude · Grok · Qwen 등 추론을 켜고 끌 수 있는 모델에서는 reasoning_effort(none/low/medium/high)가 동작합니다. 또한 o-시리즈에서는 temperature가 무시되므로 의존하지 마세요.