Latency Routing (:nitro)

모델 뒤에 :nitro를 붙이면 최근 1시간 실측 응답속도가 가장 빠른 프로바이더로 라우팅됩니다.

여러 프로바이더가 서빙하는 모델은 기본적으로 최저가 프로바이더부터 시도합니다. "model": "gpt-4o:nitro"처럼 :nitro 접미사를 붙이면 가격 대신 속도 우선으로 바뀝니다 — 실제 트래픽에서 측정한 프로바이더별 응답시간 기준이며, 추정치가 아닙니다. OpenRouter의 :nitro와 호환되는 문법입니다.

:nitro suffix

curl https://router.pleum.ai/v1/chat/completions \
  -H "Authorization: Bearer plm_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o:nitro",
    "messages": [
      {"role": "user", "content": "Quick answer please."}
    ]
  }'

동작 방식#

점수는 최근 60분간 그 (모델, 프로바이더) 조합의 평균 응답시간에, 최근 실패 페널티를 더한 값입니다 — 최근 10분 내 실패한 프로바이더는 실패 1건당 페널티(기본 +2초 상당)를 받아 후순위로 밀립니다. 점수가 낮은(빠른) 프로바이더부터 시도합니다.

표본이 부족한(기본 5건 미만) 프로바이더는 관측된 최속 프로바이더와 동급으로 취급됩니다 — 신규·저트래픽 프로바이더가 영원히 밀리지 않게 하는 낙관적 기본값입니다. 표본이 있는 프로바이더가 하나도 없으면 재정렬 없이 기존 가격순이 유지됩니다.

서킷브레이커가 아닙니다 — 느리거나 실패한 프로바이더도 후보에서 제거되지 않고 순서만 뒤로 밀립니다. 앞 순위가 실패하면 여전히 폴백 대상이 됩니다.

측정값은 60초 간격으로 갱신됩니다. 트래픽이 적은 모델은 표본 부족으로 :nitro를 붙여도 가격순과 같은 결과가 나올 수 있습니다 — 데이터가 쌓이면 자동으로 속도 정렬이 실질화됩니다.

다른 사용처#

같은 스코어러를 세 곳에서 씁니다: :nitro 접미사, 요청 본문의 "provider": {"sort": "latency"} 라우팅 설정, 그리고 라우팅 정책의 latency 타입입니다. 라우팅 설정에 order(프로바이더 순서 고정)를 명시했다면 그게 항상 우선이라 재정렬하지 않습니다.

provider sort preference

curl https://router.pleum.ai/v1/chat/completions \
  -H "Authorization: Bearer plm_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "provider": {"sort": "latency"},
    "messages": [
      {"role": "user", "content": "Quick answer please."}
    ]
  }'

반대 방향 접미사도 있습니다: :floor는 계정 라우팅 설정과 무관하게 무조건 최저가 프로바이더부터 시도합니다.