Model Fusion

하나의 프롬프트를 여러 모델에 동시에 보내고, 선택적으로 하나의 답변으로 합칩니다.

POST/v1/fusion

Model Fusion은 PleumRouter 고유 엔드포인트입니다. OpenAI · Anthropic SDK 형식이 아니므로 /v1/fusion을 직접 호출하세요. 하나의 프롬프트를 2~4개 모델에 병렬로 팬아웃하고, fuse가 true이면 성공한 답변들을 하나의 통합 답변으로 합성합니다. 인증은 plm_ 키를 Bearer 토큰으로 전달합니다.

요청 본문#

파라미터	타입	필수	설명
models	string[]	필수	2~4개 모델 ID 배열. 중복은 제거되며, 서로 다른 모델이 2개 미만이면 `400`을 반환합니다.
messages	array	필수	채팅과 동일한 `{role, content}` 배열. 멀티모달 입력도 지원합니다.
temperature	number	선택	기본값 0.7.
max_tokens	integer	선택	기본값 2048.
fuse	boolean	선택	`true`이고 2개 이상의 소스가 성공하면 통합 답변을 합성합니다. 기본값 `true`.
fuse_model	string \| null	선택	합성에 사용할 모델 ID. 기본값 `null`이며, 이 경우 첫 번째로 성공한 소스의 모델을 사용합니다.

request

curl https://router.pleum.ai/v1/fusion \
  -H "Authorization: Bearer $PLEUM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "models": ["gpt-4o", "claude-sonnet-4-6"],
    "messages": [
      {"role": "user", "content": "Explain the CAP theorem in one paragraph."}
    ],
    "temperature": 0.7,
    "max_tokens": 2048,
    "fuse": true
  }'

응답#

sources에는 각 모델의 결과(model, provider, text, cost_krw, latency_ms, error)가 담깁니다. 합성이 실행되면 fused_text와 합성에 사용된 모델(fused_by)이 반환되고, total_cost_krw는 모든 소스 호출과 합성 단계 비용의 합계입니다.

200 OK

{
  "sources": [
    {
      "model": "gpt-4o",
      "provider": "openai",
      "text": "The CAP theorem states that a distributed system...",
      "cost_krw": 3,
      "latency_ms": 912,
      "error": null
    },
    {
      "model": "claude-sonnet-4-6",
      "provider": "anthropic",
      "text": "In any distributed data store, you can guarantee...",
      "cost_krw": 4,
      "latency_ms": 1180,
      "error": null
    }
  ],
  "fused_text": "The CAP theorem says a distributed system can provide at most two of consistency, availability, and partition tolerance...",
  "fused_by": "gpt-4o",
  "total_cost_krw": 9
}

각 소스 호출이 실제 크레딧을 차감하며, 합성(fuse) 단계도 별도로 한 번 더 차감합니다 — total_cost_krw는 이 모두의 합계입니다. 일부 소스가 실패해도 격리되어 해당 소스는 error가 채워진 채 반환되고, 호출 전체는 그대로 200을 반환합니다. 합성은 fuse가 true이고 2개 이상의 소스가 성공한 경우에만 실행됩니다.