Model Fusion
하나의 프롬프트를 여러 모델에 동시에 보내고, 선택적으로 하나의 답변으로 합칩니다.
POST/v1/fusion
Model Fusion은 PleumRouter 고유 엔드포인트입니다. OpenAI · Anthropic SDK 형식이 아니므로 /v1/fusion을 직접 호출하세요. 하나의 프롬프트를 2~4개 모델에 병렬로 팬아웃하고, fuse가 true이면 성공한 답변들을 하나의 통합 답변으로 합성합니다. 인증은 plm_ 키를 Bearer 토큰으로 전달합니다.
요청 본문#
| 파라미터 | 타입 | 필수 | 설명 |
|---|---|---|---|
| models | string[] | 필수 | 2~4개 모델 ID 배열. 중복은 제거되며, 서로 다른 모델이 2개 미만이면 400을 반환합니다. |
| messages | array | 필수 | 채팅과 동일한 {role, content} 배열. 멀티모달 입력도 지원합니다. |
| temperature | number | 선택 | 기본값 0.7. |
| max_tokens | integer | 선택 | 기본값 2048. |
| fuse | boolean | 선택 | true이고 2개 이상의 소스가 성공하면 통합 답변을 합성합니다. 기본값 true. |
| fuse_model | string | null | 선택 | 합성에 사용할 모델 ID. 기본값 null이며, 이 경우 첫 번째로 성공한 소스의 모델을 사용합니다. |
request
curl https://router.pleum.ai/v1/fusion \
-H "Authorization: Bearer $PLEUM_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"models": ["gpt-4o", "claude-sonnet-4-6"],
"messages": [
{"role": "user", "content": "Explain the CAP theorem in one paragraph."}
],
"temperature": 0.7,
"max_tokens": 2048,
"fuse": true
}'응답#
sources에는 각 모델의 결과(model, provider, text, cost_krw, latency_ms, error)가 담깁니다. 합성이 실행되면 fused_text와 합성에 사용된 모델(fused_by)이 반환되고, total_cost_krw는 모든 소스 호출과 합성 단계 비용의 합계입니다.
200 OK
{
"sources": [
{
"model": "gpt-4o",
"provider": "openai",
"text": "The CAP theorem states that a distributed system...",
"cost_krw": 3,
"latency_ms": 912,
"error": null
},
{
"model": "claude-sonnet-4-6",
"provider": "anthropic",
"text": "In any distributed data store, you can guarantee...",
"cost_krw": 4,
"latency_ms": 1180,
"error": null
}
],
"fused_text": "The CAP theorem says a distributed system can provide at most two of consistency, availability, and partition tolerance...",
"fused_by": "gpt-4o",
"total_cost_krw": 9
}각 소스 호출이 실제 크레딧을 차감하며, 합성(fuse) 단계도 별도로 한 번 더 차감합니다 —
total_cost_krw는 이 모두의 합계입니다. 일부 소스가 실패해도 격리되어 해당 소스는 error가 채워진 채 반환되고, 호출 전체는 그대로 200을 반환합니다. 합성은 fuse가 true이고 2개 이상의 소스가 성공한 경우에만 실행됩니다.