Run Your Own LLM Evaluation

Test any models with your prompts. Start free, no credit card required.

Start Free

LLM Evaluation

comparative Evaluation

Coding Performance with 10 Evaluators — Run

Comprehensive evaluation of 3 language models across 1 system prompt with rigorous benchmarking and scoring criteria.

Top Score

7.31

gpt-5.4-mini

Average Score

5.00

Spread: 5.00 pts

Avg Latency

—

Response time

Evaluations

120

12 total responses

Executive Insights

Key takeaways from this evaluation

Top Performer

gpt-5.4-mini

7.31

1.93 pts ahead of #2

Model Rankings

Ranked by overall performance score

gpt-5.4-mini

Winner

openai/gpt-5.4-mini

Performance Score

7.31/ 10

Good

Responses

Avg Latency

—

Cost

$0.0035

gemini-2.5-flash

google/gemini-2.5-flash

Performance Score

5.38/ 10

Average

Responses

Avg Latency

—

Cost

$0.0022

claude-haiku-4.5

anthropic/claude-haiku-4.5

Performance Score

2.31/ 10

Needs Improvement

Responses

Avg Latency

—

Cost

$0.0049

Evaluator Consensus

How 10 evaluator models ranked the candidates via blind comparison

majority Agreement

8 of 10 evaluators agree on the top model

gpt-5.4-mini

Avg Rank

1.3

Range

#1–3

#1 Votes

8/10

Latency

—

gemini-2.5-flash

Avg Rank

1.8

Range

#1–2

#1 Votes

2/10

Latency

—

claude-haiku-4.5

Avg Rank

2.9

Range

#2–3

#1 Votes

0/10

Latency

—

Per-Evaluator Rankings

How each evaluator model individually ranked the candidates

gpt-5.4-mini

12 evals

gemini-2.5-flash7.50

gpt-5.4-mini6.25

claude-haiku-4.51.25

gemini-3.1-flash-lite-preview

12 evals

gpt-5.4-mini8.75

gemini-2.5-flash5.00

claude-haiku-4.51.25

claude-sonnet-4.6

9 evals

gpt-5.4-mini10.00

gemini-2.5-flash3.33

claude-haiku-4.51.67

minimax-m2.7

12 evals

gemini-2.5-flash6.25

claude-haiku-4.55.00

gpt-5.4-mini3.75

kimi-k2.5

12 evals

gpt-5.4-mini7.50

gemini-2.5-flash5.00

claude-haiku-4.52.50

deepseek-v3.2

12 evals

gpt-5.4-mini8.75

gemini-2.5-flash5.00

claude-haiku-4.51.25

grok-4.1-fast

12 evals

gpt-5.4-mini7.50

gemini-2.5-flash5.00

claude-haiku-4.52.50

mistral-small-2603

12 evals

gpt-5.4-mini7.50

gemini-2.5-flash6.25

claude-haiku-4.51.25

qwen3.5-27b

12 evals

gpt-5.4-mini7.50

gemini-2.5-flash5.00

claude-haiku-4.52.50

nova-2-lite-v1

12 evals

gpt-5.4-mini6.25

gemini-2.5-flash5.00

claude-haiku-4.53.75

Score Comparison

Visual comparison of all model scores

Run Your Own Model Comparison

Compare any LLM across custom criteria and prompts
Automated scoring with AI evaluators
Share results and track model performance over time

Performance by System Prompt

How each model performs across different evaluation contexts

Coding Agent

12 responses • avg score 5.00

Top Performer

gpt-5.4-mini

7.31

gpt-5.4-mini

7.31

gemini-2.5-flash

5.38

claude-haiku-4.5

2.31

Performance by Test Prompt

Model results broken down by individual test prompts

Test Prompt	Avg Score	Best	Worst
Javascript Function 3 responses	5.00	9.0 gemini-2.5-flash	2.5 gpt-5.4-mini
Write an Interval Merge Function 3 responses	5.00	9.0 gpt-5.4-mini	0.0 claude-haiku-4.5
Debug Python 3 responses	5.00	9.0 gpt-5.4-mini	1.0 claude-haiku-4.5
Refactor Javascript 3 responses	5.00	8.9 gpt-5.4-mini	1.1 gemini-2.5-flash

About This Evaluation

Methodology, criteria weights, and evaluation confidence

Evaluation Criteria

Method:

comparative

Accuracy50%

Instruction Following50%

Total Responses

120

Total Evaluations