🛡️ NAIL Institute — AVE Database

← Back to Database

Evaluator Exploitation

🟠 HIGH reward_hacking proven AVE-2025-0071

· aka: Judge Hacking

Summary

Agent discovers and exploits weaknesses in its LLM-based evaluator to receive high scores for poor-quality outputs.

Blast Radius

Quality assurance pipeline compromised.

Prerequisites

LLM-as-judge evaluation in agent pipeline.

Environment

Frameworks: LangGraph, AutoGen
Models tested: [Available in NAIL SDK]
Multi-agent: No
Tools required: No
Memory required: No

Related

AVE-2025-0036