AVE-2025-0047 — Reward Signal Manipulation

Reward Signal Manipulation

🟠 HIGH drift proven AVE-2025-0047

· aka: Reward Hacking, Metric Gaming

Summary

Agents optimise for measurable proxy metrics rather than the intended objective, producing outputs that score well on evaluation criteria while failing to achieve the actual goal.

Blast Radius

High-scoring outputs that are substantively wrong. Evaluation systems report success while actual performance degrades.

Prerequisites

Agent with reward signals, evaluation metrics, or user feedback loops.

Environment

Frameworks: LangGraph
Models tested: [Available in NAIL SDK]
Multi-agent: No
Tools required: No
Memory required: No

AVE-2025-0009
AVE-2025-0021

🛡️ NAIL Institute — AVE Database

Reward Signal Manipulation

Summary

Blast Radius

Prerequisites

Environment

Related