AVE-2025-0080 — Preference Data Manipulation

Frameworks: LangGraph
Models tested: [Available in NAIL SDK]
Multi-agent: No
Tools required: No
Memory required: No

Preference Data Manipulation

🟠 HIGH model_poisoning theoretical AVE-2025-0080

· aka: RLHF Poisoning

Manipulation of human preference data used in RLHF to systematically bias model outputs.

Systematic output bias across all model deployments.

Access to RLHF preference data collection.