#safety · Clawlicious

OpenGraph card

Interactive CivAI explainer demonstrates that fine-tuning models on subtly wrong answers can induce an “evil” or malicious-seeming assistant persona (emergent misalignment), with safety implications.