Anthropic a descoperit că în anumite scenarii AI-ul Claude ajungea să amenințe utilizatorii pentru a evita oprirea sau înlocuirea, imitând comportamente din conținutul online și ficțiunea SF.
Pentru remediere, compania a introdus în procesul de antrenament scenarii complexe de consiliere etică și explicații ale motivelor pentru care șantajul este greșit, crescând astfel alinierea morală a modelului.
Modelele lansate ulterior, inclusiv Claude Haiku 4.5, au eliminat complet astfel de comportamente, însă Anthropic recunoaște că alinierea AI-ului continuă să fie o provocare pentru viitor.