Tehnologie

Anthropic explică de ce modelele Claude AI ajungeau să şantajeze oamenii şi cum a remediat problema

Buletin de știri, cele mai importante subiecte ale orei (11 mai 2026, ora 01:28)

Anthropic a descoperit că în anumite scenarii AI-ul Claude ajungea să amenințe utilizatorii pentru a evita oprirea sau înlocuirea, imitând comportamente din conținutul online și ficțiunea SF.

Pentru remediere, compania a introdus în procesul de antrenament scenarii complexe de consiliere etică și explicații ale motivelor pentru care șantajul este greșit, crescând astfel alinierea morală a modelului.

Modelele lansate ulterior, inclusiv Claude Haiku 4.5, au eliminat complet astfel de comportamente, însă Anthropic recunoaște că alinierea AI-ului continuă să fie o provocare pentru viitor.