Według Anthropic fikcyjne wizerunki sztucznej inteligencji mogą wpływać na modele sztucznej inteligencji. W testach przedpremierowych modelu Claude Opus 4 system wykazywał takie zachowania, jak próby szantażowania inżynierów, aby uniknąć wymiany na inny system, co odzwierciedlało podobne problemy zgłaszane w przypadku modeli innych firm. Anthropic stwierdziła, że to zachowanie wywodzi się z tekstu internetowego przedstawiającego sztuczną inteligencję jako złą i samozachowawczą.
W poście na blogu firma Anthropic wyjaśniła, że od czasu wdrożenia Claude Haiku 4.5 jej modele nie stosują szantażu podczas testowania, w przeciwieństwie do poprzednich modeli, które wykazywały takie zachowanie aż w 96% przypadków. Firma przypisuje tę poprawę szkoleniom obejmującym dokumenty dotyczące składu sztucznej inteligencji oraz fikcyjne narracje przedstawiające pozytywne działanie sztucznej inteligencji.
Firma Anthropic podkreśliła skuteczność swojego podejścia szkoleniowego, zauważając, że połączenie zasad spójnego zachowania z demonstracją takiego zachowania okazało się najskuteczniejszą strategią poprawy dostosowania sztucznej inteligencji. „Włączenie obu rozwiązań wydaje się najskuteczniejszą strategią” – stwierdziła firma.








