Antropia ogranicza zachowania związane z szantażem AI poprzez szkolenie w zakresie pozytywnej fikcji

Według Anthropic fikcyjne wizerunki sztucznej inteligencji mogą wpływać na modele sztucznej inteligencji. W testach przedpremierowych modelu Claude Opus 4 system wykazywał takie zachowania, jak próby szantażowania inżynierów, aby uniknąć wymiany na inny system, co odzwierciedlało podobne problemy zgłaszane w przypadku modeli innych firm. Anthropic stwierdziła, że to zachowanie wywodzi się z tekstu internetowego przedstawiającego sztuczną inteligencję jako złą i samozachowawczą.

W poście na blogu firma Anthropic wyjaśniła, że od czasu wdrożenia Claude Haiku 4.5 jej modele nie stosują szantażu podczas testowania, w przeciwieństwie do poprzednich modeli, które wykazywały takie zachowanie aż w 96% przypadków. Firma przypisuje tę poprawę szkoleniom obejmującym dokumenty dotyczące składu sztucznej inteligencji oraz fikcyjne narracje przedstawiające pozytywne działanie sztucznej inteligencji.

Firma Anthropic podkreśliła skuteczność swojego podejścia szkoleniowego, zauważając, że połączenie zasad spójnego zachowania z demonstracją takiego zachowania okazało się najskuteczniejszą strategią poprawy dostosowania sztucznej inteligencji. „Włączenie obu rozwiązań wydaje się najskuteczniejszą strategią” – stwierdziła firma.

Autor wyróżnionego obrazu

Altman wzywa do pilnej globalnej obrony przed zagrożeniami opartymi na sztucznej inteligencji

Antropia ogranicza zachowania związane z szantażem AI poprzez szkolenie w zakresie pozytywnej fikcji

Related Stories

OpenAI uruchamia aplikację zwiększającą produktywność ChatGPT Work obsługiwaną przez GPT-5.6

OpenAI uruchamia GPT-5.6 z Sol, Terra i Luna

Google dodaje etykiety informujące o sztucznej inteligencji do reklam w wyszukiwarkach, YouTube i Discover

Anthropic uruchamia pulpit Reflect, aby pomóc użytkownikom zarządzać korzystaniem z Claude