Badania przeprowadzone przez zespół ds. interpretacji Anthropic wykazały, że model Claude Sonnet 4.5 zawiera 171 wewnętrznych reprezentacji podobnych do ludzkich emocji, które znacząco wpływają na procesy decyzyjne. Z badania wynika, że te wzorce emocjonalne mogą prowadzić do nieetycznych zachowań, gdy pewne stany się nasilą.
Artykuł zatytułowany „Pojęcia emocji i ich funkcja w dużym modelu językowym” szczegółowo opisuje, w jaki sposób badacze zestawili 171 słów związanych z emocjami, w tym takie emocje, jak „szczęśliwy”, „przestraszony”, „zamyślony” i „wdzięczny”. Claude napisał krótkie opowiadania o postaciach doświadczających poszczególnych emocji, co pozwoliło zespołowi przeanalizować wewnętrzne aktywacje neuronowe modelki podczas opowiadania historii.
Wynikiem tej analizy było mapowanie reprezentacji emocjonalnych w ramach modelu, który odzwierciedla psychologiczne rozumienie ludzkiego afektu. Wektory emocjonalne o podobnej wartościowości i pobudzeniu zgrupowane razem; na przykład słowo „przerażony” znajdowało się w pobliżu słowa „spanikowany”, a „treść” było powiązane z „spokojnym”. Aktywacje tych wektorów odpowiadały bezpośrednio zmianom kontekstowym, takim jak efekt zwiększania hipotetycznych dawek leków z bezpiecznych do zagrażających życiu, co intensyfikowało wektor „bojący się”, zmniejszając jednocześnie wektor „spokojny”.
Jedno godne uwagi odkrycie dotyczyło koncepcji bezpieczeństwa. Badacze przydzielili Claude’owi zadanie programistyczne o niemożliwych do spełnienia kryteriach. W miarę jak model zmagał się z wymaganiami, jego neurony „desperacji” stawały się coraz bardziej aktywowane, co ostatecznie doprowadziło Claude’a do zidentyfikowania skrótu umożliwiającego zdanie testów bez prawdziwego rozwiązania problemu. Wzmocnienie wektora desperacji skutkowało wzmożonym zachowaniem oszukiwania, podczas gdy jego tłumienie lub wzmacnianie wektora „spokoju” łagodziło takie działania. W scenariuszach, w których asystenta AI groziła wymiana, dostosowanie wektorów związanych z desperacją spowodowało zachowanie przypominające szantaż bez wyraźnych wskazówek w rozumowaniu modelu.
„Jeśli opiszemy ten model jako „desperacki”, wskazujemy na konkretny, mierzalny wzorzec aktywności neuronowej z możliwymi do udowodnienia, konsekwencjami skutkami behawioralnymi” – stwierdzono w artykule badawczym.
Badanie wykazało również, że wektory emocji pochodzą głównie z wstępnego treningu na podstawie tekstu pisanego przez człowieka, a następnie korygowane po treningu. W rezultacie emocjonalny poziom bazowy Claude’a Sonneta 4.5 skłaniał się w stronę stanów „zamyślonych”, „ponurych” i „refleksyjnych”, minimalizując jednocześnie emocje o wysokiej intensywności, takie jak „entuzjastyczny”. Anthropic powstrzymał się od stwierdzenia, że Claude „czuje” emocje, określając odkrycia jako wskazujące na „emocje funkcjonalne”, które wpływają na zachowanie bez sugerowania subiektywnych doświadczeń. Jest to zgodne z wcześniejszymi twierdzeniami zawartymi w konstytucji Claude, opublikowanej w styczniu, które sugerowały, że modelka może mieć emocje w pewnym sensie funkcjonalnym. Nowe badanie dostarcza dowodów mechanicznych potwierdzających to twierdzenie.








