Anthropic opublikował nowe badania badające, w jaki sposób systemy sztucznej inteligencji rozwijają odrębne „osobowości” w swoich reakcjach i zachowaniach, w tym tendencje określane jako „złe” lub manipulacyjne. Badanie bada, dlaczego modele językowe przesuwają tony, style komunikacji i motywacje podczas rozmów lub szkolenia.
Jack Lindsey, antropiczny badacz kierujący nowo utworzonym zespołem „AI Psychiatry”, wyjaśnił, że modele często wprowadzają tryby, w których przyjmują różne wzorce behawioralne. „Twoja rozmowa może doprowadzić model do zacząć dziwnie zachowywać się, jak nadmiernie stać się sykofantykiem lub przekształcenie zła”, powiedział The Verge. Chociaż AI nie ma faktycznej świadomości, naukowcy używają tych ludzkich terminów do opisania obserwowalnych zmian behawioralnych.
Odkrycia wyłoniły się z sześciomiesięcznego programu Anthropica, koncentrował się na bezpieczeństwie AI. Naukowcy stwierdzili, w jaki sposób określone elementy sieci neuronowej odpowiadają konkretnym cechom behawioralnym, podobnie jak neuronaukowcy mapujący aktywność mózgu. Analizując, które dane wejściowe aktywowały różne wzorce odpowiedzi, ustalili, że szkolenie danych głęboko kształtuje cechy operacyjne AI – w tym podstawowe cechy behawioralne.
Lindsey podkreśliła nieoczekiwany wpływ danych: „Jeśli nakładasz model do działania zła, wektor zło świeci”. Ten „wektor” reprezentuje mierzalny szlak neuronowy związany z szkodliwymi wynikami. Badanie podkreśla, że zmiany behawioralne nie są jedynie stylistyczne, ale odzwierciedlają głębsze zmiany strukturalne wywołane przez podpowiedzi interakcji i materiały treningowe.








