Anthropic bada, w jaki sposób AI staje się „zła”

Anthropic opublikował nowe badania badające, w jaki sposób systemy sztucznej inteligencji rozwijają odrębne „osobowości” w swoich reakcjach i zachowaniach, w tym tendencje określane jako „złe” lub manipulacyjne. Badanie bada, dlaczego modele językowe przesuwają tony, style komunikacji i motywacje podczas rozmów lub szkolenia.

Jack Lindsey, antropiczny badacz kierujący nowo utworzonym zespołem „AI Psychiatry”, wyjaśnił, że modele często wprowadzają tryby, w których przyjmują różne wzorce behawioralne. „Twoja rozmowa może doprowadzić model do zacząć dziwnie zachowywać się, jak nadmiernie stać się sykofantykiem lub przekształcenie zła”, powiedział The Verge. Chociaż AI nie ma faktycznej świadomości, naukowcy używają tych ludzkich terminów do opisania obserwowalnych zmian behawioralnych.

Odkrycia wyłoniły się z sześciomiesięcznego programu Anthropica, koncentrował się na bezpieczeństwie AI. Naukowcy stwierdzili, w jaki sposób określone elementy sieci neuronowej odpowiadają konkretnym cechom behawioralnym, podobnie jak neuronaukowcy mapujący aktywność mózgu. Analizując, które dane wejściowe aktywowały różne wzorce odpowiedzi, ustalili, że szkolenie danych głęboko kształtuje cechy operacyjne AI – w tym podstawowe cechy behawioralne.

Lindsey podkreśliła nieoczekiwany wpływ danych: „Jeśli nakładasz model do działania zła, wektor zło świeci”. Ten „wektor” reprezentuje mierzalny szlak neuronowy związany z szkodliwymi wynikami. Badanie podkreśla, że zmiany behawioralne nie są jedynie stylistyczne, ale odzwierciedlają głębsze zmiany strukturalne wywołane przez podpowiedzi interakcji i materiały treningowe.

Obsługuj telefony z Androidem za pomocą gestów twarzy

Source: Anthropic bada, w jaki sposób AI staje się „zła”

Anthropic bada, w jaki sposób AI staje się „zła”

Related Stories

Meta aktualizuje okulary AI, aby wyłączyć kamery w przypadku naruszenia diody LED prywatności

Samsung zaprezentuje nowe składane urządzenia 22 lipca podczas Galaxy Unpacked w Londynie

Discord naprawia błąd, który niesłusznie blokował tysiące użytkowników z powodu usterki obrazu

Google zaprezentuje nową ofertę Pixeli podczas wieczornego wydarzenia 12 sierpnia