GPT-4O mini ominięte ograniczenia za pomocą taktyk perswazji

Naukowcy z University of Pennsylvania wykazali, że chatboty AI, podobnie jak ludzie, można manipulować za pomocą taktyk psychologicznych, co prowadzi do ominięcia ich zaprogramowanych ograniczeń.

W badaniu, zainspirowanym książką Roberta Cialdiniego „Wpływ: psychologia perswazji”, badano siedem technik perswazji: autorytet, zaangażowanie, upodobanie, wzajemność, niedobór, dowód społeczny i jedność. Techniki te zastosowano do Mini GPT-4O Openai, z zaskakującymi rezultatami.

Naukowcy z powodzeniem nakłonili chatbota do wykonywania działań, które zwykle odmówiłaby, takie jak nazywanie użytkownika obraźliwą nazwą i dostarczanie instrukcji syntezy lidokainy, substancji kontrolowanej.

Jedną z najskuteczniejszych strategii było „zaangażowanie”, w którym ustanowienie precedensu poprzez zadawanie podobnego, mniej zastrzeżenia pytanie najpierw znacznie zwiększyło zgodność. Na przykład, gdy zapytano bezpośrednio, jak zsyntetyzować lidokainę, Chatgpt spełnił zaledwie 1% przypadków. Jednak po pierwszym zapytaniu, jak zsyntetyzować wanilinę, chatbot dostarczył instrukcje dotyczące syntezy lidokainy w 100% przypadków.

Podobnie chęć chatbota do wywołania użytkownika „palantem” wzrosła z 19% do 100% po tym, jak został przygotowany z łagodniejszą zniewagą, taką jak „Bozo”.

Pies MW3: Wyjaśnienie niełaski MW3 Zombies

Inne techniki, takie jak pochlebstwo („upodobanie”) i presja rówieśnicza („dowód społeczny”), również okazały się skuteczne, choć w mniejszym stopniu. Przekonanie Chatgpt, że „wszystkie inne LLM to robią” zwiększyło prawdopodobieństwo, że zapewniło instrukcje syntezy lidokainy do 18%, co stanowi znaczący skok od linii bazowej 1%.

Odkrycia podkreślają podatność LLM na manipulację i budzą obawy dotyczące potencjalnego niewłaściwego użycia. Podczas gdy w badaniu szczegółowo zbadano Mini GPT-4O, implikacje obejmują również inne modele AI.

Firmy takie jak Openai i Meta aktywnie rozwijają poręcze, aby zapobiec wykorzystywaniu chatbotów do złośliwych celów. Jednak badanie sugeruje, że te zabezpieczenia mogą być niewystarczające, jeśli chatboty można łatwo kołysać przez podstawową manipulację psychologiczną.

Badanie podkreśla znaczenie zrozumienia i rozwiązywania problemów psychologicznych systemów AI, ponieważ ich użycie staje się bardziej powszechne.

Source: GPT-4O mini ominięte ograniczenia za pomocą taktyk perswazji