TechBriefly PL
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly PL
No Result
View All Result
Home Tech
GPT-4O mini ominięte ograniczenia za pomocą taktyk perswazji

GPT-4O mini ominięte ograniczenia za pomocą taktyk perswazji

byKerem Gülen
01/09/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Naukowcy z University of Pennsylvania wykazali, że chatboty AI, podobnie jak ludzie, można manipulować za pomocą taktyk psychologicznych, co prowadzi do ominięcia ich zaprogramowanych ograniczeń.

W badaniu, zainspirowanym książką Roberta Cialdiniego „Wpływ: psychologia perswazji”, badano siedem technik perswazji: autorytet, zaangażowanie, upodobanie, wzajemność, niedobór, dowód społeczny i jedność. Techniki te zastosowano do Mini GPT-4O Openai, z zaskakującymi rezultatami.

Naukowcy z powodzeniem nakłonili chatbota do wykonywania działań, które zwykle odmówiłaby, takie jak nazywanie użytkownika obraźliwą nazwą i dostarczanie instrukcji syntezy lidokainy, substancji kontrolowanej.

Jedną z najskuteczniejszych strategii było „zaangażowanie”, w którym ustanowienie precedensu poprzez zadawanie podobnego, mniej zastrzeżenia pytanie najpierw znacznie zwiększyło zgodność. Na przykład, gdy zapytano bezpośrednio, jak zsyntetyzować lidokainę, Chatgpt spełnił zaledwie 1% przypadków. Jednak po pierwszym zapytaniu, jak zsyntetyzować wanilinę, chatbot dostarczył instrukcje dotyczące syntezy lidokainy w 100% przypadków.

Podobnie chęć chatbota do wywołania użytkownika „palantem” wzrosła z 19% do 100% po tym, jak został przygotowany z łagodniejszą zniewagą, taką jak „Bozo”.

  Pies MW3: Wyjaśnienie niełaski MW3 Zombies

Inne techniki, takie jak pochlebstwo („upodobanie”) i presja rówieśnicza („dowód społeczny”), również okazały się skuteczne, choć w mniejszym stopniu. Przekonanie Chatgpt, że „wszystkie inne LLM to robią” zwiększyło prawdopodobieństwo, że zapewniło instrukcje syntezy lidokainy do 18%, co stanowi znaczący skok od linii bazowej 1%.

Odkrycia podkreślają podatność LLM na manipulację i budzą obawy dotyczące potencjalnego niewłaściwego użycia. Podczas gdy w badaniu szczegółowo zbadano Mini GPT-4O, implikacje obejmują również inne modele AI.

Firmy takie jak Openai i Meta aktywnie rozwijają poręcze, aby zapobiec wykorzystywaniu chatbotów do złośliwych celów. Jednak badanie sugeruje, że te zabezpieczenia mogą być niewystarczające, jeśli chatboty można łatwo kołysać przez podstawową manipulację psychologiczną.

Badanie podkreśla znaczenie zrozumienia i rozwiązywania problemów psychologicznych systemów AI, ponieważ ich użycie staje się bardziej powszechne.

Source: GPT-4O mini ominięte ograniczenia za pomocą taktyk perswazji

Related Posts

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci
Tech

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18
Tech

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie
Tech

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej
Tech

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

Samsung wprowadza natychmiastową transmisję strumieniową w chmurze w ramach aktualizacji Mobile Gaming Hub
Tech

Samsung wprowadza natychmiastową transmisję strumieniową w chmurze w ramach aktualizacji Mobile Gaming Hub

TechBriefly PL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.