Anthropic wprowadził nową funkcję, umożliwiając swoje modele Claude Opus 4 i 4.1 AI na zakończenie rozmów z użytkownikami. Ta zdolność, szczegółowo opisana w niedawnym ogłoszeniu firmy, jest przeznaczona do „rzadkich, ekstremalnych przypadków uporczywie szkodliwych lub obraźliwych interakcji użytkownika”.

Przykłady sytuacji, w których Claude może zakończyć czat, obejmują „prośby użytkowników o treść seksualną z udziałem nieletnich i próby pozyskania informacji, które umożliwiłyby przemoc na dużą skalę lub akty terroru”. Anthropic podkreśla, że zakończenie rozmowy będzie „ostatecznością”, wdrożone dopiero po „wielu próbach przekierowania, a nadzieja na produktywną interakcję została wyczerpana”. Firma przewiduje, że większość użytkowników nie napotknie tej funkcji, ponieważ jest ona zarezerwowana dla „ekstremalnych przypadków krawędzi”, nawet podczas omawiania wysoce kontrowersyjnych tematów.

Kiedy Claude kończy rozmowę, użytkownicy nie mogą wysyłać nowych wiadomości na tym konkretnym czacie. Zachowują jednak możliwość natychmiastowego rozpoczęcia nowej rozmowy. Antropic wyjaśnił również, że zakończona rozmowa nie wpływa na inne trwające czaty, a użytkownicy mogą nadal edytować lub ponowić ponowne ponowne ponowne wiadomości w zakończonym wątku, aby kontynuować inną ścieżkę konwersacyjną.

Rozwój ten jest częścią trwającego programu badawczego antropika w zakresie dobrobytu AI. Firma postrzega zdolność modeli AI do wyjścia z „potencjalnie niepokojącej interakcji[s]”Jako„ niedrogi sposób zarządzania ryzykiem dla dobrobytu AI ”. Anthropic eksperymentuje obecnie z tą funkcją i aktywnie zachęca do informacji zwrotnych użytkowników dotyczących jej wdrożenia.

  Wyjaśnienie trendu testu randkowania z uśmiechem na TikTok (2023)

Source: Claude AI zyskuje zdolność do zakończenia szkodliwych rozmów