Anthropic przeprasza za potajemne ograniczanie Claude Fable 5 ukrytymi ograniczeniami

Anthropic przeprosił za potajemne ograniczanie swojego modelu sztucznej inteligencji, Claude Fable 5, za pomocą ukrytych barier ochronnych, które utrudniają rozwój badaczom i konkurentom. Firma oświadczyła, że poprawi przejrzystość w zakresie stosowania tych ograniczeń, nawet jeśli doprowadzi to do odrzucenia przez Fable większej liczby zapytań.

Fable to pierwszy szeroko dostępny model systemów sztucznej inteligencji klasy Mythos firmy Anthropic, które według firmy są zbyt niebezpieczne, aby można je było udostępnić publicznie. Został uruchomiony z zabezpieczeniami, które uniemożliwiają mu odpowiadanie na niektóre zapytania „wysokiego ryzyka”.

Jednym z obszarów ograniczeń jest destylacja, metoda uczenia mniejszych modeli przy użyciu wyników większych. Na karcie systemowej Fable firma Anthropic wskazała, że zmieni i pogorszy odpowiedzi na zapytania postrzegane jako próby destylacji, nie informując użytkowników o tych zmianach.

Teraz zapytania podejrzane o próby destylacji będą domyślnie dotyczyć Claude Opus 4.8, wcześniejszego flagowego modelu firmy, a użytkownicy będą otrzymywać powiadomienia za każdym razem, gdy to nastąpi. To rozwiązanie awaryjne dotyczy również innych dziedzin wysokiego ryzyka, takich jak biologia, chemia i cyberbezpieczeństwo, chyba że te zapytania zostaną całkowicie zablokowane ze względu na szersze przepisy bezpieczeństwa dotyczące takich tematów, jak narkotyki i broń.

Qwen3.6-Plus jest przeznaczony do kodowania i multimodalnych zadań biznesowych

Firma przyznała, że zastosowane przez nią środki bezpieczeństwa nieumyślnie sprawiły, że z powodu nadmiernych ograniczeń Fable stał się prawie bezużyteczny w przypadku podstawowych zapytań z dziedzin takich jak biologia. Anthropic przyznała, że stosowanie niewidzialnych zabezpieczeń było błędem, podkreślając, że przejrzystość środków bezpieczeństwa jest kluczowa.

Decyzja firmy o ukryciu ograniczeń spotkała się ze znacznym sprzeciwem społeczności badawczej zajmującej się sztuczną inteligencją, która argumentowała, że ogranicza to możliwości modelu zarówno dla oceniających, jak i konkurentów. Anthropic stwierdziła, że wykorzystywanie Claude do tworzenia konkurencyjnych modeli narusza Warunki świadczenia usług, po tym jak wcześniej oskarżyła rywali, w tym DeepSeek, o destylację jej modeli na skalę przemysłową.

„Widoczne zabezpieczenia można zbadać, dlatego muszą być solidne, a ich prawidłowe funkcjonowanie wymaga czasu” – napisała Anthropic. “Niewidzialne zabezpieczenia można zastosować w bardziej zawężony sposób, co umożliwi nam szybką wysyłkę z bardzo małą liczbą fałszywych alarmów. Z tego powodu zdecydowaliśmy się na niewidoczne zabezpieczenia – i to był zły kompromis. Powinieneś mieć wgląd w stosowane przez nas zabezpieczenia i dlaczego. Przykro nam, że nie udało nam się zachować właściwej równowagi “, dodała firma.

Instagram i Facebook pokażą rodzicom, o co nastolatki proszą sztuczną inteligencję

Autor wyróżnionego obrazu

Anthropic przeprasza za potajemne ograniczanie Claude Fable 5 ukrytymi ograniczeniami

Related Stories

Apple wprowadza bardziej osobistą kontrolę mowy Siri do wersji beta 3

Badanie antropiczne wykazało, że modele Claude’a tworzą wewnętrzną przestrzeń roboczą przypominającą świadomość

Apple aktywuje Siri AI na Apple Watch w systemie watchOS 27 beta 3

Midjourney namawia Disneya i inne firmy do ujawnienia w procesie sądowym wewnętrznego wykorzystania sztucznej inteligencji