Anthropic przeprosił za potajemne ograniczanie swojego modelu sztucznej inteligencji, Claude Fable 5, za pomocą ukrytych barier ochronnych, które utrudniają rozwój badaczom i konkurentom. Firma oświadczyła, że ​​poprawi przejrzystość w zakresie stosowania tych ograniczeń, nawet jeśli doprowadzi to do odrzucenia przez Fable większej liczby zapytań.

Fable to pierwszy szeroko dostępny model systemów sztucznej inteligencji klasy Mythos firmy Anthropic, które według firmy są zbyt niebezpieczne, aby można je było udostępnić publicznie. Został uruchomiony z zabezpieczeniami, które uniemożliwiają mu odpowiadanie na niektóre zapytania „wysokiego ryzyka”.

Jednym z obszarów ograniczeń jest destylacja, metoda uczenia mniejszych modeli przy użyciu wyników większych. Na karcie systemowej Fable firma Anthropic wskazała, że ​​zmieni i pogorszy odpowiedzi na zapytania postrzegane jako próby destylacji, nie informując użytkowników o tych zmianach.

Teraz zapytania podejrzane o próby destylacji będą domyślnie dotyczyć Claude Opus 4.8, wcześniejszego flagowego modelu firmy, a użytkownicy będą otrzymywać powiadomienia za każdym razem, gdy to nastąpi. To rozwiązanie awaryjne dotyczy również innych dziedzin wysokiego ryzyka, takich jak biologia, chemia i cyberbezpieczeństwo, chyba że te zapytania zostaną całkowicie zablokowane ze względu na szersze przepisy bezpieczeństwa dotyczące takich tematów, jak narkotyki i broń.

  Nemotron 3 Nano Omni pozwala agentom „widzieć i słyszeć” w czasie rzeczywistym

Firma przyznała, że ​​zastosowane przez nią środki bezpieczeństwa nieumyślnie sprawiły, że z powodu nadmiernych ograniczeń Fable stał się prawie bezużyteczny w przypadku podstawowych zapytań z dziedzin takich jak biologia. Anthropic przyznała, że ​​stosowanie niewidzialnych zabezpieczeń było błędem, podkreślając, że przejrzystość środków bezpieczeństwa jest kluczowa.

Decyzja firmy o ukryciu ograniczeń spotkała się ze znacznym sprzeciwem społeczności badawczej zajmującej się sztuczną inteligencją, która argumentowała, że ​​ogranicza to możliwości modelu zarówno dla oceniających, jak i konkurentów. Anthropic stwierdziła, że ​​wykorzystywanie Claude do tworzenia konkurencyjnych modeli narusza Warunki świadczenia usług, po tym jak wcześniej oskarżyła rywali, w tym DeepSeek, o destylację jej modeli na skalę przemysłową.

„Widoczne zabezpieczenia można zbadać, dlatego muszą być solidne, a ich prawidłowe funkcjonowanie wymaga czasu” – napisała Anthropic. “Niewidzialne zabezpieczenia można zastosować w bardziej zawężony sposób, co umożliwi nam szybką wysyłkę z bardzo małą liczbą fałszywych alarmów. Z tego powodu zdecydowaliśmy się na niewidoczne zabezpieczenia – i to był zły kompromis. Powinieneś mieć wgląd w stosowane przez nas zabezpieczenia i dlaczego. Przykro nam, że nie udało nam się zachować właściwej równowagi “, dodała firma.

  Urzędnicy wzywają Europę do zbudowania rywala dla Anthropic’s Mythos

Autor wyróżnionego obrazu