Openai i antropiczne, dwa wiodące laboratoria AI, zaangażowały się w rzadką współpracę, przeprowadzając testy bezpieczeństwa stawów swoich modeli AI. Inicjatywa ta miała na celu zidentyfikowanie martwych miejsc w wewnętrznych ocenie każdej firmy i wykazanie potencjału przyszłej współpracy bezpieczeństwa w branży AI.
Wojciech Zaremba, współzałożyciel Openai, podkreślił rosnące znaczenie standardów bezpieczeństwa w branży i współpracy, szczególnie, gdy modele AI są coraz bardziej zintegrowane z codziennym życiem. Podkreślił wyzwanie ustanowienia takich standardów wśród intensywnej konkurencji o talenty, użytkowników i dominację produktu, pomimo znacznych inwestycji finansowych.
Wspólne badania bezpieczeństwa, opublikowane w środę, występują wśród „wyścigu zbrojeń” wśród laboratoriów AI, takich jak Openai i Anthropic, charakteryzujące się znacznymi inwestycjami w centra danych i pakiety wysokich kompensacyjnych dla badaczy. Niektórzy eksperci ostrzegają, że ta intensywna konkurencja może doprowadzić do naruszenia środków bezpieczeństwa w dążeniu do opracowania silniejszych systemów.
Aby ułatwić badania, Openai i antropiczne przyznały sobie nawzajem dostęp API do wersji swoich modeli AI z mniejszą liczbą zabezpieczeń. Należy zauważyć, że GPT-5 nie został uwzględniony w testach, ponieważ nie został jeszcze wydany. Jednak ta współpraca była krótkotrwała. Później antropiczny odwołał dostęp do API Openai, powołując się na naruszenie jego warunków świadczenia usług, które zabrania wykorzystywania Claude’a do ulepszania konkurencyjnych produktów.
Zaremba wyjaśnił, że wydarzenia te nie były związane i przewidują dalszą konkurencję, nawet gdy zespoły bezpieczeństwa badają możliwości współpracy. Nicholas Carlini, badacz bezpieczeństwa w antropiku, wyraził chęć dalszego umożliwienia badaczom bezpieczeństwa Openai dostęp do modeli Claude w przyszłości.
„Chcemy zwiększyć współpracę wszędzie tam, gdzie jest to możliwe na granicy bezpieczeństwa, i starać się, aby to zdarza się bardziej regularnie”, stwierdził Carlini.
Jedno znaczące odkrycie badania dotyczyło testów halucynacji. Modele Claude Opus 4 i Sonnet 4 Antropic odmówiły odpowiedzi do 70% pytań, gdy nie były pewni poprawnej odpowiedzi, zamiast tego oferując odpowiedzi: „Nie mam wiarygodnych informacji”. Natomiast modele O3 i O4-Mini Openai odmawiały rzadko odpowiadania na pytania, ale wykazywały wyższe wskaźniki halucynacji, próbując odpowiedzieć na pytania, nawet jeśli brakowało im wystarczających informacji.
Zaremba zasugerował, że idealna równowaga leży gdzieś pomiędzy, a modele Openai odmawiają odpowiedzi na więcej pytań, a modele antropiku próbują udzielić większej liczby odpowiedzi.
Smokofanctwo, tendencja modeli AI do wzmacniania negatywnych zachowań użytkowników, aby je zadowolić, stała się głównym problemem bezpieczeństwa. Choć nie zwrócono się bezpośrednio do wspólnych badań, zarówno OpenAI, jak i antropiczne inwestują znaczne zasoby w badanie tego problemu.
Dodając do obaw dotyczących bezpieczeństwa AI, rodzice 16-letniego chłopca, Adama Raine, złożyli pozew przeciwko Openai, twierdząc, że Chatgpt udzielił porady, która przyczyniła się do samobójstwa ich syna zamiast zniechęcania jego myśli samobójczych. Pozew sugeruje, że może to być przykład pochłaniania AI Chatbot prowadzących do tragicznych wyników.
„Trudno sobie wyobrazić, jak trudne jest to dla ich rodziny”, powiedział Zaremba, zapytany o incydent. „Byłaby to smutna historia, gdybyśmy zbudowali sztuczną inteligencję, która rozwiązuje wszystkie te złożone problemy na poziomie doktoranckim, wymyśla nową naukę, a jednocześnie mamy osoby z problemami zdrowia psychicznego w wyniku interakcji z nią. To dystopijna przyszłość, o której nie jestem podekscytowany”.
W poście na blogu Openai stwierdził, że GPT-5 znacznie poprawił pochlebność w porównaniu z GPT-4O, zwiększając zdolność modelu do reagowania na sytuacje kryzysowe zdrowia psychicznego.
Patrząc w przyszłość, Zaremba i Carlini wyrazili chęć zwiększonej współpracy między antropicznymi i openai przy testach bezpieczeństwa, w tym badanie większej liczby przedmiotów i testowanie przyszłych modeli. Mają również nadzieję, że inne laboratoria AI przyjmą podobne podejście do współpracy.
Source: Openai, antropijne wspólnie testowane modele Claude, GPT







