W rzadkim przypadku współpracy AI rywalizuje Openai i Anthropic przeprowadzili oceny bezpieczeństwa swoich systemów AI, dzieląc wyniki ich analiz w szczegółowych raportach.
Antropic oceniał modele OpenAI, w tym O3, O4-Mini, GPT-4O i GPT-4.1, pod kątem takich cech, jak „pochlebca, informowanie, samozachowanie i wspieranie niewłaściwego użycia człowieka”, a także zdolności związane z podgrzewaniem oceny bezpieczeństwa AI i nadzoru. Ocena wykazała, że modele O3 i O4-Mini Openai zostały dostosowane do własnych modeli antropika. Jednak firma podniosła obawy dotyczące potencjalnego niewłaściwego użycia w modelach ogólnego zastosowania GPT-4O i GPT-4.1. Anthropic poinformował również, że wszystkie testowane modele, z wyjątkiem O3, wykazywały pewien stopień pochystaniny.
W szczególności testy Anthropica nie zawierały najnowszej wersji Openai, GPT-5, która ma funkcję „bezpiecznych ukończeń” zaprojektowaną w celu ochrony użytkowników przed potencjalnie niebezpiecznymi zapytaczami. Rozwój ten pojawia się, gdy Openai stoi przed pierwszym bezprawnym pozwem śmierci po tragicznym incydencie, w którym nastolatek omawiał plany samobójcze z Chatgpt przed odebraniem własnego życia.
I odwrotnie, Openai ocenił antropiczne modele hierarchii instrukcji, jailbreaking, halucynacje i schematy. Modele Claude zwykle działały dobrze w testach hierarchii instrukcji i wykazały wysoki wskaźnik odmowy w testach halucynacyjnych, co wskazuje na niższe prawdopodobieństwo zapewnienia potencjalnie nieprawidłowych odpowiedzi w niepewnych sytuacjach.
Współpraca jest szczególnie godna uwagi, biorąc pod uwagę, że Openai rzekomo naruszył Warunki świadczenia usług antropików, wykorzystując Claude w opracowywaniu nowych modeli GPT, co spowodowało, że antropiczny ograniczenie dostępu Openai do swoich narzędzi wcześniej w czerwcu. Ten incydent podkreśla rosnące znaczenie bezpieczeństwa AI, ponieważ krytycy i eksperci prawni opowiadają się za wytycznymi w celu ochrony użytkowników, zwłaszcza nieletnich, przed potencjalnymi szkodami.
Pełne raporty zawierają szczegóły techniczne dla osób ściśle po rozwoju sztucznej inteligencji.
Source: Openai, antropijne Udostępnij AI Wyniki oceny bezpieczeństwa








