Zespół optymalizacji wydajności Anthropic, oceniający kandydatów do pracy od 2024 roku, poprawia według kierownika zespołu, Tristana Hume’a, to test rozmowy kwalifikacyjnej mający na celu przeciwdziałanie oszustwom wspomaganym przez sztuczną inteligencję. Firma Anthropic wdrożyła test, który można wykonać w domu dla kandydatów do pracy. Rosnące możliwości narzędzi do kodowania AI wymagały częstych przeglądów tego testu, którego celem było sprawdzenie umiejętności kandydatów. Tristan Hume, lider zespołu, szczegółowo opisał te wyzwania w środowym poście na blogu. Hume stwierdził: „Każdy nowy model Claude'a zmusił nas do przeprojektowania testu”. Zauważył, że „Przy tym samym limicie czasowym Claude Opus 4 uzyskał lepsze wyniki niż większość kandydatów będących ludźmi”. Następnie „Claude Opus 4.5 dorównał nawet tym”, odnosząc się do najsilniejszych ludzkich kandydatów. Rozwój ten spowodował istotny problem związany z oceną kandydatów. Brak osobistego nadzoru uniemożliwił zapobieżenie wykorzystaniu sztucznej inteligencji podczas testu. Hume wyjaśnił: „W ramach ograniczeń testu na miejscu nie mieliśmy już możliwości rozróżnienia między wynikami naszych najlepszych kandydatów a naszym najbardziej zdolnym modelem”. Rozpowszechnianie się oszustw związanych ze sztuczną inteligencją, zaobserwowane już w instytucjach edukacyjnych na całym świecie, ma teraz wpływ na laboratoria sztucznej inteligencji. Anthropic dysponuje jednak odrębnymi zasobami, aby rozwiązać ten konkretny problem. Ostatecznie Hume opracował nowy test. Ta poprawiona ocena w mniejszym stopniu skupia się na optymalizacji sprzętu, co czyni ją wyzwaniem dla obecnych narzędzi sztucznej inteligencji. W ramach swojego wpisu udostępnił oryginalny test, zapraszając czytelników do zaproponowania alternatywnych rozwiązań. W poście napisano: „Jeśli potrafisz ulepszyć Opus 4.5, chętnie się z tobą skontaktujemy”.
Source: Anthropic przeprojektowuje testy rekrutacyjne po Claude 4.5 "asy" wywiad z człowiekiem