Anthropic uruchamia nowy program mający na celu sfinansowanie opracowania nowych testów porównawczych służących do oceny wydajności i wpływu modeli sztucznej inteligencji, w tym modeli generatywnych, takich jak Claude.
Najnowszy ruch firmy zmieni sposób oceny modeli sztucznej inteligencji, mając na celu stworzenie punktów odniesienia, które dokładnie odzwierciedlają rzeczywiste zastosowania i zapewniają bezpieczeństwo sztucznej inteligencji.
Historyczny przegląd testów porównawczych AI
Testy porównawcze AI odgrywają ważną rolę w ocenie wydajności modelu. Tradycyjnie mierzą zadania takie jak rozpoznawanie obrazów i przetwarzanie języka naturalnego. Jednak bardziej kompleksowe i realistyczne testy porównawcze są potrzebne w przypadku bardziej zaawansowanych systemów, takich jak modele generatywne. Tradycyjne testy porównawcze nie oddają złożoności rzeczywistych aplikacji i nie odzwierciedlają wyzwań współczesnych technologii AI.
Dlaczego Anthropic podjął taką inicjatywę?
Anthropic ma na celu rozwiązanie niedociągnięć istniejących benchmarków poprzez finansowanie nowych i kompleksowych metod oceny. Skupiając się na bezpieczeństwie AI i wpływie na społeczeństwo, firma chce opracować kryteria mierzące zaawansowane możliwości. Program ma na celu stworzenie wystarczająco trudnych benchmarków, realistycznych i istotnych dla bezpieczeństwa.
Program będzie koncentrował się na trzech głównych obszarach: ocenach bezpieczeństwa AI, zaawansowanych możliwościach i punktach odniesienia bezpieczeństwa oraz infrastrukturze, narzędziach i metodach oceny. Zajmując się tymi obszarami, Anthropic ma na celu stworzenie skalowalnych i gotowych do użycia punktów odniesienia.
Kluczowe obszary zainteresowania programu
Jednym z głównych obszarów zainteresowania są oceny bezpieczeństwa AI. Oceny te mierzą zadania o istotnych implikacjach bezpieczeństwa, takie jak przeprowadzanie cyberataków. Innym obszarem zainteresowania są zaawansowane testy porównawcze możliwości i bezpieczeństwa, które mierzą wydajność w przypadku złożonych zadań wymagających wysokiego poziomu wiedzy specjalistycznej. Trzecim obszarem jest rozwój infrastruktury, narzędzi i metod tworzenia ocen.
Zasady skutecznej oceny
Skuteczne oceny powinny być rygorystyczne i znaczące. Oceny powinny być wystarczająco trudne i nie powinny być uwzględniane w danych szkoleniowych modelu AI. Wydajność i skalowalność to ważne zasady. Oceny powinny być opracowywane przy udziale ekspertów w danej dziedzinie. Dobra dokumentacja i powtarzalność są niezbędne dla przejrzystości i replikacji.
Proces składania wniosków i rozpatrywania wniosków
Anthropic ustanowił ustrukturyzowany proces składania i przeglądania wniosków w ramach nowych kryteriów. Zainteresowane organizacje mogą składać swoje wnioski poprzez formularz zgłoszeniowyFirma zapewnia wsparcie finansowe i oferuje opcje finansowania dostosowane do potrzeb projektu.
Wybrane propozycje będą miały okazję współpracować z ekspertami domenowymi Anthropic. Współpraca zapewni, że oceny będą opracowywane zgodnie z wysokimi standardami i będą dotyczyć najpilniejszych wyzwań w zakresie bezpieczeństwa i wydajności AI.
Inicjatywa Anthropic mająca na celu sfinansowanie następnej generacji benchmarków AI ma na celu ulepszenie oceny modeli AI. Poprzez zajęcie się ograniczeniami istniejących benchmarków program ma na celu stworzenie bardziej kompleksowych i znaczących ocen. Poprzez współpracę z organizacjami zewnętrznymi i wsparcie ekspertów dziedzinowych, Anthropic ma nadzieję podnieść poziom bezpieczeństwa AI i dodać cenne narzędzia do ekosystemu AI.
Źródło wyróżnionego obrazu: vecstock / Freepik
Source: Anthropic chce sfinansować nową i bardziej wszechstronną generację testów porównawczych AI