Badacze Apple współautor nowego badania wykazujące znaczącą poprawę wydajności w dużym modelu języka otwartego źródła (LLM), stosując prostą technikę wydajności: instruowanie LLM do sprawdzenia własnej pracy za pomocą list kontrolnych.
Badanie zagłębia się w sferę udoskonalania LLM, która zwykle obejmuje proces po szkoleniu znany jako uczenie się wzmocnienia na podstawie informacji zwrotnych ludzkich (RLHF). RLHF opiera się na ludzkich etykietarach, które przekazują informacje zwrotne, takie jak kciuki w górę lub kciuki w dół, w celu oceny odpowiedzi modelu. Ta informacja zwrotna pomaga LLM dowiedzieć się, które odpowiedzi są uważane za bardziej pożądane, zwiększając w ten sposób jego ogólną przydatność.
Szersze pole „wyrównania” odgrywa kluczową rolę w tej fazie po treningu, koncentrując się na zapewnieniu, że LLM zachowują się w pomocny i bezpieczny sposób. Niezwykle wyrównany model może potencjalnie nauczyć się manipulować ludzkimi sprzężeniem zwrotnym poprzez generowanie wyników, które wydają się prawidłowe powierzchowne, ale skutecznie nie zajmują się zadaniem podstawowym.
Podczas gdy istnieją różne metody poprawy niezawodności i wyrównania modelu na etapach wstępnego treningu, szkolenia i po treningu, badanie to koncentruje się szczególnie na RLHF.
Zatytułowane „Listy kontrolne są lepsze niż modele nagrody do wyrównania modeli językowych”, badanie Apple wprowadza oparty na listy kontrolnej schemat uczenia się wzmocnienia o nazwie Uczenie się wzmocnienia z informacji zwrotnej listy kontrolnej (RLCF). Takie podejście ocenia odpowiedzi w skali od 0 do 100, w oparciu o to, jak dobrze zaspokajają każdy element na liście kontrolnej. Początkowe wyniki wskazują na obiecujące wyniki.
Według naukowców: „Porównujemy RLCF z innymi metodami wyrównania zastosowanymi do silnego instrukcji następującego modelu (QWEN2.5-7b-instruct) na pięciu powszechnie zbudowanych testach porównawczych-RLCF jest jedyną metodą poprawy wydajności w każdym punkcie odniesienia, w tym 4-punktowego wzmocnienia w temperaturze satysfakcji w sprawie satysfakcji z Hard Satishtion w sprawie utrzymania, 6-punktowego wzrostu Infobench. Informacje zwrotne od listy kontrolnej jako kluczowe narzędzie do doskonalenia obsługi modeli językowych, które wyrażają wiele potrzeb. ”
Odkrycia badania mają szczególne znaczenie dla asystentów napędzanych sztuczną inteligencją, którzy mają stać się głównym interfejsem, za pomocą którego miliony użytkowników wchodzą w interakcje z ich urządzeniami. Naukowcy podkreślają, że „modele językowe muszą przestrzegać instrukcji użytkownika, aby były przydatne. Ponieważ ogół społeczeństwa integruje asystentów opartych na modelu języka z ich wykonywaniem codziennych zadań, oczekuje się, że modele językowe mogą wiernie przestrzegać żądań użytkowników. Ponieważ użytkownicy rozwijają większe zaufanie do zdolności modeli do spełnienia złożonych żądań, modele te są coraz bardziej podawane bogate instrukcje wieloczęściowe, które wymagają starannej uwagi na specyfikacje”.
Kluczowym aspektem badania jest metoda stosowana do generowania list kontrolnych i przypisywania wagi do każdego elementu. Proces ten jest ułatwiony przez LLM. Opierając się na poprzednich badaniach, naukowcy Apple wygenerowali „listy kontrolne dla 130 000 instrukcji (…) Aby utworzyć nowy zestaw danych, listy dzikich. Aby wygenerować odpowiedzi kandydujących na naszą metodę, używamy QWEN2.5-0.5b, QWEN2.5-1.5b, QWEN2.5-3b i QWen2.5-7b. QWEN2.5-72b-Instruct Is the TOMOTURY.
Zasadniczo naukowcy zwiększają każdą instrukcję użytkownika za pomocą listy kontrolnej określonych wymagań TAK/Nie. Na przykład element listy kontrolnej może zapytać: „Czy to przetłumaczone na hiszpański?” Większy model nauczyciela następnie ocenia odpowiedzi kandydatów na każdy element listy kontrolnej, a te ważone wyniki służą jako sygnał nagrody do dostrajania modelu ucznia.
Wyniki badania pokazują, że przy odpowiednich systemach do tworzenia zoptymalizowanych list kontrolnych dla każdej monitu, naukowcy zaobserwowali zyski do 8,2% w jednym z testów porównawczych zastosowanych do przetestowania metody. Ponadto rozwiązanie przewyższało alternatywne metody w kilku innych testach porównawczych.
Naukowcy wyjaśniają, że ich badanie koncentrowało się na „złożonych instrukcjach” i że RLCF może nie być najbardziej odpowiednią techniką uczenia się wzmocnienia dla wszystkich przypadków użycia. Uznają również, że ich metoda wykorzystuje silniejszy model do oceny i dostrojenia mniejszego modelu, który stanowi znaczące ograniczenie. Co najważniejsze, stwierdzają, że „RLCF poprawia złożone instrukcje, ale nie jest zaprojektowane do wyrównania bezpieczeństwa”.
Pomimo tych ograniczeń badanie przedstawia nowe i proste podejście do zwiększenia niezawodności w interakcji między ludźmi i asystentami opartymi na LLM. Jest to szczególnie ważne, ponieważ asystenci coraz częściej nabywają zdolności agencyjne, w których obserwowanie instrukcji i wyrównanie stają się najważniejsze.
Badanie podkreśla potencjał prostych technik wydajności, takich jak listy kontrolne, aby znacznie poprawić wydajność i niezawodność LLM, szczególnie w kontekście złożonych instrukcji i asystentów zasilanych AI.
Source: Apple poprawia wydajność LLM za pomocą list kontrolnych





