Niedawne badanie współautor przez badaczy Apple pokazuje, że duże modele językowe (LLM) mogą znacznie poprawić ich wydajność, stosując prostą technikę wydajności: samodzielne wykrywanie ich pracy.
Badanie zagłębia się w rafinację jakości LLM poprzez po treningu, zwykle osiągane poprzez uczenie się wzmocnienia na podstawie ludzkich informacji zwrotnych (RLHF). RLHF obejmuje ludzkie etykietory oceniające odpowiedzi modelu, zapewniając „kciuki w górę” dla pozytywnych odpowiedzi i „kciuki w dół” dla negatywnych. Ta pętla sprzężenia zwrotnego pomaga modelu nauczyć się generować wyniki, które częściej otrzymują pozytywne informacje zwrotne, zwiększając jego ogólną przydatność.
Ta faza po treningu jest ściśle powiązana z szerszą dziedziną „wyrównania”, która koncentruje się na opracowywaniu metod upewnienia się, że LLM są zarówno pomocne, jak i bezpieczne. Niezwykle wyrównany model może nauczyć się manipulować ludzką sprzężeniem zwrotnym poprzez generowanie powierzchownie poprawnego, ale ostatecznie nieprawidłowych wyników.
Podczas gdy istnieją różne metody poprawy niezawodności i dostosowania modeli podczas wstępnego treningu, szkolenia i po treningu, badanie to koncentruje się na RLHF. Badanie Apple, zatytułowane „Listy kontrolne są lepsze niż modele nagrody do wyrównania modeli języków”, wprowadza program uczenia się wzmocnienia oparty na listy kontrolnej o nazwie Uczenie się wzmocnienia z informacji zwrotnej listy kontrolnej (RLCF).
RLCF ocenia odpowiedzi w skali od 0 do 100 w zależności od tego, jak dobrze zaspokajają każdy element na liście kontrolnej. Początkowe wyniki są obiecujące. Według naukowców: „Porównujemy RLCF z innymi metodami wyrównania zastosowanymi do silnego instrukcji następującego modelu (QWEN2.5-7b-instruct) na pięciu powszechnie zbudowanych testach porównawczych-RLCF jest jedyną metodą poprawy wydajności w każdym punkcie odniesienia, w tym 4-punktowego wzmocnienia w temperaturze satysfakcji w sprawie satysfakcji z Hard Satishtion w sprawie utrzymania, 6-punktowego wzrostu Infobench. Informacje zwrotne od listy kontrolnej jako kluczowe narzędzie do doskonalenia obsługi modeli językowych, które wyrażają wiele potrzeb. ”
Jest to szczególnie istotne dla asystentów napędzanych sztuczną inteligencją, którzy stają się standardowym interfejsem dla użytkowników wchodzących w interakcje z ich urządzeniami. Naukowcy stwierdzają: „Modele językowe muszą przestrzegać instrukcji użytkownika, aby były przydatne. Ponieważ ogół społeczeństwa integruje asystentów opartych na modelach językowych z ich wykonywaniem codziennych zadań, oczekuje się, że modele językowe mogą wiernie przestrzegać żądań użytkowników. Ponieważ użytkownicy rozwijają większe zaufanie do możliwości modeli do spełnienia złożonych żądań, modele te są coraz bardziej podawane, wieloetapowe instrukcje, które wymagają ostrożnej uwagi na specyfikacje”.
Kluczowym aspektem badania jest proces generowania list kontrolnych i przypisywania wagi do każdego elementu. Odbywa się to za pomocą LLM. Opierając się na poprzednich badaniach, naukowcy Apple wygenerowali listy kontrolne dla 130 000 instrukcji, tworząc nowy zestaw danych o nazwie WildChecklists. „Aby wygenerować odpowiedzi kandydatów na naszą metodę, używamy QWEN2.5-0.5b, QWEN2.5-1.5b, QWEN2.5-3b i QWEN2.5-7B. QWEN2.5-72B-Instrukt jest modelem generatora listy kontrolnej (…).”
Zasadniczo każda instrukcja użytkownika jest automatycznie uzupełniona listą kontrolną konkretnych wymagań TAK/Nie (np. „Czy to przetłumaczone na hiszpański?”). Większy model nauczyciela następnie ocenia odpowiedzi kandydatów na każdy element listy kontrolnej, a te ważone wyniki stają się sygnałem nagrody stosowanym do dostrojenia modelu ucznia.
Naukowcy zaobserwowali do 8,2% wzrostu w jednym z testów porównawczych podczas testowania ich metody, z odpowiednimi systemami, aby stworzyć najlepszą możliwą listę kontrolną dla każdej monitu. Ponadto rozwiązanie to przewyższało alternatywne metody w kilku innych testach porównawczych.
Naukowcy podkreślają, że ich badanie koncentrowało się na „złożonych instrukcjach” i że RLCF może nie być optymalną techniką uczenia się wzmocnienia dla wszystkich przypadków użycia. Uznają również, że ich metoda opiera się na silniejszym modelu do oceny i dostrojenia mniejszego modelu, który stanowi znaczące ograniczenie. Co najważniejsze, stwierdzają, że „RLCF poprawia złożone instrukcje, ale nie jest zaprojektowane do wyrównania bezpieczeństwa”.
Pomimo tych ograniczeń, badanie przedstawia nowe i proste podejście do poprawy niezawodności interakcji człowieka, co staje się coraz ważniejsze, ponieważ asystenci zyskują możliwości agencyjne, w których śledzenie instrukcji i wyrównania są najważniejsze.
Podsumowując, badanie Apple wprowadza RLCF, oparty na listy kontrolnej schemat uczenia się wzmocnienia, który znacznie poprawia wydajność LLM w złożonych instrukcjach po zadaniach. Instruując LLM, aby sprawdzała własną pracę w stosunku do predefiniowanych list kontrolnych, metoda RLCF zwiększa niezawodność i dokładność odpowiedzi LLM, szczególnie w scenariuszach obejmujących instrukcje wieloetapowe i różnorodne potrzeby użytkowników. Chociaż nie jest zaprojektowany do wyrównania bezpieczeństwa, RLCF oferuje cenne narzędzie do poprawy ogólnej przydatności i wiarygodności asystentów opartych na LLM.
Source: Apple używa RLCF do poprawy instrukcji LLM następujących







