Naukowcy z MIT Csail opracowali pddl-instruct, ramy dostrajania instrukcji zaprojektowanych w celu poprawy możliwości planowania wieloetapowego modeli dużych języków (LLM). Metoda łączy logiczne rozumowanie przemyślenia z zewnętrznym walidatorem planu, aby zwiększyć generowanie logicznie ważnych planów nad prawdopodobnymi, ale nieprawidłowymi wynikami. Modele ratunkowe trenuje modele do rozpoznawania i wyjaśnienia, dlaczego plan kandydata nie powiódł się. Niepowodzenia te mogą obejmować niezadowolone warunki wstępne, niepoprawne efekty, naruszenia ramki lub niezaspokojony cel. Proces ten jest sparowany z logicznymi moniniami o łańcuchu, które prowadzą LLM do wykonywania wnioskowania krok po kroku nad przejściami stanu i działania. Powoduje to, że można prześledzić sekwencje stanu → Działanie → Stan, napisane jako ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩. W celu sprawdzania walidacji zewnętrznej instruktur PDDL integruje waliator Planu VAL, który sprawdza każdy etap wygenerowanego planu. Walidator zapewnia informację zwrotną, która jest albo binarna (ważna/nieprawidłowa) lub szczegółowa, ze szczegółowymi informacjami zwrotnymi powodującymi doskonałą wydajność. System wykorzystuje dwustopniowy proces optymalizacji. Pierwszy etap kara błędy w łańcuchach rozumowania, a drugi etap optymalizuje ostateczną dokładność planowania. System został oceniony przy użyciu Benchmark Planbench, który obejmuje domeny planowania, o których wiadomo, że rzucają wyzwanie LLM, takie jak BlocksWorld, Mystery BlocksWorld i Logistics. W domenie BlocksWorld dostrojony model LAMA-3-8B osiągnął 94% wskaźnik generowania ważnych planów. Poprzednie modele miały prawie zerową ważność w tajemniczym blokie, domenę, w której nazwy predykatu są zaciemnione, aby zapobiec dopasowaniu wzorców. Instrukt PDDL osiągnął do 64-krotnej poprawy w tej dziedzinie. W dziedzinie logistyki odnotowano również znaczące przyrosty wydajności. We wszystkich domenach testowych ramy dostarczały do 66% bezwzględnej poprawy w porównaniu z nieograniczonymi modelami wyjściowymi. Naukowcy zauważyli również, że wydajność poprawiła się przy dłuższych budżetach sprzężenia zwrotnego i bardziej szczegółowej wydajności z walidatorem. Obecna implementacja instruktury PDDL dotyczy klasycznych domen PDDL i zależy od VAL walidera jako zewnętrznego wyroczni. Wyniki pokazują metodę uziemienia rozumowania LLM w formalnej semantyce do stosowania w systemach agentów, które mogą obejmować weryfikator podczas planowania. Rozszerzenie ramy w celu obsługi długich, czasowych, liczbowych i wrażliwych na koszty zadania planowania pozostaje obszarem do dalszej pracy.
Source: MIT Csail zaprezentuje instruktury PDDL do planowania LLM





