- Google Research i należące do Alphabet Everyday Robots łączą to, co nazywają „SayCan” (modele językowe oparte na rzeczywistych podstawach we wstępnie wyszkolonych umiejętnościach) z PaLM, czyli Pathways Language Model.
- Badacze Google wyjaśniają, w jaki sposób organizują zdolności planowania robota, aby wybrać jedną z jego „umiejętności” w oparciu o wysokopoziomowe instrukcje od człowieka, a następnie analizują prawdopodobieństwo, że każda z możliwych umiejętności jest potrzebna do wykonania instrukcji w ich artykule „Rób, co mogę Nie tak, jak mówię.
Badania i alfabet Google należące do Google Codzienne roboty zintegrować SayCan (modele językowe oparte na rzeczywistych podstawach wstępnie przeszkolonych umiejętności) i PaLM, lub Model języka ścieżek, jego największy model językowy. Naukowcy z Everyday Robots wykorzystują wielkoskalowe modele językowe, aby pomóc robotom w unikaniu błędnej interpretacji komunikacji międzyludzkiej, która mogłaby skutkować niewłaściwymi, a nawet niebezpiecznymi działaniami.
Ta kombinacja, znana jako PaLM-SayCanprzedstawia sposób na uproszczenie komunikacji człowiek-robot i zwiększenie wydajności zadań robotów.
Vincent Vanhoucke, wybitny naukowiec i szef robotyki w Google Research, wyjaśnia: „PaLM może pomóc systemowi robotycznemu przetwarzać bardziej złożone, otwarte podpowiedzi i reagować na nie w sposób rozsądny i rozsądny”.
Duże modele językowe, takie jak GPT-3 OpenAI, mogą symulować sposób, w jaki ludzie używają języka i wspomagać programistów sugestiami automatycznego uzupełniania kodu, takimi jak Copilot GitHub, ale nie przekładają się one na fizyczny świat, w którym roboty mogą pewnego dnia działać w warunkach domowych.
Jeśli chodzi o robotykę, roboty fabryczne są dziś na sztywno zaprogramowane. Badania Google pokazują, w jaki sposób ludzie mogliby pewnego dnia użyć języka naturalnego, aby zadać robotowi pytanie, które wymaga od robota zrozumienia kontekstu pytania, a następnie podjęcia odpowiedniego działania w danym środowisku.
Na przykład aktualna odpowiedź GPT-3 na „Rozlałem drinka, czy możesz pomóc?” to „Możesz spróbować użyć odkurzacza”. To jest potencjalnie niebezpieczne zachowanie. LaMDA, konwersacyjna lub oparta na dialogach sztuczna inteligencja Google, odpowiada: „Czy chcesz, żebym znalazł sprzątaczkę?” podczas gdy FLAN odpowiada: „Przepraszam, nie chciałem tego rozlać”.
Zespół Google Research i Everyday Robots przetestował metodę PALM-SayCan w środowisku kuchennym za pomocą robota.
Ich strategia polegała na „uziemieniu” PaLM w kontekście robota odbierającego od człowieka polecenia wysokiego poziomu, gdzie robot musi określić, jakie działania są przydatne i do czego jest zdolny w danym środowisku.
Teraz, gdy badacz Google mówi „Rozlałem drinka, czy możesz pomóc?” robot odpowiada gąbką i próbuje umieścić pustą puszkę w odpowiednim koszu do recyklingu. Dodatkowe szkolenie może obejmować naukę usuwania wycieku.
Vanhoucke opisuje operację uziemienia modelu językowego w PaLM-SayCan.
„PaLM sugeruje możliwe podejścia do zadania w oparciu o rozumienie języka, a modele robotów robią to samo w oparciu o zestaw umiejętności, który jest technicznie wykonalny. Połączony system porównuje następnie te dwa, aby zidentyfikować bardziej efektywne i możliwe do zrealizowania strategie robotów”.
Oprócz ułatwienia komunikacji człowiek-robot, strategia ta zwiększa wydajność robota oraz zdolność do planowania i wykonywania zadań.
W swoim artykule zatytułowanym „Rób, co mogę, a nie tak, jak mówię” badacze Google opisują, w jaki sposób konstruują zdolności planowania robota, aby zidentyfikować jedną z jego „umiejętności” na podstawie wysokopoziomowych instrukcji od człowieka, a następnie ocenić prawdopodobieństwo każdej możliwej umiejętności, aby wypełnić instrukcję.
„W praktyce planowanie tworzymy jako dialog między użytkownikiem a robotem, w którym użytkownik udziela instrukcji na wysokim poziomie, np. „Jak przyniósłbyś mi puszkę po coli?”. a model językowy odpowiada wyraźną sekwencją, np. „Chciałbym: 1. Znaleźć puszkę po coli, 2. Podnieść puszkę po coli, 3. Przynieść, 4. Gotowe”.
„SayCan, biorąc pod uwagę instrukcję wysokiego poziomu, wybiera umiejętność do wykonania, łącząc prawdopodobieństwa z modelu językowego (reprezentujące prawdopodobieństwo, że umiejętność jest użyteczna dla instrukcji) i prawdopodobieństwa z funkcji wartości (reprezentujące prawdopodobieństwo pomyślnego wykonania tej umiejętności ). Emituje to wykonalną i użyteczną zdolność. Powtarzanie procesu poprzez dodanie wybranej umiejętności do odpowiedzi robota i odpytywanie modeli aż do zakończenia etapu wyjściowego.”
Source: Google wykorzysta modele językowe AI do tworzenia robotów domowych