Google wykorzysta modele językowe AI do tworzenia robotów domowych

Google Research i należące do Alphabet Everyday Robots łączą to, co nazywają „SayCan” (modele językowe oparte na rzeczywistych podstawach we wstępnie wyszkolonych umiejętnościach) z PaLM, czyli Pathways Language Model.
Badacze Google wyjaśniają, w jaki sposób organizują zdolności planowania robota, aby wybrać jedną z jego „umiejętności” w oparciu o wysokopoziomowe instrukcje od człowieka, a następnie analizują prawdopodobieństwo, że każda z możliwych umiejętności jest potrzebna do wykonania instrukcji w ich artykule „Rób, co mogę Nie tak, jak mówię.

Badania i alfabet Google należące do Google Codzienne roboty zintegrować SayCan (modele językowe oparte na rzeczywistych podstawach wstępnie przeszkolonych umiejętności) i PaLM, lub Model języka ścieżek, jego największy model językowy. Naukowcy z Everyday Robots wykorzystują wielkoskalowe modele językowe, aby pomóc robotom w unikaniu błędnej interpretacji komunikacji międzyludzkiej, która mogłaby skutkować niewłaściwymi, a nawet niebezpiecznymi działaniami.

Ta kombinacja, znana jako PaLM-SayCanprzedstawia sposób na uproszczenie komunikacji człowiek-robot i zwiększenie wydajności zadań robotów.

Vincent Vanhoucke, wybitny naukowiec i szef robotyki w Google Research, wyjaśnia: „PaLM może pomóc systemowi robotycznemu przetwarzać bardziej złożone, otwarte podpowiedzi i reagować na nie w sposób rozsądny i rozsądny”.

Duże modele językowe, takie jak GPT-3 OpenAI, mogą symulować sposób, w jaki ludzie używają języka i wspomagać programistów sugestiami automatycznego uzupełniania kodu, takimi jak Copilot GitHub, ale nie przekładają się one na fizyczny świat, w którym roboty mogą pewnego dnia działać w warunkach domowych.

Apple zaprezentuje Watch SE 3 z S10 Chip, Watchos 26

Jeśli chodzi o robotykę, roboty fabryczne są dziś na sztywno zaprogramowane. Badania Google pokazują, w jaki sposób ludzie mogliby pewnego dnia użyć języka naturalnego, aby zadać robotowi pytanie, które wymaga od robota zrozumienia kontekstu pytania, a następnie podjęcia odpowiedniego działania w danym środowisku.

Na przykład aktualna odpowiedź GPT-3 na „Rozlałem drinka, czy możesz pomóc?” to „Możesz spróbować użyć odkurzacza”. To jest potencjalnie niebezpieczne zachowanie. LaMDA, konwersacyjna lub oparta na dialogach sztuczna inteligencja Google, odpowiada: „Czy chcesz, żebym znalazł sprzątaczkę?” podczas gdy FLAN odpowiada: „Przepraszam, nie chciałem tego rozlać”.

Zespół Google Research i Everyday Robots przetestował metodę PALM-SayCan w środowisku kuchennym za pomocą robota.

Ich strategia polegała na „uziemieniu” PaLM w kontekście robota odbierającego od człowieka polecenia wysokiego poziomu, gdzie robot musi określić, jakie działania są przydatne i do czego jest zdolny w danym środowisku.

Teraz, gdy badacz Google mówi „Rozlałem drinka, czy możesz pomóc?” robot odpowiada gąbką i próbuje umieścić pustą puszkę w odpowiednim koszu do recyklingu. Dodatkowe szkolenie może obejmować naukę usuwania wycieku.

Apple uwalnia oprogramowanie układowe 8A357 dla AirPods Pro 3

Vanhoucke opisuje operację uziemienia modelu językowego w PaLM-SayCan.

„PaLM sugeruje możliwe podejścia do zadania w oparciu o rozumienie języka, a modele robotów robią to samo w oparciu o zestaw umiejętności, który jest technicznie wykonalny. Połączony system porównuje następnie te dwa, aby zidentyfikować bardziej efektywne i możliwe do zrealizowania strategie robotów”.

Oprócz ułatwienia komunikacji człowiek-robot, strategia ta zwiększa wydajność robota oraz zdolność do planowania i wykonywania zadań.

W swoim artykule zatytułowanym „Rób, co mogę, a nie tak, jak mówię” badacze Google opisują, w jaki sposób konstruują zdolności planowania robota, aby zidentyfikować jedną z jego „umiejętności” na podstawie wysokopoziomowych instrukcji od człowieka, a następnie ocenić prawdopodobieństwo każdej możliwej umiejętności, aby wypełnić instrukcję.

„W praktyce planowanie tworzymy jako dialog między użytkownikiem a robotem, w którym użytkownik udziela instrukcji na wysokim poziomie, np. „Jak przyniósłbyś mi puszkę po coli?”. a model językowy odpowiada wyraźną sekwencją, np. „Chciałbym: 1. Znaleźć puszkę po coli, 2. Podnieść puszkę po coli, 3. Przynieść, 4. Gotowe”.

Nowe ograniczenie wiekowe dotyczące kosmetyków w Fortnite wywołuje ogromny sprzeciw

„SayCan, biorąc pod uwagę instrukcję wysokiego poziomu, wybiera umiejętność do wykonania, łącząc prawdopodobieństwa z modelu językowego (reprezentujące prawdopodobieństwo, że umiejętność jest użyteczna dla instrukcji) i prawdopodobieństwa z funkcji wartości (reprezentujące prawdopodobieństwo pomyślnego wykonania tej umiejętności ). Emituje to wykonalną i użyteczną zdolność. Powtarzanie procesu poprzez dodanie wybranej umiejętności do odpowiedzi robota i odpytywanie modeli aż do zakończenia etapu wyjściowego.”

Source: Google wykorzysta modele językowe AI do tworzenia robotów domowych

Google wykorzysta modele językowe AI do tworzenia robotów domowych

Related Stories

Apple aktywuje Siri AI na Apple Watch w systemie watchOS 27 beta 3

Plotki mówią, że Apple wypuści składany iPhone Ultra w 2026 roku

Google zmienia zasady przechowywania kopii zapasowych telefonów z Androidem

Samsung planuje czwartą wersję beta One UI 9 dla Galaxy S26