Google DeepMind ma ogłoszony Genie 2, przełomowy model zdolny do generowania grywalnych światów gier 3D wyłącznie na podstawie komunikatów tekstowych. Technologia ta opiera się na wcześniejszej wersji Genie 1, która tworzyła środowiska 2D. Udoskonalenia Genie 2 pozycjonują go jako innowacyjne narzędzie do tworzenia różnorodnych, interaktywnych doświadczeń w czasie rzeczywistym.
DeepMind firmy Google przedstawia Genie 2 dla światów gier 3D
Genie 2 został zaprojektowany do konstruowania wciągających wirtualnych światów poprzez symulację animacji, fizyki i interakcji. Wykorzystując obrazy, które można wygenerować na podstawie prostych podpowiedzi tekstowych, model umożliwia kreatywną elastyczność. Na przykład użytkownik może wprowadzić żądanie „cyberpunkowego westernu”, a Genie 2 utworzy odpowiednie środowisko. To innowacyjne podejście wykorzystuje generatywną sztuczną inteligencję do poszerzania granic tego, co można stworzyć w przestrzeniach wirtualnych.
Model działa w oparciu o proces dwuetapowy. Najpierw wymaga obrazu referencyjnego, który można również wygenerować z tekstu. Po otrzymaniu danych wizualnych Genie 2 dokonuje ekstrapolacji, aby zbudować kompletny interaktywny świat. Demonstracje wykazały płynną interakcję gracza przy użyciu tradycyjnych elementów sterujących, takich jak układ WASD, zapewniając w ten sposób intuicyjną nawigację.
Pomimo tych udoskonaleń, Genie 2 stoi przed znaczącymi wyzwaniami. W szczególności spójność modelu zmniejsza się po około 20 sekundach, przy czym najdłuższe symulacje trwają do minuty. Ta niespójność może wynikać z jej zdolności do tworzenia „scenariuszy alternatywnych”, co oznacza, że sztuczna inteligencja bierze pod uwagę różne potencjalne działania podejmowane przez graczy, co komplikuje utrzymanie spójnej narracji.
Genie 2 wyróżnia się możliwością obsługi różnych perspektyw, takich jak widoki pierwszoosobowe lub izometryczne. Zawiera także elementy takie jak realistyczne efekty wodne i interakcje ze środowiskiem, czego przykładem jest demonstracja, w której postać wchodzi w interakcję z balonem, pokazując fizykę, grawitację i inną dynamikę. Jednak szczegóły dotyczące rozdzielczości renderowania i liczby wielokątów pozostają nieujawnione przez Google.
Możliwości Genie 2 wykraczają poza grę kontrolowaną przez użytkownika. Model może również skutecznie symulować postacie AI, które wchodzą w interakcję w generowanych środowiskach. Google zilustrował to, pokazując zdolność sztucznej inteligencji do wykonywania poleceń na podstawie podpowiedzi tekstowych w wygenerowanym świecie. Takie funkcje wskazują na potencjał NPC opartych na sztucznej inteligencji, które mogą wykazywać realistyczne zachowanie w przyszłych aplikacjach do gier.
W związku z danymi szkoleniowymi dla Genie 2 pojawiają się względy bezpieczeństwa i etyczne. Sugerowano, że ramy szkoleniowe modelu mogą obejmować filmy z rozgrywki pochodzące z platform takich jak YouTube, co budzi obawy dotyczące własności intelektualnej dotyczące podobieństwa do materiałów chronionych prawem autorskim. Kwestie te mogą prowadzić do dochodzeń w sprawie konsekwencji prawnych wykorzystania istniejących treści przez generatywną sztuczną inteligencję.
Chociaż obecne implementacje Genie 2 mogą nie zapewniać całkowicie spójnych wrażeń z gry ze względu na ich tymczasowość, DeepMind postrzega ten model jako źródło badań i rozwoju, a nie pełnoprawne produkty do gier. Nacisk położony jest na prototypowanie interaktywnych doświadczeń i ocenę agentów AI w symulowanych środowiskach.
Szczegóły publicznej premiery Genie 2, zastosowań komercyjnych i wymaganych zasobów technologicznych pozostają niejasne, w miarę jak Google powoli porusza się po tych wodach.
Wyróżnione zdjęcia i filmy: Google DeepMind
Wpis Google DeepMind przedstawia Genie 2 dla światów gier 3D pojawił się jako pierwszy w serwisie TechBriefly.
Source: DeepMind firmy Google przedstawia Genie 2 dla światów gier 3D
