System sztucznej inteligencji znany jako Google Muse AI został dziś oficjalnie zaprezentowany. Opierając się na zastosowaniu dekodowania równoległego i małej, dyskretnej przestrzeni utajonej, nowy model transformatora tekstu na obraz ma być szybszy niż istniejące alternatywy. Twórcy Google Muse AI twierdzą, że ich twórczość potrafi generować zdjęcia na poziomie jakości porównywalnym z najlepszymi z najlepszych.
Prezentujemy Muzamodel przekształcania tekstu na obraz, który osiąga najnowocześniejszą wydajność generowania obrazu, a jednocześnie jest znacznie bardziej wydajny niż modele dyfuzyjne lub autoregresyjne.
Zespół sztucznej inteligencji Google Muse
Co to jest sztuczna inteligencja Google Muse?
Zespół twierdzi, że sztuczna inteligencja Google Muse stanowi duże ulepszenie w stosunku do poprzednich modeli przekształcania tekstu na obraz, takich jak Imagen i DALL-E 2. Muse wykorzystuje osadzanie tekstu w dużym modelu językowym do trenowania zadania modelowania zamaskowanego w dyskretnej przestrzeni tokenów (LLM ).
Muse potrafi rozpoznawać tokeny na obrazach, które zostały dowolnie zamaskowane. Ze względu na użycie dyskretnych tokenów i zmniejszone wymagania dotyczące rozmiaru próbki, Muse obiecuje pokonać modele dyfuzji w przestrzeni pikseli, takie jak Imagen i DALL-E 2. Model generuje darmową, pozbawioną masek edycję poprzez wielokrotne ponowne próbkowanie tokenów obrazu w odpowiedzi do monitu.
Oparte na MUZAbenchmarków, czasy wnioskowania Muse są znacznie krótsze niż w konkurencyjnych modelach.
Model | Rezolucja | Czas wnioskowania (↓) |
Stabilna dyfuzja 1.4 | 512×512 | 3,7 s |
Parti-3B | 256×256 | 6,4s |
obraz | 256×256 | 9,1 s |
obraz | 1024×1024 | 13,3s |
Muse-3B | 256×256 | 0,5s |
Muse-3B | 512×512 | 1,3 s |
W przeciwieństwie do Partiego i innych modeli autoregresyjnych, Muse wykorzystuje dekodowanie równoległe. Aby tworzyć obrazy wysokiej jakości i rozpoznawać pojęcia wizualne, takie jak obiekty, ich relacje przestrzenne, postawa, liczność itd., LLM, którego już nauczono, musi rozumieć angielski na poziomie szczegółowym. Model nie musi być odwracany, aby program Muse obsługiwał malowanie, przemalowywanie i edycję bez masek.
Funkcje sztucznej inteligencji Google Muse
Muse to szybki, najnowocześniejszy model do generowania i modyfikowania obrazów z tekstu, który ma kilka przydatnych funkcji, w tym:
- Generowanie tekstu na obraz
- W odpowiedzi na wprowadzane dane tekstowe, sztuczna inteligencja (AI) Google Muse szybko generuje wysokiej jakości wizualizacje (1,3 s dla rozdzielczości 512×512 lub 0,5 s dla rozdzielczości 256×256 na TPUv4).
- Zero-shot, edycja bez maski
- Model sztucznej inteligencji Google Muse zapewnia nam bezpłatną edycję bez masek, polegającą na wielokrotnym próbkowaniu tokenów obrazu w odpowiedzi na instrukcje tekstowe.
- Edycja bez masek podczas modyfikowania obrazu umożliwia manipulowanie kilkoma obiektami za pomocą prostego monitu tekstowego.
- Malowanie/odmalowywanie bez strzału
- Sztuczna inteligencja Muse firmy Google jest bezpłatna i zawiera funkcje edycji oparte na maskach (malowanie i przemalowywanie). Dzięki zastosowaniu maski do edycji staje się ona funkcjonalnie równoważna z nową generacją.
Sprawdź najlepsze generatory tweetów AI, które pomogą Ci tweetować jak Elon Musk.
Szczegóły modelu Google Muse AI
Poniżej możesz sprawdzić przebieg szkolenia Google Muse AI:
Zespół Google używa dwóch różnych sieci tokenizera VQGAN, jednej do zdjęć niskiej jakości, a drugiej do obrazów o wysokiej rozdzielczości. Transformatory o niskiej („podstawowej”) i wysokiej rozdzielczości („superres”) są szkolone przy użyciu niemaskowanych tokenów i osadzania tekstu T5 w celu przewidywania zamaskowanych tokenów.
Aby uzyskać bardziej szczegółowe informacje na temat Google Muse AI, kliknij tutaj.
Narzędzia AI, które wyjaśniliśmy
Chociaż niektórzy mówią „nie” obrazom generowanym przez sztuczną inteligencję, prawie każdego dnia w naszym życiu pojawia się nowe narzędzie sztucznej inteligencji, takie jak:
- Gotowa sztuczna inteligencja
- Kaktusowa sztuczna inteligencja
- Punkt E OpenAI
- Sztuczna inteligencja Uberduck
- QQ inny wymiar mnie
- Wehikuł czasu AI MyHeritage
- Sztuczna inteligencja Cicero firmy Meta
- Pojęcie AI
- Sztuczna inteligencja Meta Galactica
- Powieść AI
- Make-A-Video Meta AI
- DALL-E 2
- Wombo Sen
- Sztuczna inteligencja DreamBooth firmy Google
- Stabilna dyfuzja
Bądź na bieżąco, aby uzyskać więcej!
Source: Sztuczna inteligencja Google Muse: funkcje, przykłady i nie tylko