Co to jest Chinchilla AI i jak z niej korzystać?

Podczas gdy modelowanie języka zajmuje coraz więcej miejsca w technologiach sztucznej inteligencji, uważamy, że naszym obowiązkiem jest wyjaśnianie naszym drogim czytelnikom, czym jest sztuczna inteligencja Chinchilla i jak z niej korzystać.

Naukowcy z DeepMind stworzyli model Chinchilla, który ma 70 miliardów parametrów i cztery razy więcej danych niż Gopher, ale ten sam budżet obliczeniowy. Wydajność Chinchilla jest godna uwagi nie tylko ze względu na wielkość ulepszeń, ale także dlatego, że jest mniejsza niż jakikolwiek inny główny model językowy stworzony w ciągu ostatnich dwóch lat, który wykazał wydajność SOTA.

Co to jest Chinchilla AI i jak z niej korzystać? — Naukowcy z DeepMind stworzyli model Chinchilla AI

Chinchilla konsekwentnie i znacznie przewyższa Gophera (280B), GPT-3 (175B), Jurassic-1 (178B) i Megatron-Turing NLG w różnych zadaniach oceny na dalszych etapach (530B). Wykorzystuje znacznie mniej mocy obliczeniowej do wnioskowania i precyzyjnego dostrajania, co znacznie zwiększa dalsze wykorzystanie. Zastanawiasz się, czym jest Chinchilla AI? Zbadajmy to w tym artykule.

Co to jest sztuczna inteligencja szynszyli?

Zacznijmy od zrozumienia, czym jest sztuczna inteligencja szynszyli, zanim nauczymy się korzystać z sztucznej inteligencji szynszyli. Ostatnie wyzwania związane z modelowaniem języka mają tendencję do zwiększania złożoności modelu bez zwiększania liczby tokenów uczenia się (około 300 miliardów podczas szkolenia). Największym modelem transformatora w tym czasie jest Megatron-Turing NLG, który jest ponad trzy razy większy niż GPT-3 OpenAI. DeepMind zaprezentował zupełnie nowy model językowy o nazwie Chinchilla.

VSCO udostępniło funkcję edycji wideo DSCO na Androida

Istnieje jedna znacząca różnica, mimo że działa podobnie do dużych modeli językowych, takich jak Megatron-Turing NLG (parametry 530B), Jurassic-1 (parametry 178B), GPT-3 (parametry 175B), Gopher (parametry 280B) i GPT- 3: Z zaledwie 70 miliardami parametrów i czterokrotnie większą ilością danych niż Gopher, osiąga średnią dokładność 67,5 procent w teście porównawczym MMLU, co oznacza 7-procentową poprawę w stosunku do Gophera.

Jak korzystać z AI szynszyli?

Teraz, gdy wyjaśniliśmy ci, czym jest sztuczna inteligencja szynszyli, przejdźmy do odpowiedzi na pytania dotyczące korzystania z sztucznej inteligencji szynszyli, ale mamy dla ciebie złe wieści. Niestety, ogół społeczeństwa nie ma obecnie do niego dostępu. Sztuczna inteligencja Chinchilla będzie ostatecznie dostępna w nadchodzących miesiącach, kiedy to będzie można jej używać do opracowywania chatbotów, wirtualnych asystentów, modeli predykcyjnych i innych aplikacji AI.

Chinchilla osiągnął najnowocześniejszą średnią dokładność 67,5 procent w teście porównawczym MMLU, przewyższając Gophera o 7 procent. Wspólną strategią w szkoleniu dużych modeli językowych było zbudowanie modelu bez zwiększania podaży tokenów szkoleniowych. Największy gęsty transformator, MT-NLG 530B, jest teraz ponad trzykrotnie większy niż 170 miliardów charakterystyk GPT-3.

Galaxy AI odmieni Twoje wrażenia ze smartwatcha dzięki One UI 6 Watch

Chinchilla AI będzie dominującą siłą w modelowaniu języka

Teraz, gdy odpowiedzieliśmy na twoje pytanie, czym jest sztuczna inteligencja szynszyli i jak z niej korzystać, porozmawiajmy ogólnie o technologiach sztucznej inteligencji.

Rozwijanie modelu bez zwiększania liczby tokenów szkoleniowych było dominującym podejściem w szkoleniu dużych modeli językowych. W porównaniu do 170 miliardów charakterystyk GPT-3, największy gęsty transformator, MT-NLG 530B, jest teraz ponad 3 razy większy.

Większość obecnie używanych dużych modeli, w tym Chinchilla firmy DeepMind, została przeszkolona na ponad 300 miliardów tokenów. Wyścig w trenowaniu coraz większych modeli prowadzi do tworzenia modeli, które według naukowców są znacznie słabsze w porównaniu z tym, co można osiągnąć przy takim samym budżecie obliczeniowym. To prawda, mimo że chęć trenowania tych mega-modeli ma znacznie zaawansowaną inżynierię.

Funkcje Chinchilla AI, które przekroczą budżet obliczeniowy

Czynnikiem ograniczającym w technologiach AI jest zazwyczaj budżet obliczeniowy, który jest niezależny i znany z góry. To, ile korporacja może wydać na lepszy sprzęt, ostatecznie określi wielkość modelu i liczbę tokenów szkoleniowych. Aby rozwiązać ten problem, funkcje Chinchilla AI:

Stały rozmiar modelu: Programiści DeepMind stworzyli rodzinę modeli o stałych rozmiarach (70M-16B) i dostosowali liczbę tokenów szkoleniowych dla każdego modelu (4 warianty). Następnie zidentyfikowano najlepszą kombinację dla każdego budżetu obliczeniowego. Zgodnie z tą metodą model trenowany z taką samą mocą obliczeniową jak Gopher miałby tokeny 1,5T i parametry 67B.
Krzywe dla isoFLOP: Inżynierowie z DeepMind eksperymentowali z rozmiarem modelu i stałym budżetem obliczeniowym. Ta metoda skutkowałaby optymalnym obliczeniowo modelem z 63 miliardami parametrów i 1,4 biliona tokenów, trenowanym z taką samą ilością obliczeń jak Gopher.
Tworzenie parametrycznej funkcji strat: Inżynierowie DeepMind modelowali straty jako funkcje parametryczne rozmiaru modelu i liczby tokenów, korzystając z ustaleń z metod 1 i 2. Model optymalny pod względem obliczeniowym wyszkolony przy użyciu tej metody miałby parametry 40B i taką samą ilość obliczeń jak Gopher.

Poznaj Lux i Discovery: kolejne dwa superkomputery AMD warte miliardy dolarów

Jeśli jesteś ciekawy, możesz zbadać podejście DeepMind do tematu z opublikowanego przez nich artykułu.

Zbliżamy się do końca naszego artykułu, w którym odpowiedzieliśmy na pytania, czym jest sztuczna inteligencja szynszyli i jak najlepiej z niej korzystać. Podczas gdy technologie modelowania języka zdołały stać się najbardziej znaną podkategorią sztucznej inteligencji w 2022 roku, zastanawiamy się, co nas czeka w 2023 roku.

Source: Co to jest Chinchilla AI i jak z niej korzystać?