AMD ma wprowadzone Instella, rodzina w pełni open source modeli językowych zawierających 3 miliardy parametrów, wyszkolonych od zera na GPU AMD Instinct ™ MI300X. Modele pokazują znaczącą poprawę w stosunku do istniejących w pełni otwartych modeli i mają na celu konkurencję w najnowocześniejszych modelach otwartych.
AMD wprowadza Instella: Modele języka open source z 3 miliardami parametrów
Instella jest zbudowana na modelu autoregresji transformatora składającego się z 36 warstw dekodera i 32 głowy uwagi. Architektura ta obsługuje długość sekwencji do 4096 tokenów, umożliwiając model do przetwarzania obszernych kontekstów tekstowych. Rozmiar słownictwa wynosi około 50 000 tokenów, zarządzanych przez tokenizer Olmo.
W szkoleniu wykorzystano GPU AMD Instynct MI300X, aby podkreślić integrację oprogramowania sprzętowego AMD. Instella skaluje wysiłki z poprzednich modeli Olmo 1 miliardów parametrów AMD, przechodząc z 64 MI250 GPU przy użyciu 1,3 biliona tokenów do 128 MI300X GPU i 4,15 biliona tokenów dla Instella.
Rurociąg szkoleniowy AMD Instella składał się z czterech etapów, które stopniowo zwiększały możliwości modelu od ogólnego zrozumienia języka naturalnego do instrukcji i dostosowania do ludzkich preferencji. Pierwszy etap obejmował szkolenie na 4,065 biliona tokenów z różnych zestawów danych, w tym DCLM-Baseline i Dolma 1.7, podczas gdy drugi etap zawierał dodatkowe 57,575 miliarda tokenów z wysokiej jakości zestawów danych, takich jak Dolmino-Mix-1124 i Smollm-Corpus.
Wersje modelowe i szczegóły szkolenia
Wydane modele Instella obejmują:
- Instella-3B-STAGE1: Etap przed treningiem z 4,065 bilionów tokenów dla fundamentalnej biegłości w języku naturalnym.
- Instella-3b: Etap 2 z dodatkowymi 57,575 miliardami tokenów w celu zwiększenia możliwości rozwiązywania problemów.
- Instella-3B-Sft: Nadzorowane dostrajanie (SFT) z wykorzystaniem 8,902 miliarda tokenów w trzech epokach w celu poprawy umiejętności związanych z instrukcjami.
- Instruct Instella-3B: Wyrównanie ludzkich preferencji z wykorzystaniem 760 milionów tokenów z bezpośrednią optymalizacją preferencji (DPO).
Metodologia szkolenia zastosowała szkolenie Flashattencji-2, Compile Torch i BFLOOT16 w zakresie wydajności, a także w pełni odłamkowana równoległość danych z odłamkiem hybrydowym w celu optymalizacji wykorzystania zasobów w dużym klastrze.
Benchmarki wydajności
Modele Instella przewyższają istniejące w pełni otwarte modele o podobnej wielkości. Ostateczny wstępnie wyszkolony model, Instella-3B, prowadzi istniejące w pełni otwarte modele w pełni przeszkolone w najwyższym poziomie o 8,08%, z godną uwagi ulepszenia w testach porównawczych, takich jak ARC Challenge (+8,02%), ARC Easy (+3,51%) i GSM8k (+48,98%).
Modele Instella-3B przodują w różnych standardowych testach porównawczych, w tym MMLU i BBH, wykazujące znaczące wyniki konkurencyjne w stosunku do modeli takich jak LLAMA-3.2-3B i GEMMA-2-2B. Pod względem strojenia instruktażu instruction-3B-instruct pokazuje spójny przełom wynikiem 14,37% w porównaniu z następnymi najlepszymi modelami w pełni otwartych modeli instrukcji.
Modele oceniono przy użyciu standardowych zadań z OLMES, Fastchat MT-Bench i Alpaca, a wyniki wskazują na dobrą wydajność w stosunku do istniejących najnowocześniejszych modeli otwartych. Modele dostrojone w instrukcje osiągnęły niezwykłe wyniki, zawężając luki i prezentując konkurencyjność w krajobrazie modeli językowych.
Dostępność open source
AMD w pełni oprócz open sources wszystkie artefakty związane z modelami Instella, w tym masy modelu, konfiguracje szkoleniowe, zestawy danych i kod, promując współpracę i innowacje w społeczności AI. Zasoby są dostępne za pośrednictwem Przytulanie twarzy Karty modelowe i Github Repozytoria.
Wyróżniony obraz obrazu: Timothy Dykes/Unsplash
Post AMD zaprezentuje modele AI Instella: Open-Source, które rywalizują z Meta i Google, pojawiły się pierwsze w Techbriefly.
Source: AMD zaprezentuje Instella: Modele AI open source, które rywalizują z meta i Google








