DeepSeek, chiński start-up zajmujący się sztuczną inteligencją, ujawnił nowy model „MODEL1” w swoim repozytorium kodu FlashMLA na GitHub, który pojawił się 28 razy w 114 plikach. Odkrycie to zbiega się z pierwszą rocznicą premiery DeepSeek R1. MODEL1 reprezentuje inną architekturę niż DeepSeek-V3.2, o wewnętrznej nazwie kodowej „V32”. Analiza kodu przeprowadzona przez programistów wskazuje zmiany w układzie pamięci podręcznej klucz-wartość, obsłudze rzadkości i dekodowaniu formatu danych FP8. Zmiany te sugerują ukierunkowaną restrukturyzację w celu optymalizacji pamięci i wydajności obliczeniowej. Do ujawnienia doszło za pośrednictwem repozytorium FlashMLA firmy DeepSeek, które zawiera jądro dekodujące Multi-Head Latent Attention dla procesorów graficznych Nvidia Hopper. Jak wynika z postów w społeczności LocalLLaMA na Reddicie, aktualizacje kodu źródłowego FlashMLA dodały obsługę MODEL1, w tym zgodność z nadchodzącą architekturą Blackwell (SM100) firmy Nvidia. Zmiany w kodzie pokazują powrót MODEL1 do ujednoliconego wymiaru standardu 512 i włączenie funkcji opisanych jako „Świadomość pozycji wektora wartości” oraz możliwe implementacje systemu pamięci warunkowej „Engram” firmy DeepSeek. Według danych DeepSeek planuje wypuszczenie modelu V4 nowej generacji około połowy lutego 2026 r., zbiegając się z Księżycowym Nowym Rokiem przypadającym 17 lutego. Informacjejak cytuje Reutera. Wewnętrzne testy przeprowadzone przez pracowników DeepSeek sugerują, że V4 może przewyższać konkurencyjne modele Anthropic i OpenAI w testach porównawczych kodowania, szczególnie w przypadku długich podpowiedzi w kodzie. Oczekuje się, że model V4 będzie integrował architekturę Engram firmy DeepSeek, która umożliwi wydajne wyszukiwanie z kontekstów przekraczających milion tokenów przy użyciu systemu wyszukiwania podstawowych faktów. Odkrycie MODEL1 następuje rok po debiucie DeepSeek R1 w styczniu 2025 r. Wydarzenie to, nazwane przez inwestora venture capital Marca Andreessena „momentem AI Sputnika”, spowodowało spadek wartości rynkowej Nvidii o 593 miliardy dolarów w ciągu jednego dnia, ITPro zgłoszone. Koszt wytrenowania modelu R1 firmy DeepSeek wynosi podobno niecałe 6 milionów dolarów, a mimo to dorównuje lub przewyższa model o1 OpenAI w testach matematycznych i kodowania. Następnie firma wypuściła wersję 3.1 w sierpniu i wersję 3.2 w grudniu, przy czym wersja 3.2 została opisana jako oferująca wydajność równoważną GPT-5 OpenAI.
Source: DeepSeek odkrywa identyfikator MODEL1 przed premierą V4