DeepSeek odkrywa identyfikator MODEL1 przed premierą V4

DeepSeek, chiński start-up zajmujący się sztuczną inteligencją, ujawnił nowy model „MODEL1” w swoim repozytorium kodu FlashMLA na GitHub, który pojawił się 28 razy w 114 plikach. Odkrycie to zbiega się z pierwszą rocznicą premiery DeepSeek R1. MODEL1 reprezentuje inną architekturę niż DeepSeek-V3.2, o wewnętrznej nazwie kodowej „V32”. Analiza kodu przeprowadzona przez programistów wskazuje zmiany w układzie pamięci podręcznej klucz-wartość, obsłudze rzadkości i dekodowaniu formatu danych FP8. Zmiany te sugerują ukierunkowaną restrukturyzację w celu optymalizacji pamięci i wydajności obliczeniowej. Do ujawnienia doszło za pośrednictwem repozytorium FlashMLA firmy DeepSeek, które zawiera jądro dekodujące Multi-Head Latent Attention dla procesorów graficznych Nvidia Hopper. Jak wynika z postów w społeczności LocalLLaMA na Reddicie, aktualizacje kodu źródłowego FlashMLA dodały obsługę MODEL1, w tym zgodność z nadchodzącą architekturą Blackwell (SM100) firmy Nvidia. Zmiany w kodzie pokazują powrót MODEL1 do ujednoliconego wymiaru standardu 512 i włączenie funkcji opisanych jako „Świadomość pozycji wektora wartości” oraz możliwe implementacje systemu pamięci warunkowej „Engram” firmy DeepSeek. Według danych DeepSeek planuje wypuszczenie modelu V4 nowej generacji około połowy lutego 2026 r., zbiegając się z Księżycowym Nowym Rokiem przypadającym 17 lutego. Informacjejak cytuje Reutera. Wewnętrzne testy przeprowadzone przez pracowników DeepSeek sugerują, że V4 może przewyższać konkurencyjne modele Anthropic i OpenAI w testach porównawczych kodowania, szczególnie w przypadku długich podpowiedzi w kodzie. Oczekuje się, że model V4 będzie integrował architekturę Engram firmy DeepSeek, która umożliwi wydajne wyszukiwanie z kontekstów przekraczających milion tokenów przy użyciu systemu wyszukiwania podstawowych faktów. Odkrycie MODEL1 następuje rok po debiucie DeepSeek R1 w styczniu 2025 r. Wydarzenie to, nazwane przez inwestora venture capital Marca Andreessena „momentem AI Sputnika”, spowodowało spadek wartości rynkowej Nvidii o 593 miliardy dolarów w ciągu jednego dnia, ITPro zgłoszone. Koszt wytrenowania modelu R1 firmy DeepSeek wynosi podobno niecałe 6 milionów dolarów, a mimo to dorównuje lub przewyższa model o1 OpenAI w testach matematycznych i kodowania. Następnie firma wypuściła wersję 3.1 w sierpniu i wersję 3.2 w grudniu, przy czym wersja 3.2 została opisana jako oferująca wydajność równoważną GPT-5 OpenAI.

DeepSeek odkrywa identyfikator MODEL1 przed premierą V4

Related Posts

Snap płaci miliony za ugodę w procesie dotyczącym uzależnienia nastolatków przed procesem

Dyrektor generalny Anthropic ostro krytykuje zgodę Stanów Zjednoczonych na sprzedaż chipów AI do Chin

Netflix przedstawia gruntowną przebudowę aplikacji mobilnej, która ma przeciwdziałać TikTok i YouTube

OpenAI uruchamia narzędzie do przewidywania wieku AI, aby ograniczyć ChatGPT dla nieletnich

Snap płaci miliony za ugodę w procesie dotyczącym uzależnienia nastolatków przed procesem

Dyrektor generalny Anthropic ostro krytykuje zgodę Stanów Zjednoczonych na sprzedaż chipów AI do Chin

Netflix przedstawia gruntowną przebudowę aplikacji mobilnej, która ma przeciwdziałać TikTok i YouTube

OpenAI uruchamia narzędzie do przewidywania wieku AI, aby ograniczyć ChatGPT dla nieletnich

Setapp Mobile zaprzestanie działalności alternatywnego sklepu z aplikacjami w UE do 16 lutego

© 2021 TechBriefly is a Linkmedya brand.

DeepSeek odkrywa identyfikator MODEL1 przed premierą V4

Related Posts

© 2021 TechBriefly is a Linkmedya brand.

Follow Us