Przełomowy model dużego języka Deepseek, R1, od dawna intryguje społeczność AI ze względu na jej zdolność do konkurowania z gigantami branżowymi przy niezwykle niskim budżecie. Nowo opublikowany artykuł w czasopiśmie Natura Zespół Deepseek AI rzuca światło na szczegóły: model został przeszkolony za jedyne 294 000 $ przy użyciu 512 nvidia H800. To objawienie podkreśla opłacalne podejście, które kwestionuje wydatki na wysokie stawki konkurentów, takich jak Openai, podkreślając innowacyjne wykorzystanie przez Deepseek przez uczenie się wzmocnienia opartego na próbach i błędach w celu osiągnięcia imponujących wyników. Podstawowa innowacja polega na omijaniu tradycyjnego polegania na drogich danych i demonstracjach, które są pracochłonne i słabo skalają się w przypadku złożonych zadań rozumowania. Zamiast tego Deepseek zastosował techniki uczenia się wzmocnienia, które naśladują system nagrody. Jak wyjaśnili Carnegie Mellon University Assistant Professor Daphne Ippolito i doktorant Yiming Zhang w artykule towarzyszącym, ta metoda przypomina dziecko na uczeniu się w grach wideo: „Gdy dziecko nawiguje swoje awatara przez świat gry, uczą się poprzez próbę i błąd, że niektóre działania (takie jak zbieranie złotych monety) zarabiają punkty), a inne (takie jak wrogowie) ustawiają swoje wrogowie do Zero. Deepseek-R1 otrzymał wysoki wynik, gdy odpowiedział poprawnie na pytania i niski wynik, gdy udzielił błędnych odpowiedzi. ” Ta strategia wzmocnienia okazała się szczególnie skuteczna w przypadku zadań z weryfikowalnymi prawidłowymi odpowiedziami, takimi jak matematyka i problemy z programowaniem. W przeciwieństwie do wcześniejszych metod, które skłoniły modele do generowania wyjaśnień krok po kroku pod kątem lepszej dokładności, DeepSeek przypisał wyniki bezpośrednio do wyników, zachęcając model do iteracji, dopóki nie osiągnął właściwy wynik niezależnie. Wynik? Zwiększona precyzja bez potrzeby rozumowania kierowanego przez człowieka, umożliwiając Deepeek na utrzymanie konkurencyjności pomimo jego skromnych zasobów. Jednak podejście nie jest pozbawione ograniczeń. Podczas gdy wyniki są często dokładniejsze, wewnętrzny proces rozumowania modelu staje się mniej przejrzystym dla ludzi obserwatorów. Na przykład, gdy poproszony jest o wyjaśnienie swojego procesu myślowego, Deepseek-R1 czasami tworzyło długie odpowiedzi przekraczające 10 000 słów, przełączając nieprzewidywalnie między angielskim i chińskim. Technika ta wyróżnia się w binarnych scenariuszach prawicowych lub znanych, ale słabnie z niuansowymi lub subiektywnymi zapytaczami, w których nieobecne są wyraźne wskaźniki punktacji. Osiągnięcia Deepseka pojawiają się wśród szerszej analizy związków firmy z chińskim rządem, zadając pytania o potencjalne uprzedzenia w swojej technologii. Ostatnie demonstracje zgłoszone przez The Washington Post Ujawniono dotyczące zachowań: model odmówił generowania kodu o znacznych lukach w zakresie bezpieczeństwa, gdy podpowiedzi wskazały na zaangażowanie w grupy uznane za wrażliwe przez chińskie władze. I odwrotnie, stworzył mniej bezpieczny kod dotyczących tematów związanych z Tybetem, Tajwaniem, ruchem religijnym Falun Gong, a nawet państwem islamskim, co sugeruje osadzone wpływy geopolityczne, które mogłyby wpłynąć na jego globalne wdrożenie. Niniejszy artykuł nie tylko demistyfikuje skuteczny paradygmat szkoleniowy Deepseek, ale także wywołuje dyskusje na temat przyszłości rozwoju sztucznej inteligencji. Wykorzystując uczenie się wzmocnienia, mniejsi gracze, tacy jak Deepseek, mogą potencjalnie wyrównać szanse na obfitych zasobów. Jednak infuzja wrażliwości krajowej stanowi ostrzeżenie, podkreślając potrzebę przejrzystości i etycznego nadzoru w innowacjach AI. W miarę ewolucji branży takie objawienia mogą zainspirować metodologie oszczędnościowe na całym świecie, pod warunkiem, że dotyczą one ryzyka podstawowego.

  Możesz wreszcie pobrać Reels z Instagrama

Source: Deepseek Trains Model R1 za 294 000 USD za pomocą 512 NVIDIA H800