Naukowcy z DeepSeek w poniedziałek wydali nowy model eksperymentalny, V3.2-EXP, który został zaprojektowany tak, aby mieć znacznie niższe koszty wnioskowania, gdy są stosowane w operacjach długoteksualnych. Deepseek ogłosił model w poście na temat przytulania twarzy, a także opublikował połączony artykuł akademicki na temat GitHub, który zawiera szczegółowe informacje na temat jego architektury i wydajności. Najważniejszą cechą modelu nazywa się Deepseek rzadka uwaga. Ten system wykorzystuje moduł określany jako „indekser piorunowy” w celu ustalenia priorytetów określonych fragmentów z okna kontekstowego. Po tym kroku oddzielny system, „system selekcji tokenów o drobnym granowatym”, wybiera specyficzne tokeny z tych fragmentów. Te wybrane tokeny są następnie ładowane do ograniczonej uwagi modułu. Ta kombinacja pozwala modelom rzadkiego uwagi działać w długich częściach kontekstu o stosunkowo małych obciążeniach serwerów. Korzyści systemu są znaczące w przypadku operacji długotekstowych. Wstępne testy przeprowadzone przez Deepseek wykazały, że cena prostego wezwania API można obniżyć nawet o połowę w takich sytuacjach. Konieczne będą dalsze testy w celu zbudowania solidniejszej oceny roszczeń. Model jest otwarty i swobodnie dostępny na przytulaniu twarzy, co pozwoli na testy stron trzecich ocena wyników przedstawionych w artykule. Nowy model Deepseek jest częścią szeregu ostatnich przełomów, które dotyczą problemu kosztów wnioskowania. Koszty te reprezentują koszty serwera prowadzenia wstępnie wyszkolonego modelu AI, które różnią się od kosztów szkolenia. Naukowcy Deepseek szukali sposobów, aby podstawowa architektura transformatora działała bardziej wydajnie, stwierdzając, że należy wprowadzić znaczące ulepszenia. Z siedzibą w Chinach Deepseek był niezwykłą postacią w sektorze AI, szczególnie dla tych, którzy postrzegają badania AI jako walkę nacjonalistyczną między USA a Chinami. Firma zwróciła uwagę na początku roku dzięki modelowi R1, który został przeszkolony za pomocą przede wszystkim uczenia się wzmocnienia po znacznie niższych kosztach niż jej amerykańscy konkurenci. Jednak model nie wywołał hurtowej rewolucji w szkoleniach AI, jak niektórzy przewidywali, a firma od czasu do czasu wycofała się z centrum uwagi. Nowe podejście „rzadka uwaga” raczej nie wytworzy takiego samego zamieszania co R1, ale nadal może nauczyć amerykańskich dostawców bardzo potrzebnych sztuczek, które pomogą utrzymać niskie koszty wnioskowania.

Deepseek uwalnia model v3.2-exp z rzadką uwagą
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Apple udostępnia drugą wersję beta systemu iOS 27 z nową funkcją Pisz za pomocą Siri
Apple wypuszcza iOS 27 beta 2 z rozszerzonymi narzędziami Siri, większą wydajnością, nowymi funkcjami przesyłania wiadomości RCS i...
Galaxy S27 może korzystać z szybszej pamięci UFS 5.0 firmy Samsung
Samsung przedstawia pierwszy na świecie układ UFS 5.0, zapewniający większe prędkości, większą wydajność i znaczny wzrost wydajności przyszłych...
Apple podniesie ceny produktów w związku z globalnym niedoborem układów pamięci
Dyrektor generalny Apple Tim Cook potwierdza, że podwyżki cen są nieuchronne, ponieważ niedobory chipów i zapotrzebowanie na pamięć...
Samsung Galaxy S27 Pro wskazuje na wycieki dotyczące wyświetlacza zapewniającego prywatność na poziomie sprzętowym
Krążą pogłoski, że Samsung Galaxy S27 Pro może zadebiutować na początku 2027 roku z 6,47-calowym wyświetlaczem, potrójnymi aparatami...




