Naukowcy z DeepSeek w poniedziałek wydali nowy model eksperymentalny, V3.2-EXP, który został zaprojektowany tak, aby mieć znacznie niższe koszty wnioskowania, gdy są stosowane w operacjach długoteksualnych. Deepseek ogłosił model w poście na temat przytulania twarzy, a także opublikował połączony artykuł akademicki na temat GitHub, który zawiera szczegółowe informacje na temat jego architektury i wydajności. Najważniejszą cechą modelu nazywa się Deepseek rzadka uwaga. Ten system wykorzystuje moduł określany jako „indekser piorunowy” w celu ustalenia priorytetów określonych fragmentów z okna kontekstowego. Po tym kroku oddzielny system, „system selekcji tokenów o drobnym granowatym”, wybiera specyficzne tokeny z tych fragmentów. Te wybrane tokeny są następnie ładowane do ograniczonej uwagi modułu. Ta kombinacja pozwala modelom rzadkiego uwagi działać w długich częściach kontekstu o stosunkowo małych obciążeniach serwerów. Korzyści systemu są znaczące w przypadku operacji długotekstowych. Wstępne testy przeprowadzone przez Deepseek wykazały, że cena prostego wezwania API można obniżyć nawet o połowę w takich sytuacjach. Konieczne będą dalsze testy w celu zbudowania solidniejszej oceny roszczeń. Model jest otwarty i swobodnie dostępny na przytulaniu twarzy, co pozwoli na testy stron trzecich ocena wyników przedstawionych w artykule. Nowy model Deepseek jest częścią szeregu ostatnich przełomów, które dotyczą problemu kosztów wnioskowania. Koszty te reprezentują koszty serwera prowadzenia wstępnie wyszkolonego modelu AI, które różnią się od kosztów szkolenia. Naukowcy Deepseek szukali sposobów, aby podstawowa architektura transformatora działała bardziej wydajnie, stwierdzając, że należy wprowadzić znaczące ulepszenia. Z siedzibą w Chinach Deepseek był niezwykłą postacią w sektorze AI, szczególnie dla tych, którzy postrzegają badania AI jako walkę nacjonalistyczną między USA a Chinami. Firma zwróciła uwagę na początku roku dzięki modelowi R1, który został przeszkolony za pomocą przede wszystkim uczenia się wzmocnienia po znacznie niższych kosztach niż jej amerykańscy konkurenci. Jednak model nie wywołał hurtowej rewolucji w szkoleniach AI, jak niektórzy przewidywali, a firma od czasu do czasu wycofała się z centrum uwagi. Nowe podejście „rzadka uwaga” raczej nie wytworzy takiego samego zamieszania co R1, ale nadal może nauczyć amerykańskich dostawców bardzo potrzebnych sztuczek, które pomogą utrzymać niskie koszty wnioskowania.

Deepseek uwalnia model v3.2-exp z rzadką uwagą
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft przedstawia Surface RTX Spark Dev Box do zaawansowanych obciążeń AI
Surface RTX Spark Dev Box firmy Microsoft łączy układ NVIDIA RTX Spark z pamięcią do 128 GB, aby...
X uruchamia funkcję „Reaguj za pomocą wideo” dla użytkowników iOS
X uruchamia funkcję „Reaguj za pomocą wideo” na iOS, umożliwiającą użytkownikom publikowanie filmów z reakcjami w stylu TikTok...
Microsoft przedstawia Project Solara, który będzie zasilał urządzenia nowej generacji przeznaczone dla agentów
Project Solara wprowadza przetwarzanie oparte na agentach, które łączy oprogramowanie i sprzęt w celu tworzenia wyspecjalizowanych, spersonalizowanych i...
Google udostępnia czerwcową aktualizację Androida z nowymi funkcjami bezpieczeństwa i udostępniania
Czerwcowa aktualizacja Androida wprowadza nowe narzędzia personalizacji, stylowe aktualizacje i ulepszone funkcje bezpieczeństwa, które pomagają użytkownikom zachować bezpieczeństwo...




