Naukowcy z DeepSeek w poniedziałek wydali nowy model eksperymentalny, V3.2-EXP, który został zaprojektowany tak, aby mieć znacznie niższe koszty wnioskowania, gdy są stosowane w operacjach długoteksualnych. Deepseek ogłosił model w poście na temat przytulania twarzy, a także opublikował połączony artykuł akademicki na temat GitHub, który zawiera szczegółowe informacje na temat jego architektury i wydajności. Najważniejszą cechą modelu nazywa się Deepseek rzadka uwaga. Ten system wykorzystuje moduł określany jako „indekser piorunowy” w celu ustalenia priorytetów określonych fragmentów z okna kontekstowego. Po tym kroku oddzielny system, „system selekcji tokenów o drobnym granowatym”, wybiera specyficzne tokeny z tych fragmentów. Te wybrane tokeny są następnie ładowane do ograniczonej uwagi modułu. Ta kombinacja pozwala modelom rzadkiego uwagi działać w długich częściach kontekstu o stosunkowo małych obciążeniach serwerów. Korzyści systemu są znaczące w przypadku operacji długotekstowych. Wstępne testy przeprowadzone przez Deepseek wykazały, że cena prostego wezwania API można obniżyć nawet o połowę w takich sytuacjach. Konieczne będą dalsze testy w celu zbudowania solidniejszej oceny roszczeń. Model jest otwarty i swobodnie dostępny na przytulaniu twarzy, co pozwoli na testy stron trzecich ocena wyników przedstawionych w artykule. Nowy model Deepseek jest częścią szeregu ostatnich przełomów, które dotyczą problemu kosztów wnioskowania. Koszty te reprezentują koszty serwera prowadzenia wstępnie wyszkolonego modelu AI, które różnią się od kosztów szkolenia. Naukowcy Deepseek szukali sposobów, aby podstawowa architektura transformatora działała bardziej wydajnie, stwierdzając, że należy wprowadzić znaczące ulepszenia. Z siedzibą w Chinach Deepseek był niezwykłą postacią w sektorze AI, szczególnie dla tych, którzy postrzegają badania AI jako walkę nacjonalistyczną między USA a Chinami. Firma zwróciła uwagę na początku roku dzięki modelowi R1, który został przeszkolony za pomocą przede wszystkim uczenia się wzmocnienia po znacznie niższych kosztach niż jej amerykańscy konkurenci. Jednak model nie wywołał hurtowej rewolucji w szkoleniach AI, jak niektórzy przewidywali, a firma od czasu do czasu wycofała się z centrum uwagi. Nowe podejście „rzadka uwaga” raczej nie wytworzy takiego samego zamieszania co R1, ale nadal może nauczyć amerykańskich dostawców bardzo potrzebnych sztuczek, które pomogą utrzymać niskie koszty wnioskowania.

  Nowe funkcje i ulepszenia wprowadzone przez Pixel Feature Drop

Source: Deepseek uwalnia model v3.2-exp z rzadką uwagą