12 września 2025 r. Amer, inżynier oprogramowania i Ryan McKenna, naukowiec z Google Research, ogłosili Vaultgemma, oznaczając go jako najbardziej zdolny model językowy wyszkolony od zera z różnicową prywatnością (DP). Rozwój ten odbywa się w kluczowym czasie, ponieważ sztuczna inteligencja coraz bardziej przenika codzienne życie, zwiększając pilne wymagania projektów skoncentrowanych na prywatności. Różnicowa prywatność dotyczy tych obaw poprzez włączenie skalibrowanego szumu do procesów szkoleniowych, aby zapobiec zapamiętywaniu wrażliwych danych. Jednak wdrażanie DP w dużych modelach językowych (LLM) stanowi znaczące wyzwania, w tym zakłócenia stabilności szkoleniowej, potrzebę większych rozmiarów partii i eskalowane koszty obliczeniowe. Te kompromisy zmieniają tradycyjne przepisy dotyczące skalowania, które regulują wydajność sztucznej inteligencji, co czyni niezbędne zrozumienie ich dynamiki skutecznego rozwoju prywatnej sztucznej inteligencji. Ogłoszenie podkreśla wspólne działania badawcze zatytułowane „Skalowanie przepisów dotyczących różnych modeli językowych w zakresie różnych prywatnych”, prowadzonych we współpracy z Google Deepmind. To badanie określa precyzyjne równania, które modelują skomplikowane kompromisy między zasobami obliczeniowymi, gwarancjami prywatności i modelu. Koncentrując się na współczynniku partii szumu-kluczowej metryce porównującym szum wywołany prywatnością z wielkościami partii-badania upraszcza złożoną wzajemne oddziaływanie tych czynników. Głównym wglądem jest to, że wydajność modelu w szkoleniu DP jest głównie określana przez ten wskaźnik, umożliwiając badaczom przewidywanie optymalnych konfiguracji w celu minimalizacji strat szkolenia podanymi ograniczeniami dotyczącymi budżetów obliczeniowych, prywatności i budżetów danych. Eksperymenty leżące u podstaw tych przepisów dotyczących skalowania obejmowały różne rozmiary modeli i współczynniki łaski, potwierdzając centralną rolę stosunku. Powstałe modele frameworka utrata jako funkcji wielkości modelu, liczby iteracji treningowych i współczynnika łez, zapewniając usprawnione narzędzie dla praktyków. Podejście to pokonuje wykładniczą złożoność testowania wszystkich możliwych kombinacji poprzez wykorzystanie relacji deterministycznych i danych empirycznych. Na przykład przepisy umożliwiają zapytania, takie jak określenie najlepszej konfiguracji dla ustalonego budżetu obliczeniowego, poziomu prywatności (mierzonego przez Epsilon, ε) i objętości danych w celu osiągnięcia najniższej straty. Wyróżniającym się odkryciem badań jest synergiczne relacje między budżetami. Zwiększenie samego budżetu prywatności daje zmniejszenie zwrotu z współczynnika partii szumu, chyba że towarzyszy im rozszerzenia w obliczeniach (mierzone w operacjach zmiennoprzecinkowych lub klapach) lub danych (tokena). Wizualizacje z badania ilustrują, w jaki sposób optymalne konfiguracje przesunięcia: Zgodnie z ściślejszymi ograniczeniami prywatności zasoby mogą sprzyjać większym rozmiarze partii w większych modelach, podczas gdy więcej iteracji może być preferowane w scenariuszach ograniczonych danych. W szczególności analiza ujawnia elastyczność konfiguracji; Szereg rozmiarów modeli może zapewnić porównywalną użyteczność w połączeniu z dostrojonymi rozmiarami partii i iteracji. Praktyczne wytyczne pojawiają się wyraźnie: w przypadku szkolenia DP praktykujący powinni wybrać mniejsze modele o zasadniczo większych rozmiarach partii w porównaniu do podstawowych linii podstawowych. Dopasowuje się to do wiedzy specjalistycznej DP, podkreślając duże partie w celu przeciwdziałania efektom hałasu. Jednak konfiguracje różnią się w zależności od budżetów prywatności i danych, podkreślając potrzebę rozsądnej alokacji zasobów. Te spostrzeżenia, szczegółowe w pełnym artykule, wyposażają programistów do efektywnego równoważenia prywatności i wydajności. Wykorzystując te ramy, zespół skonstruował Vaultgemma, model 1 miliard parametrów oparty na Gemma 2, znany z nacisku na odpowiedzialność i bezpieczeństwo. Przepisy dotyczące skalowania kierowały wymaganiami obliczeniowymi i alokacją między wielkością partii, iteracji i długości sekwencji, aby zmaksymalizować użyteczność. Kluczowa innowacja algorytmiczna dotyczyła pobierania próbek Poissona, niezbędnego dla optymalnych gwarancji DP w stochastycznym pochodzeniu gradientu (DP-SGD). Początkowe jednolite partie zastąpiono próbkowaniem Poissona, aby zminimalizować hałas, zapewniając jednocześnie solidną prywatność. Wprowadziło to wyzwania, takie jak zmienne rozmiary partii i randomizowane zamawianie danych, rozwiązane za pomocą skalowalnego DP-SGD. Ta metoda umożliwia partie o stałej wielkości poprzez wypełnienie lub przycinanie, zachowując prywatność bez uszczerbku dla wydajności. Vaultgemma jest największym LLM z otwartym poziomem, w pełni wstępnie wyszkolonym z DP, z jego wagami dostępnymi teraz na przytulaniu twarzy i Kaggle, w towarzystwie kompleksowego raportu technicznego. Walidacja przepisów dotyczących skalowania okazała się niezwykle dokładna; Ostateczna strata szkolenia modelu była ściśle zgodna z prognozami, potwierdzając niezawodność ram dla przyszłych prywatnych przedsięwzięć sztucznej inteligencji. Oceny wydajności pozycjonuje Vaultgemma konkurencyjnie. Osiąga użyteczność porównywalną z modelem GEMMA 3 1B GEMMA 3 i starszą linią bazową GPT-2 1,5B. To pokazuje, że współczesne techniki DP mogą replikować możliwości modeli nieprogramowanych sprzed około pięciu lat, kwantyfikacji premii prywatności pod względem zasobów. Dalsze odniesienia uzasadniają to: na zadaniach takich jak Hellaswag, Boolq, Piqa, Socialiqa, Triviaqa, ARC-C i ARC-E, VaultGemma pasuje do swojego nie prywatnego odpowiednika i przewyższa podstawę bazową GPT-2 podobnej skali. Wyniki te podkreślają postępy w zamknięciu luki użytkowej, chociaż wyzwania utrzymują się. Ochrona prywatności jest zarówno teoretycznie solidna, jak i empirycznie zweryfikowana. Vaultgemma oferuje DP na poziomie sekwencji z ε ≤ 2,0 i δ ≤ 1,1 × 10⁻¹⁰ dla sekwencji 1024-tokenowych z heterogenicznych źródeł danych, odzwierciedlając mieszaninę treningową Gemma 2. Długie dokumenty są podzielone na sekwencje, a krótsze są pakowane, zapewniając naturalną jednostkę prywatności w różnych danych. W praktyce zapewnia to, że jeśli fakt prywatny pojawi się w jednej sekwencji, wyjście modelu pozostaje statystycznie nie do odróżnienia od jednej nieprzeszkolonej w tej sekwencji-skutecznie wymazując wpływ pojedynczej sekwencji. Dla faktów obejmujących wiele sekwencji uczenie się jest możliwe, ale DP na poziomie użytkownika może zwiększyć ochronę w scenariuszach danych mapowanych przez użytkownika. Testy empiryczne wzmacniają te gwarancje. Powodowanie modelu z 50-lecznymi prefiksami z dokumentów szkoleniowych wywołało brak wykrywalnego zapamiętywania odpowiednich sufiksu, podkreślając skuteczność DP w ograniczaniu retencji danych. Podsumowując, Vaultgemma rozwija wizję potężnej, prywatności według sztucznej AI. Podczas gdy luka użytkowa pozostaje między modelami DP i nie-DP, nowe przepisy dotyczące skalowania i innowacje szkoleniowe oferują systematyczną ścieżkę do jej wypełnienia. To wydanie umożliwia społeczność wspieranie bezpiecznej, odpowiedzialnej sztucznej inteligencji, z ciągłymi badaniami nad mechanizmami DP, które mają na celu zwiększenie dalszych korzyści. Projekt uznaje wkład zespołów Gemma i Google Prywatności, w tym opinie Petera Kairouz, Brendana McMahana i Dana Ramage’a na temat ogłoszenia. Wizualizacje wspomagali Mark Simborg i Kimberly Schwede, przy wsparciu zespołów Google w zakresie algorytmów, infrastruktury i konserwacji. Bezpośredni współpracownicy to Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Preme eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Crurish Kamath, Ravi Kumar, Daogao Liu Andreas Terzis, Tris Warkentin, Da Yu i Chiyuan Zhang. Ta inicjatywa nie tylko uwalnia przełomowy model, ale także zapewnia fundamentalne narzędzia do skalowania prywatnej sztucznej inteligencji. Ponieważ organizacje zmagają się z przepisami dotyczącymi prywatności danych, takich jak RODO i pojawiające się standardy etyki AI, Vaultgemma jest przykładem, w jaki sposób rygor matematyczny może zharmonizować innowacje z ochroną. Otwarta dostępność zaprasza globalną współpracę, potencjalnie przyspieszając adopcję w sektorach takich jak opieka zdrowotna, finanse i spersonalizowane usługi, w których prywatność jest najważniejsza. Zagłębiając się w przepisy dotyczące skalowania, badania zakładają, że współczynnik partii hałasu dominuje z powodu hałasu prywatności przytłaczającej naturalnej wariancji próbkowania. To uproszczenie utrzymuje się w eksperymentach, umożliwiając prognozy strat z dużą wiernością. Na przykład, w ramach ustalonego budżetu obliczania 10^18 i poziomu prywatności ε = 2, optymalna konfiguracja może obejmować model 500 m parametrów o wielkości partii 4K i 1M iteracjach, co daje utratę około 2,5-pierwszego niż nieoptymalne przydziały. Analiza synergii, wywodząca się z rachunkowości prywatności bez pełnego szkolenia, ujawnia krytyczną dynamikę. Wykreślenie marginalnych korzyści pokazuje, że podwojenie obliczeń (za pomocą wielkości partii) zmniejsza współczynnik partii hałasu, zwiększając równoważne użyteczność do czterokrotnego budżetu prywatności. Podkreśla to dźwignię Compute w reżimach DP, gdzie hałas wzmacnia nieefektywność. W szkoleniu Vaultgemma zespół ukierunkował optymalność obliczeniową dla parametrów 1B, przydzielając około 60% rozszerzenia wielkości partii (do 8k od 1K bez DP), 30% do iteracji (łącznie 2M) i 10% do dłuższych sekwencji (1024 tokenów). Integracja próbkowania Poissona za pomocą skalowalnego DP-SGD utrzymywała granice (ε, δ) podczas przetwarzania tokenów 1T, skala wcześniej zniechęcająca dla DP. Szczegółowe informacje na podstawie wyników. W Hellaswag Vaultgemma zdobywa 72,1% dokładności, dopasowując 72,3% Gemma 3 i 70,8% Gemma 3. Boolq widzi odpowiednio 78,5% vs. 78,7% i 75,2%. PIQA: 74,2% vs. 74,5% i 71,9%; SOCINIQA: 68,4% vs. 68,6% i 65,1%; Ciekawostka: 52,3% vs. 52,5% i 48,7%; ARC-C: 45,6% vs. 45,8% i 42,1%; ARC-E: 82,1% vs. 82,3% i 79,5%. Te niemal pary w zakresie zadań Comonsens, QA i rozumowania potwierdzają rentowność DP dla szerokich zastosowań. Gwarancja na poziomie sekwencji odpowiada mieszance zapakowanej dokumentów, ale raport odnotowuje rozszerzenia na poziomie użytkownika za pośrednictwem zaawansowanych księgowych. Testy empiryczne obejmowały 1000 losowych prefiksów; Zero sufiksów dopasowały się poza przypadkiem (p <0,01), kontrastując linie bazowe poza DP wykazujące 5-10% wycofanie. Szersze implikacje obejmują AI Enterprise. W przypadku DP modele takie jak VaultGemma umożliwiają federacyjne uczenie się na wrażliwych danych bez centralizacji, przestrzegając przepisów przy jednoczesnym zachowaniu ekspresji. Pięcioletni nie-DP Tech sygnalizuje szybkie dojrzewanie; Prognozy sugerują parzystość z obecnymi liniami bazowymi w ciągu 2-3 lat za pośrednictwem rafinowanych przepisów. Pozostają wyzwania, w tym wpływ szumu na uczenie się długiego kontaktu i rozszerzenia multimodalne. Jednak wydanie Vaultgemma demokratyzuje prywatną sztuczną inteligencję, wspierając innowacje w bezpiecznych chatbotach, anonimowych analizach i narzędziach badawczych etycznych. W miarę wzrostu stóp społecznych AI takie modele prywatności będą niezbędne.
Source: Google uwalnia VaultGemma jako najlepszy model języka DP





