Anthropic nie opublikowało artykułu technicznego na temat Claude’a Mythosa, co skłoniło Kye Gomeza do uruchomienia OpenMythos, projektu open source na GitHub. OpenMythos został zaprojektowany do rekonstrukcji architektury Claude Mythos przy użyciu pierwszych zasad w PyTorch.

W projekcie zaproponowano, że Claude Mythos to rodzaj architektury znany jako transformatory głębinowe (RDT), które zasadniczo różnią się od tradycyjnych transformatorów. Standardowe transformatory przetwarzają dane wejściowe poprzez szereg unikalnych warstw o ​​niezależnych wagach, podczas gdy RDT stosują stały zestaw wag iteracyjnie podczas pojedynczego przejścia w przód.

Metodologia ta pozwala na uzależnienie głębokości wnioskowania od liczby iteracji wykonanych w momencie wnioskowania. OpenMythos ma trzyczęściową strukturę: Prelude, Recurrent Block i Coda, gdzie Prelude i Coda składają się ze standardowych warstw transformatorów, które działają raz, a blok Recurrent może zapętlić się do 16 razy.

Na każdym etapie pętli stan ukryty jest aktualizowany zgodnie z równaniem: ht+1 = A·ht + B·e + Transformator(ht, e). Tutaj e reprezentuje zakodowany sygnał wejściowy z Prelude, który jest ponownie wprowadzany w każdej iteracji, aby zachować ciągłość. Macierze A i B określają, w jakim stopniu poprzedni stan ukryty i zakodowane dane wejściowe wpływają na następny stan.

  OpenAI publikuje plan bezpieczeństwa dzieci, aby walczyć z nadużyciami opartymi na sztucznej inteligencji

Blok rekurencyjny zawiera warstwę mieszanki ekspertów (MoE), która selektywnie aktywuje podzbiór ekspertów na token, ułatwiając różnorodność obliczeniową. Każda iteracja wykorzystuje inny wybór ekspertów, co pozwala na różne obliczenia przy jednoczesnym współdzieleniu wag podstawowych.

OpenMythos wykorzystuje również funkcję Multi-Latent Attention, która znacznie zmniejsza zużycie pamięci KV. Architektura ta umożliwia rozumowanie bez emisji tokenów pośrednich, w przeciwieństwie do standardowego podpowiedzi w postaci łańcucha myśli, które przetwarzają rozumowanie za pomocą tokenów pośrednich.

OpenMythos rozwiązuje typowe wyzwania szkoleniowe związane z modelami zapętlonymi, takie jak problemy ze stabilnością, takie jak eksplozja szczątkowa i nadmierne myślenie. Stabilność jest utrzymywana poprzez wymuszanie, aby promień widmowy macierzy A pozostawał mniejszy niż 1, jak wskazano w architekturze Parcae.

Zaimplementowano wstrzymywanie dynamicznego czasu obliczeń adaptacyjnych (ACT) w celu określenia kryteriów zatrzymania dla pętli w oparciu o złożoność tokena. Adaptery Depth-Wise LoRA są również wykorzystywane do tworzenia unikalnych zachowań w każdej iteracji, minimalizując wzrost parametrów.

  ByteDance wprowadza Dreamina Seedance 2.0 do CapCut

Badania sugerują, że RDT z 770 milionami parametrów może zapewnić wydajność równoważną standardowemu transformatorowi z 1,3 miliarda parametrów. Oznacza to, że głębokość rozumowania skaluje się wraz z obliczeniami wnioskowania, kwestionując istniejące paradygmaty dotyczące związku między liczbą parametrów a możliwościami modelu.

OpenMythos zapewnia praktyczną implementację do badania dynamiki transformatora zapętlonego i głębi rozumowania, potencjalnie wyznaczając przyszłe postępy w rozwoju sztucznej inteligencji. Projekt zapewnia konfigurowalną implementację PyTorch, stabilne zastrzyki rekurencyjne zgodne z LTI, adaptery LoRA uwzględniające głębokość oraz powtarzalną bazę badawczą.

Gomez stwierdził: „Bez względu na to, czy Mythos jest w rzeczywistości RDT, czy nie, OpenMythos oferuje społeczności badawczej konkretne zasoby umożliwiające zbadanie tej niedostatecznie zbadanej klasy architektury i jej konsekwencji dla sztucznej inteligencji”.

Autor wyróżnionego zdjęcia