Enfabrica, startup wspierany przez NVIDIA, wprowadził swój system EMFASYS, zaprojektowany do zwiększenia pojemności pamięci serwera do wymagania obciążeń dotyczących wnioskowania AI. System EMFASYS zapewnia do 18 TB dodatkowej pamięci DDR5 dla serwerów za pośrednictwem Ethernet, zajmując się wąskim gardłem pamięci często spotykanym w aplikacjach AI na dużą skalę.

System EMFASYS dla stojaków wykorzystuje Supernic ACF-S ENFABRICA, który ma przepustowość 3,2 TB/S (400 GB/s). Ten system łączy pamięć DDR5 z możliwościami CXL, umożliwiając serwery GPU 4-drogowe i 8-kierunkowe w celu uzyskania dostępu do puli pamięci za pomocą standardowych portów Ethernet 400G lub 800G. Połączenie opiera się na zdalnym dostępie do pamięci bezpośredniej (RDMA) w stosunku do Ethernet, ułatwiając bezproblemową integrację z istniejącą infrastrukturą serwera AI.

Transfer danych między serwerami GPU a pulą pamięci EMFASYS wykorzystuje RDMA, umożliwiając zerową kopię, dostęp do pamięci o niskiej opóźnieniu (mierzony w mikrosekundach) bez interwencji procesora, wykorzystując protokół CXL.MEM. Dostęp do puli pamięci EMFASYS wymaga oprogramowania na poziomie pamięci, dostarczonego przez Enfabrica, które zarządza opóźnieniami transferowymi i innymi powiązanymi problemami. To oprogramowanie zostało zaprojektowane do funkcjonowania w istniejących środowiskach sprzętowych i OS, opierając się na ustalonych interfejsach RDMA w celu uproszczenia wdrażania bez konieczności głównych modyfikacji architektonicznych.

Emfasys Enfabrica jest specjalnie dostosowany do rosnących wymagań pamięci współczesnych aplikacji AI, szczególnie tych obejmujących długie podpowiedzi, duże okna kontekstowe lub wiele agentów. Zastosowania te powodują znaczne obciążenie HBM przywiązane do GPU, który ma zarówno pojemność, jak i drogie. Zastosowując zewnętrzną pulę pamięci, operatorzy centrów danych zyskują elastyczność w rozszerzeniu pojemności pamięci poszczególnych serwerów AI, dzięki czemu jest odpowiednim rozwiązaniem dla tych trudnych scenariuszy.

  Jak monitorować aktywne połączenia sieciowe w systemie Windows 10?

Przyjmując pulę pamięci EMFASYS, operatorzy serwerów AI mogą zwiększyć wydajność poprzez lepsze wykorzystanie zasobów obliczeniowych, zmniejszone marnotrawstwo drogiej pamięci GPU i ogólne zmniejszenie kosztów infrastruktury. Enfabrica twierdzi, że ta konfiguracja może obniżyć koszt tokenu generowanego przez AI nawet o 50% w scenariuszach o wysokim skręcie i długim kontekście. Ponadto zadania generowania tokenów można rozdzielić bardziej równomiernie na serwerach, łagodząc potencjalne wąskie gardła.

„Wnioskowanie AI ma problem z zakresem przesunięcia przepustowości pamięci i problem z umieszczeniem marginesu pamięci”, powiedział Rochan Sankar, CEO Enfabrica. „W miarę jak wnioskowanie staje się bardziej agencyjne i konwersacyjne, bardziej retencyjne w porównaniu z zapomnieniem, obecne sposoby skalowania dostępu do pamięci nie utrzymują się. Zbudowaliśmy emfazy, aby stworzyć elastyczną tkankę pamięci AI w skali stojowej i rozwiązywać te wyzwania w sposób, którego nie dokonano wcześniej. Klienci są podekscytowani współpracą z nami, aby zbudować znacznie bardziej skalowalną architektę ruchu pamięci dla ich obciążenia Genai i jeszcze lepiej sprostać ekonomii.”

  Nowy XChat pojawia się na iOS i zapewnia prywatne wiadomości bez reklam

System tkaniny pamięci AI EMFASYS i układ superniczny ACF 3.2 TB/s są obecnie poddawane oceny i testowaniu przez wybranych klientów. Oś czasu ogólnej dostępności pozostaje niejasny.

Enfabrica jest członkiem doradczym konsorcjum Ultra Ethernet (UEC) i przyczynia się do konsorcjum Ultra Accelerator Link (Ualink).

Source: Enfabrica wspierana przez NVIDIA