TechBriefly PL
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly PL
No Result
View All Result
Home Tech
Procesory graficzne Nvidia Rubin: 200 teraflopów FP64 z emulacji oprogramowania

Procesory graficzne Nvidia Rubin: 200 teraflopów FP64 z emulacji oprogramowania

byEmre Çıtak
19/01/2026
in Tech
Reading Time: 5 mins read
Share on FacebookShare on Twitter

Nowe procesory graficzne Nvidia Rubin wykorzystują emulację oprogramowania w celu zwiększenia wydajności FP64 w HPC, podważając niedawną przewagę AMD w tej dziedzinie, pomimo wyrażonych przez AMD zastrzeżeń co do praktycznego zastosowania tej metody. Obliczenia zmiennoprzecinkowe o podwójnej precyzji (FP64) są niezbędne w nowoczesnych zastosowaniach HPC i obliczeniach naukowych. Nowo zaprezentowane procesory graficzne Rubin firmy Nvidia zapewniają 33 teraFLOPS maksymalnej wydajności FP64 bez emulacji, czyli o jeden teraFLOP mniej niż czteroletni H100. Po włączeniu emulacji oprogramowania w bibliotekach CUDA firmy Nvidia, chip może podobno osiągnąć nawet 200 teraFLOPSów wydajności matrycy FP64. Oznacza to 4,4-krotny wzrost w porównaniu z możliwościami sprzętowymi dotychczasowych akceleratorów Blackwell. Dan Ernst, starszy dyrektor ds. produktów superkomputerowych w firmie Nvidia, stwierdził: „Dzięki wielu badaniom z partnerami i naszym wewnętrznym dochodzeniom odkryliśmy, że dokładność uzyskiwana z emulacji jest co najmniej tak dobra, jak ta, którą uzyskalibyśmy ze sprzętu z rdzeniem tensorowym”. Nicholas Malaya, pracownik AMD, zauważył: „W niektórych testach jest całkiem dobry, nie jest oczywiste, że jest dobry w rzeczywistych, fizycznych symulacjach naukowych”. Malaya zasugerowała, że ​​emulacja FP64 wymaga dalszych badań i eksperymentów. FP64 pozostaje standardem w obliczeniach naukowych ze względu na swój zakres dynamiczny, który może wyrazić ponad 18,44 kwintyliona (264) unikalne wartości. Z drugiej strony, nowoczesne modele sztucznej inteligencji, takie jak DeepSeek R1, są często szkolone w 8PR, które mogą wyrazić 256 unikalnych wartości. Symulacje HPC opierają się na podstawowych zasadach fizycznych, co czyni je odpornymi na błędy, w przeciwieństwie do obciążeń AI. Malaya wyjaśniła: „Gdy tylko zaczniesz popełniać błędy, te skończone błędy rozprzestrzeniają się i powodują na przykład eksplozje”. Koncepcja wykorzystania typów danych o niższej precyzji do emulacji FP64 nie jest nowa. Ernst wspomniał: „Emulacja jest stara jak świat. Emulację stosowaliśmy w połowie lat 50., zanim pojawił się sprzęt zmiennoprzecinkowy”. Na początku 2024 r. badacze z instytutów technologicznych w Tokio i Shibaura opublikowali artykuł analizujący tę koncepcję. Ich metoda pokazała, że ​​operacje na macierzy FP64 można rozłożyć na wiele operacji INT8, uzyskując wyższą niż natywna wydajność na rdzeniach tensorowych Nvidii. Podejście to, znane jako schemat Ozaki, stanowi podstawę bibliotek emulacji FP64 firmy Nvidia, wydanych pod koniec ubiegłego roku. Ernst wyjaśnił: „To wciąż FP64. Nie jest to precyzja mieszana. Jest po prostu wykonana i skonstruowana w inny sposób, z punktu widzenia sprzętu”. Nowoczesne procesory graficzne zawierają rdzenie tensorowe o niskiej precyzji. Na przykład rdzenie tensorowe Rubina są w stanie wykonać 35 petaFLOPS gęstych obliczeń FP4. W FP64 te chipy są ponad 1000 razy wolniejsze. Ernst wyjaśnił, że wydajność budowy i eksploatacji tych rdzeni tensorowych o niskiej precyzji skłoniła do zbadania możliwości ich wykorzystania w obliczeniach FP64. „Mamy sprzęt, spróbujmy go wykorzystać. Taka jest historia superkomputerów” – powiedział. AMD wyraziło obawy co do dokładności emulacji FP64. Malaya wskazała, że ​​emulacja FP64 sprawdza się dobrze w przypadku dobrze kondycjonowanych systemów numerycznych, powołując się na test porównawczy High Performance Linpack (HPL). Jednakże „kiedy spojrzysz na materiałoznawstwo, kody spalania, systemy algebry liniowej pasmowej i tym podobne rzeczy, okazuje się, że są to systemy znacznie słabiej uwarunkowane i nagle zaczynają się rozpadać” – powiedział. Malaya zauważył, że emulacja FP64 nie jest w pełni zgodna z IEEE, ponieważ algorytmy Nvidii nie uwzględniają niuansów, takich jak zera dodatnie i ujemne, a nie błędy liczbowe lub błędy nieskończonej liczby. Małe błędy w operacjach pośrednich emulacji mogą prowadzić do niedokładności. Zwiększenie liczby operacji w celu złagodzenia tego problemu może zniweczyć korzyści w zakresie wydajności. Malaya poinformował również: „Mamy dane, które pokazują, że używasz około dwukrotnie większej pojemności pamięci w Ozaki do emulacji macierzy FP64”. Dlatego AMD koncentruje się na wyspecjalizowanym sprzęcie zapewniającym podwójną i pojedynczą precyzję, a nadchodzący MI430X wykorzystuje architekturę chipletów w celu zwiększenia wydajności. Ernst przyznał, że istnieją luki we wdrażaniu Nvidii. Twierdził, że dodatnie/ujemne zera nie są krytyczne dla większości praktyków HPC. Nvidia opracowała dodatkowe algorytmy do wykrywania i łagodzenia problemów, takich jak liczby nieliczbowe i liczby nieskończone. Jeśli chodzi o zużycie pamięci, Ernst przyznał, że może być wyższe, ale stwierdził, że ten narzut zależy od operacji, a nie aplikacji, zwykle obejmującej matryce o wielkości kilku gigabajtów. Twierdził również, że problemy ze zgodnością ze standardem IEEE często nie pojawiają się w przypadkach mnożenia macierzy. „Większość przypadków użycia, w których stosowane są zasady porządkowania zgodne z IEEE, nie pojawia się w przypadku macierzy i mnożenia macierzy. Nie ma DGEMM, który i tak miałby tendencję do przestrzegania tej reguły” – powiedział Ernst. Emulacja FP64 jest skuteczna przede wszystkim w podzbiorze aplikacji HPC opierających się na operacjach gęstego ogólnego mnożenia macierzy (DGEMM). Malaya oszacowała, że ​​w przypadku 60–70 procent obciążeń HPC emulacja zapewnia minimalne korzyści. „Według naszej analizy zdecydowana większość rzeczywistych obciążeń HPC opiera się na wektorowym FMA, a nie na DGEMM” – powiedział. W przypadku zadań wymagających dużej liczby wektorów, takich jak obliczeniowa dynamika płynów, procesory graficzne Rubin działają na wolniejszych akceleratorach wektorowych FP64 w rdzeniach CUDA. Ernst podkreślił, że wyższe FLOPS nie zawsze są równoznaczne z użytecznymi FLOPS, ponieważ przepustowość pamięci często ogranicza wydajność w świecie rzeczywistym. Odniósł się do obciążonego wektorami testu porównawczego High Performance Conjugate Gradient przeprowadzonego przez TOP500, w którym procesory często przodują ze względu na większą liczbę bitów na FLOPS z podsystemów pamięci. Dzięki nowym superkomputerom integrującym procesory graficzne Nvidia Blackwell i Rubin zostanie przetestowana wykonalność emulacji FP64. Nieodłączna niezależność algorytmów od konkretnego sprzętu pozwala na potencjalne ulepszenia w miarę upływu czasu. Malaya potwierdziła, że ​​AMD bada również emulację FP64 na chipach takich jak MI355X za pomocą flag oprogramowania, aby zidentyfikować odpowiednie zastosowania. Wskazał, że zgodność z IEEE potwierdzi podejście, zapewniając spójne wyniki pomiędzy emulacją a dedykowanym krzemem. Malaya stwierdziła: „Jeśli mogę pójść do partnera i powiedzieć, uruchom te dwa pliki binarne: ten daje tę samą odpowiedź co drugi i jest szybszy, i tak, pod maską robimy jakiś plan – myślę, że to przekonujący argument, który jest gotowy do wykorzystania w prime time. Dodał, że określone aplikacje mogą być bardziej niezawodne dzięki emulacji, sugerując: „Jako społeczność powinniśmy stworzyć koszyk aplikacji, na które warto zwrócić uwagę”.

  Nvidia zaprzecza roszczeniom o bezpieczeństwie H20 GPU

Autor wyróżnionego obrazu

Source: Procesory graficzne Nvidia Rubin: 200 teraflopów FP64 z emulacji oprogramowania

Related Posts

Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu za bezprawne zyski

Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu za bezprawne zyski

Walmart utrzymuje blokadę Apple Pay we wszystkich sklepach w USA do 2026 roku

Walmart utrzymuje blokadę Apple Pay we wszystkich sklepach w USA do 2026 roku

Apple skupia się w iOS 27 na jakości i podstawowej wydajności

Apple skupia się w iOS 27 na jakości i podstawowej wydajności

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu za bezprawne zyski
Tech

Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu za bezprawne zyski

Walmart utrzymuje blokadę Apple Pay we wszystkich sklepach w USA do 2026 roku
Tech

Walmart utrzymuje blokadę Apple Pay we wszystkich sklepach w USA do 2026 roku

Procesory graficzne Nvidia Rubin: 200 teraflopów FP64 z emulacji oprogramowania
Tech

Procesory graficzne Nvidia Rubin: 200 teraflopów FP64 z emulacji oprogramowania

Apple skupia się w iOS 27 na jakości i podstawowej wydajności
Tech

Apple skupia się w iOS 27 na jakości i podstawowej wydajności

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci
Tech

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

TechBriefly PL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.