Autorzy oskarżyli firmę NVIDIA o naruszenie praw autorskich w złożonym niedawno rozszerzonym pozwie zbiorowym, twierdząc, że firma uzyskała miliony pirackich książek z Archiwum Anny na potrzeby szkoleń w zakresie sztucznej inteligencji. W skardze powołuje się na dokumenty wewnętrzne wskazujące, że NVIDIA szukała szybkiego dostępu do danych biblioteki cieni. NVIDIA, producent chipów, odnotował wzrost przychodów z sektora sztucznej inteligencji ze względu na popyt na chipy do uczenia się AI i usługi centrów danych. Firma opracowuje modele AI, takie jak NeMo, Retro-48B, InstructRetro i Megatron, szkolone przy użyciu swojego sprzętu i rozbudowanych bibliotek tekstowych. To wyzwanie prawne jest następstwem poprzednich procesów sądowych, w których autorzy oskarżali firmy technologiczne o trenowanie modeli sztucznej inteligencji na pirackich książkach. Na początku 2024 roku autorzy pozwali firmę NVIDIA, utrzymując, że jej modele sztucznej inteligencji zostały przeszkolone bez pozwolenia w oparciu o zbiór danych Books3, który zawierał dzieła chronione prawem autorskim z witryny Bibliotik. NVIDIA broniła swoich działań jako dozwolonego użytku, twierdząc, że książki pełnią funkcję korelacji statystycznych dla jej modeli sztucznej inteligencji. W toku śledztwa powodowie odkryli dodatkowe dowody. W piątek autorzy złożyli poprawioną skargę, która rozszerzyła zakres pozwu. Ta aktualizacja obejmowała więcej książek, autorów i modeli sztucznej inteligencji, a także nowe twierdzenia o „bibliotece cieni”. Autorzy, w tym Abdi Nazemian, cytowali wewnętrzne e-maile i dokumenty firmy NVIDIA, twierdząc, że firma chętnie pobrała miliony książek chronionych prawem autorskim. W skardze zarzuca się, że „presja konkurencji doprowadziła firmę NVIDIA do piractwa”, co wiąże się z czymś, co określa się jako współpracę z Anna's Archive. Zgodnie ze zmienioną skargą członek zespołu ds. strategii danych firmy NVIDIA skontaktował się z Archiwum Anny w celu oceny ofert dotyczących danych. W skardze szczegółowo opisano interakcję: „Zdesperowana w poszukiwaniu książek firma NVIDIA skontaktowała się z Archiwum Anny — największą i najbardziej bezczelną z pozostałych bibliotek cieni — w sprawie nabycia milionów pirackich materiałów oraz „włączenia Archiwum Anny do danych przedtreningowych dla naszych LLM”. Archiwum Anny pobrało dziesiątki tysięcy dolarów za „szybki dostęp” do swoich pirackich zbiorów; NVIDIA zbadała specyfikę tego dostępu. W skardze stwierdza się, że Archiwum Anny poinformowało firmę NVIDIA o nielegalnym charakterze swojej biblioteki. Następnie biblioteka piracka zapytała kierownictwo firmy NVIDIA, czy wydano wewnętrzne pozwolenie na kontynuację. Pozwolenie zostało rzekomo wydane w ciągu tygodnia, po czym Archiwum Anny udostępniło swoje pirackie książki. „W ciągu tygodnia od skontaktowania się z Archiwum Anny i kilka dni po ostrzeżeniu przez Archiwum Anny o nielegalnym charakterze ich kolekcji kierownictwo firmy NVIDIA dało «zielone światło» na kontynuację piractwa. Archiwum Anny zaoferowało firmie NVIDIA miliony pirackich książek chronionych prawem autorskim” – czytamy w skardze. Archiwum Anny obiecało firmie NVIDIA dostęp do około 500 terabajtów danych, zawierających miliony książek zwykle dostępnych za pośrednictwem systemu wypożyczeń cyfrowych Internet Archive, który sam przeszedł kontrolę prawną. W skardze nie określono, czy NVIDIA zapłaciła Archiwum Anny za ten dostęp. Oprócz bazy danych Books3 w skardze zarzuca się, że NVIDIA pobrała książki z LibGen, Sci-Hub i Z-Library. Autorzy twierdzą również, że firma NVIDIA udostępnia rozproszone skrypty i narzędzia umożliwiające klientom korporacyjnym automatyczne pobieranie „The Pile”, zawierającego piracki zestaw danych Books3. Roszczenia te wprowadzają zarzuty pośredniego i współudziału w naruszeniu prawa, zarzucając firmie NVIDIA uzyskiwanie przychodów od klientów poprzez ułatwianie dostępu do tych zbiorów danych. Autorzy domagają się odszkodowania, zwracając się do wymienionych autorów i potencjalnie setek innych osób w ramach pozwu zbiorowego. Jest to pierwsze publiczne ujawnienie korespondencji pomiędzy dużą amerykańską firmą technologiczną a Anna's Archive, co potencjalnie zwiększa widoczność pirackiej biblioteki po niedawnej utracie nazw domen. Kopia pierwszej skonsolidowanej i zmienionej skargi złożonej w Sądzie Okręgowym Stanów Zjednoczonych dla Północnego Okręgu Kalifornii jest dostępna w formacie PDF. Do wymienionych autorów należą Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III i Susan Orlean.
Source: Autorzy oskarżają firmę NVIDIA o masowe piractwo w zakresie szkoleń AI