Podobno do opracowania zaawansowanego modelu językowego GPT-4 OpenAI wykorzystało ogromną ilość danych wideo z YouTube.

Mówi się, że firma dokonała transkrypcji ponad miliona godzin treści wideo.

Wiadomość ta zbiega się z szerszym trendem w branży sztucznej inteligencji (AI), gdzie giganci technologiczni znajdują coraz bardziej kreatywne (a czasem kontrowersyjne) sposoby gromadzenia paliwa, którego pragną ich modele sztucznej inteligencji – danych.

Dlaczego YouTube szepcze znaczenie dla sztucznej inteligencji

The New York Timesniedawno rzucili światło na tę kwestię związaną z rozwojem, gdy kilka dni temu YouTube zapytał, czy filmy na ich platformie są wykorzystywane jako źródło danych szkoleniowych dla SORA, czy nie.

Po co więc szukać danych treningowych w YouTube? To naprawdę proste. YouTube oferuje praktycznie nieograniczoną skarbnicę języka mówionego. Każdy vlog, film z rozpakowywania i obszerny samouczek zawiera ludzką mowę w całej jej różnorodnej i niechlujnej chwale. Ponieważ duże modele językowe, takie jak GPT-4, uczą się poprzez „przyjmowanie” i analizowanie ogromnych ilości tekstu, transkrypcja dźwięku z filmów staje się nieocenioną pożywką.

  Google może płacić witryny wiadomości za treści AI

Jednak przekształcanie dźwięku z YouTube w przydatne dane szkoleniowe rodzi złożone pytania. Narzędzie do rozpoznawania mowy OpenAISzeptodegrał kluczową rolę w transkrypcji ogromnej ilości materiału wideo. Ten proces transkrypcji, choć konieczny, skupia uwagę na kwestiach praw autorskich i dozwolonego użytku.

Dane, wszędzie dane… Ale czy OpenAI może siać?

Poszukiwanie solidnych zbiorów danych do zasilania sztucznej inteligencji nie jest bynajmniej czymś wyjątkowym w przypadku OpenAI. Giganci technologiczni na całym świecie zmagają się z tym samym wyzwaniem. W końcu modele AI są notorycznie żądne danych. Im bardziej zróżnicowane i wysokiej jakości dane wejściowe, tym lepiej wyposażone są modele, aby poradzić sobie ze złożonością świata rzeczywistego.

Presja na znalezienie kreatywnych źródeł danych jest zrozumiała. W przypadku OpenAI firma podobno zbadała takie opcje, jak podcasty i audiobooki, po tym jak w 2021 r. borykała się z niedoborem bardziej konwencjonalnych materiałów szkoleniowych. Jednak to polowanie na dane ma potencjalną wadę – przesuwanie granic tego, co jest uważane za dopuszczalne prawnie i etycznie.

  AT&T współpracuje z AST SpaceMobile, aby oferować satelitarne usługi komórkowe
openai podobno korzystało z danych YouTube
Według doniesień OpenAI wykorzystało ponad milion godzin danych wideo z YouTube do opracowania zaawansowanego modelu językowego GPT-4 (Kredyt obrazu)

Szara strefa, w której zderzają się dane AI i prawa autorskie

YouTube ma własne, jasne warunki korzystania z usługi, które zazwyczaj ograniczają sposób korzystania z jego treści. Chociaż w prawie autorskim istnieją postanowienia dotyczące „dozwolonego użytku” (z różnymi interpretacjami w poszczególnych krajach), wykorzystywanie ich jako uzasadnienia szeroko zakrojonego pobierania danych może być ryzykowne z punktu widzenia prawa.

Sprawa nie jest oczywista. Kiedy firmy technologiczne korzystają z istniejących treści do szkolenia swoich systemów AI, pojawiają się pytania:

  • Czy to potencjalnie ogranicza zdolność twórców oryginalnych treści do czerpania zysków ze swojej pracy?
  • Czy twórcy otrzymują wystarczające wynagrodzenie, jeśli ich materiały napędzają rozwój komercyjnych narzędzi AI?
  • Czy powinny istnieć jaśniejsze wytyczne lub przepisy dotyczące gromadzenia danych szkoleniowych na dużą skalę?

Duży apetyt sztucznej inteligencji rodzi jeszcze większe pytania

Przypadek OpenAI ukazuje szerszy trend – nienasycone zapotrzebowanie na dane we współczesnej branży AI. W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, w centrum uwagi znajdą się kwestie etyczne i prawne dotyczące sposobu pozyskiwania danych szkoleniowych.

  Alphabet jest czwartą amerykańską firmą, która osiągnęła wycenę w wysokości biliona dolarów

Niezależnie od tego, czy chodzi o filmy z YouTube, repozytoria kodów, czy inne rodzaje treści generowanych przez użytkowników, zapewnienie uczciwego i odpowiedzialnego wykorzystania danych stanie się kluczowe dla utrzymania zaufania publicznego do tej szybko rozwijającej się technologii.


Autor wyróżnionego obrazu: Zaca Wolffa/Usuń rozpryski

Source: Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4