Podobno do opracowania zaawansowanego modelu językowego GPT-4 OpenAI wykorzystało ogromną ilość danych wideo z YouTube.
Mówi się, że firma dokonała transkrypcji ponad miliona godzin treści wideo.
Wiadomość ta zbiega się z szerszym trendem w branży sztucznej inteligencji (AI), gdzie giganci technologiczni znajdują coraz bardziej kreatywne (a czasem kontrowersyjne) sposoby gromadzenia paliwa, którego pragną ich modele sztucznej inteligencji – danych.
Dlaczego YouTube szepcze znaczenie dla sztucznej inteligencji
The New York Times niedawno rzucili światło na tę kwestię związaną z rozwojem, gdy kilka dni temu YouTube zapytał, czy filmy na ich platformie są wykorzystywane jako źródło danych szkoleniowych dla SORA, czy nie.
Po co więc szukać danych treningowych w YouTube? To naprawdę proste. YouTube oferuje praktycznie nieograniczoną skarbnicę języka mówionego. Każdy vlog, film z rozpakowywania i obszerny samouczek zawiera ludzką mowę w całej jej różnorodnej i niechlujnej chwale. Ponieważ duże modele językowe, takie jak GPT-4, uczą się poprzez „przyjmowanie” i analizowanie ogromnych ilości tekstu, transkrypcja dźwięku z filmów staje się nieocenioną pożywką.
Jednak przekształcanie dźwięku z YouTube w przydatne dane szkoleniowe rodzi złożone pytania. Narzędzie do rozpoznawania mowy OpenAISzeptodegrał kluczową rolę w transkrypcji ogromnej ilości materiału wideo. Ten proces transkrypcji, choć konieczny, skupia uwagę na kwestiach praw autorskich i dozwolonego użytku.
Dane, wszędzie dane… Ale czy OpenAI może siać?
Poszukiwanie solidnych zbiorów danych do zasilania sztucznej inteligencji nie jest bynajmniej czymś wyjątkowym w przypadku OpenAI. Giganci technologiczni na całym świecie zmagają się z tym samym wyzwaniem. W końcu modele AI są notorycznie żądne danych. Im bardziej zróżnicowane i wysokiej jakości dane wejściowe, tym lepiej wyposażone są modele, aby poradzić sobie ze złożonością świata rzeczywistego.
Presja na znalezienie kreatywnych źródeł danych jest zrozumiała. W przypadku OpenAI firma podobno zbadała takie opcje, jak podcasty i audiobooki, po tym jak w 2021 r. borykała się z niedoborem bardziej konwencjonalnych materiałów szkoleniowych. Jednak to polowanie na dane ma potencjalną wadę – przesuwanie granic tego, co jest uważane za dopuszczalne prawnie i etycznie.
Szara strefa, w której zderzają się dane AI i prawa autorskie
YouTube ma własne, jasne warunki korzystania z usługi, które zazwyczaj ograniczają sposób korzystania z jego treści. Chociaż w prawie autorskim istnieją postanowienia dotyczące „dozwolonego użytku” (z różnymi interpretacjami w poszczególnych krajach), wykorzystywanie ich jako uzasadnienia szeroko zakrojonego pobierania danych może być ryzykowne z punktu widzenia prawa.
Sprawa nie jest oczywista. Kiedy firmy technologiczne korzystają z istniejących treści do szkolenia swoich systemów AI, pojawiają się pytania:
- Czy to potencjalnie ogranicza zdolność twórców oryginalnych treści do czerpania zysków ze swojej pracy?
- Czy twórcy otrzymują wystarczające wynagrodzenie, jeśli ich materiały napędzają rozwój komercyjnych narzędzi AI?
- Czy powinny istnieć jaśniejsze wytyczne lub przepisy dotyczące gromadzenia danych szkoleniowych na dużą skalę?
Duży apetyt sztucznej inteligencji rodzi jeszcze większe pytania
Przypadek OpenAI ukazuje szerszy trend – nienasycone zapotrzebowanie na dane we współczesnej branży AI. W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, w centrum uwagi znajdą się kwestie etyczne i prawne dotyczące sposobu pozyskiwania danych szkoleniowych.
Niezależnie od tego, czy chodzi o filmy z YouTube, repozytoria kodów, czy inne rodzaje treści generowanych przez użytkowników, zapewnienie uczciwego i odpowiedzialnego wykorzystania danych stanie się kluczowe dla utrzymania zaufania publicznego do tej szybko rozwijającej się technologii.
Autor wyróżnionego obrazu: Zaca Wolffa/Usuń rozpryski
Source: Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4