Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

Podobno do opracowania zaawansowanego modelu językowego GPT-4 OpenAI wykorzystało ogromną ilość danych wideo z YouTube.

Mówi się, że firma dokonała transkrypcji ponad miliona godzin treści wideo.

Wiadomość ta zbiega się z szerszym trendem w branży sztucznej inteligencji (AI), gdzie giganci technologiczni znajdują coraz bardziej kreatywne (a czasem kontrowersyjne) sposoby gromadzenia paliwa, którego pragną ich modele sztucznej inteligencji – danych.

Dlaczego YouTube szepcze znaczenie dla sztucznej inteligencji

The New York Times niedawno rzucili światło na tę kwestię związaną z rozwojem, gdy kilka dni temu YouTube zapytał, czy filmy na ich platformie są wykorzystywane jako źródło danych szkoleniowych dla SORA, czy nie.

Po co więc szukać danych treningowych w YouTube? To naprawdę proste. YouTube oferuje praktycznie nieograniczoną skarbnicę języka mówionego. Każdy vlog, film z rozpakowywania i obszerny samouczek zawiera ludzką mowę w całej jej różnorodnej i niechlujnej chwale. Ponieważ duże modele językowe, takie jak GPT-4, uczą się poprzez „przyjmowanie” i analizowanie ogromnych ilości tekstu, transkrypcja dźwięku z filmów staje się nieocenioną pożywką.

Telefony z cegły powracają dzięki tej chińskiej marce

Jednak przekształcanie dźwięku z YouTube w przydatne dane szkoleniowe rodzi złożone pytania. Narzędzie do rozpoznawania mowy OpenAISzeptodegrał kluczową rolę w transkrypcji ogromnej ilości materiału wideo. Ten proces transkrypcji, choć konieczny, skupia uwagę na kwestiach praw autorskich i dozwolonego użytku.

Dane, wszędzie dane… Ale czy OpenAI może siać?

Poszukiwanie solidnych zbiorów danych do zasilania sztucznej inteligencji nie jest bynajmniej czymś wyjątkowym w przypadku OpenAI. Giganci technologiczni na całym świecie zmagają się z tym samym wyzwaniem. W końcu modele AI są notorycznie żądne danych. Im bardziej zróżnicowane i wysokiej jakości dane wejściowe, tym lepiej wyposażone są modele, aby poradzić sobie ze złożonością świata rzeczywistego.

Presja na znalezienie kreatywnych źródeł danych jest zrozumiała. W przypadku OpenAI firma podobno zbadała takie opcje, jak podcasty i audiobooki, po tym jak w 2021 r. borykała się z niedoborem bardziej konwencjonalnych materiałów szkoleniowych. Jednak to polowanie na dane ma potencjalną wadę – przesuwanie granic tego, co jest uważane za dopuszczalne prawnie i etycznie.

Facebook zaczął rozwijać swój klub

openai podobno korzystało z danych YouTube — **Według doniesień OpenAI wykorzystało ponad milion godzin danych wideo z YouTube do opracowania zaawansowanego modelu językowego GPT-4** (Kredyt obrazu)

Szara strefa, w której zderzają się dane AI i prawa autorskie

YouTube ma własne, jasne warunki korzystania z usługi, które zazwyczaj ograniczają sposób korzystania z jego treści. Chociaż w prawie autorskim istnieją postanowienia dotyczące „dozwolonego użytku” (z różnymi interpretacjami w poszczególnych krajach), wykorzystywanie ich jako uzasadnienia szeroko zakrojonego pobierania danych może być ryzykowne z punktu widzenia prawa.

Sprawa nie jest oczywista. Kiedy firmy technologiczne korzystają z istniejących treści do szkolenia swoich systemów AI, pojawiają się pytania:

Czy to potencjalnie ogranicza zdolność twórców oryginalnych treści do czerpania zysków ze swojej pracy?
Czy twórcy otrzymują wystarczające wynagrodzenie, jeśli ich materiały napędzają rozwój komercyjnych narzędzi AI?
Czy powinny istnieć jaśniejsze wytyczne lub przepisy dotyczące gromadzenia danych szkoleniowych na dużą skalę?

Duży apetyt sztucznej inteligencji rodzi jeszcze większe pytania

Przypadek OpenAI ukazuje szerszy trend – nienasycone zapotrzebowanie na dane we współczesnej branży AI. W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, w centrum uwagi znajdą się kwestie etyczne i prawne dotyczące sposobu pozyskiwania danych szkoleniowych.

Xiaomi ogłasza Xiaomi 17, 17 Pro i 17 Pro Max Launch

Niezależnie od tego, czy chodzi o filmy z YouTube, repozytoria kodów, czy inne rodzaje treści generowanych przez użytkowników, zapewnienie uczciwego i odpowiedzialnego wykorzystania danych stanie się kluczowe dla utrzymania zaufania publicznego do tej szybko rozwijającej się technologii.

Autor wyróżnionego obrazu: Zaca Wolffa/Usuń rozpryski

Source: Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4