TechBriefly PL
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly PL
No Result
View All Result
Home Tech
Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

byEmre Çıtak
08/04/2024
in Tech
Reading Time: 3 mins read
Share on FacebookShare on Twitter

Podobno do opracowania zaawansowanego modelu językowego GPT-4 OpenAI wykorzystało ogromną ilość danych wideo z YouTube.

Mówi się, że firma dokonała transkrypcji ponad miliona godzin treści wideo.

Wiadomość ta zbiega się z szerszym trendem w branży sztucznej inteligencji (AI), gdzie giganci technologiczni znajdują coraz bardziej kreatywne (a czasem kontrowersyjne) sposoby gromadzenia paliwa, którego pragną ich modele sztucznej inteligencji – danych.

Dlaczego YouTube szepcze znaczenie dla sztucznej inteligencji

The New York Times niedawno rzucili światło na tę kwestię związaną z rozwojem, gdy kilka dni temu YouTube zapytał, czy filmy na ich platformie są wykorzystywane jako źródło danych szkoleniowych dla SORA, czy nie.

Po co więc szukać danych treningowych w YouTube? To naprawdę proste. YouTube oferuje praktycznie nieograniczoną skarbnicę języka mówionego. Każdy vlog, film z rozpakowywania i obszerny samouczek zawiera ludzką mowę w całej jej różnorodnej i niechlujnej chwale. Ponieważ duże modele językowe, takie jak GPT-4, uczą się poprzez „przyjmowanie” i analizowanie ogromnych ilości tekstu, transkrypcja dźwięku z filmów staje się nieocenioną pożywką.

  iOS 14.5 zintegruje system rekalibracji stanu baterii

Jednak przekształcanie dźwięku z YouTube w przydatne dane szkoleniowe rodzi złożone pytania. Narzędzie do rozpoznawania mowy OpenAISzeptodegrał kluczową rolę w transkrypcji ogromnej ilości materiału wideo. Ten proces transkrypcji, choć konieczny, skupia uwagę na kwestiach praw autorskich i dozwolonego użytku.

Dane, wszędzie dane… Ale czy OpenAI może siać?

Poszukiwanie solidnych zbiorów danych do zasilania sztucznej inteligencji nie jest bynajmniej czymś wyjątkowym w przypadku OpenAI. Giganci technologiczni na całym świecie zmagają się z tym samym wyzwaniem. W końcu modele AI są notorycznie żądne danych. Im bardziej zróżnicowane i wysokiej jakości dane wejściowe, tym lepiej wyposażone są modele, aby poradzić sobie ze złożonością świata rzeczywistego.

Presja na znalezienie kreatywnych źródeł danych jest zrozumiała. W przypadku OpenAI firma podobno zbadała takie opcje, jak podcasty i audiobooki, po tym jak w 2021 r. borykała się z niedoborem bardziej konwencjonalnych materiałów szkoleniowych. Jednak to polowanie na dane ma potencjalną wadę – przesuwanie granic tego, co jest uważane za dopuszczalne prawnie i etycznie.

  Japonia wprowadziła nowe ograniczenia na stablecoiny
openai podobno korzystało z danych YouTube
Według doniesień OpenAI wykorzystało ponad milion godzin danych wideo z YouTube do opracowania zaawansowanego modelu językowego GPT-4 (Kredyt obrazu)

Szara strefa, w której zderzają się dane AI i prawa autorskie

YouTube ma własne, jasne warunki korzystania z usługi, które zazwyczaj ograniczają sposób korzystania z jego treści. Chociaż w prawie autorskim istnieją postanowienia dotyczące „dozwolonego użytku” (z różnymi interpretacjami w poszczególnych krajach), wykorzystywanie ich jako uzasadnienia szeroko zakrojonego pobierania danych może być ryzykowne z punktu widzenia prawa.

Sprawa nie jest oczywista. Kiedy firmy technologiczne korzystają z istniejących treści do szkolenia swoich systemów AI, pojawiają się pytania:

  • Czy to potencjalnie ogranicza zdolność twórców oryginalnych treści do czerpania zysków ze swojej pracy?
  • Czy twórcy otrzymują wystarczające wynagrodzenie, jeśli ich materiały napędzają rozwój komercyjnych narzędzi AI?
  • Czy powinny istnieć jaśniejsze wytyczne lub przepisy dotyczące gromadzenia danych szkoleniowych na dużą skalę?

Duży apetyt sztucznej inteligencji rodzi jeszcze większe pytania

Przypadek OpenAI ukazuje szerszy trend – nienasycone zapotrzebowanie na dane we współczesnej branży AI. W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, w centrum uwagi znajdą się kwestie etyczne i prawne dotyczące sposobu pozyskiwania danych szkoleniowych.

  Adform obchodzi drugi rok obowiązywania rozporządzenia o ochronie danych, RODO

Niezależnie od tego, czy chodzi o filmy z YouTube, repozytoria kodów, czy inne rodzaje treści generowanych przez użytkowników, zapewnienie uczciwego i odpowiedzialnego wykorzystania danych stanie się kluczowe dla utrzymania zaufania publicznego do tej szybko rozwijającej się technologii.


Autor wyróżnionego obrazu: Zaca Wolffa/Usuń rozpryski

Source: Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

Related Posts

Google uruchamia odnowioną stronę Eksploruj trendy z Gemini

Google uruchamia odnowioną stronę Eksploruj trendy z Gemini

Verizon naprawia ogólnokrajową awarię sieci po 10-godzinnej przerwie w dostawie prądu

Verizon naprawia ogólnokrajową awarię sieci po 10-godzinnej przerwie w dostawie prądu

Netflix wprowadza oryginalne podcasty wideo, aby rzucić wyzwanie dominacji YouTube

Netflix wprowadza oryginalne podcasty wideo, aby rzucić wyzwanie dominacji YouTube

Civilization VII dołącza do Apple Arcade po mieszanych recenzjach premiery

Civilization VII dołącza do Apple Arcade po mieszanych recenzjach premiery

Google uruchamia odnowioną stronę Eksploruj trendy z Gemini
Tech

Google uruchamia odnowioną stronę Eksploruj trendy z Gemini

Verizon naprawia ogólnokrajową awarię sieci po 10-godzinnej przerwie w dostawie prądu
Tech

Verizon naprawia ogólnokrajową awarię sieci po 10-godzinnej przerwie w dostawie prądu

Netflix wprowadza oryginalne podcasty wideo, aby rzucić wyzwanie dominacji YouTube
Tech

Netflix wprowadza oryginalne podcasty wideo, aby rzucić wyzwanie dominacji YouTube

Civilization VII dołącza do Apple Arcade po mieszanych recenzjach premiery
Tech

Civilization VII dołącza do Apple Arcade po mieszanych recenzjach premiery

Zdalne blokowanie iPhone'a dziecka bez fizycznego dostępu
Tech

Zdalne blokowanie iPhone'a dziecka bez fizycznego dostępu

TechBriefly PL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.