TechBriefly PL
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly PL
No Result
View All Result
Home Tech
Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

byEmre Çıtak
08/04/2024
in Tech
Reading Time: 3 mins read
Share on FacebookShare on Twitter

Podobno do opracowania zaawansowanego modelu językowego GPT-4 OpenAI wykorzystało ogromną ilość danych wideo z YouTube.

Mówi się, że firma dokonała transkrypcji ponad miliona godzin treści wideo.

Wiadomość ta zbiega się z szerszym trendem w branży sztucznej inteligencji (AI), gdzie giganci technologiczni znajdują coraz bardziej kreatywne (a czasem kontrowersyjne) sposoby gromadzenia paliwa, którego pragną ich modele sztucznej inteligencji – danych.

Dlaczego YouTube szepcze znaczenie dla sztucznej inteligencji

The New York Times niedawno rzucili światło na tę kwestię związaną z rozwojem, gdy kilka dni temu YouTube zapytał, czy filmy na ich platformie są wykorzystywane jako źródło danych szkoleniowych dla SORA, czy nie.

Po co więc szukać danych treningowych w YouTube? To naprawdę proste. YouTube oferuje praktycznie nieograniczoną skarbnicę języka mówionego. Każdy vlog, film z rozpakowywania i obszerny samouczek zawiera ludzką mowę w całej jej różnorodnej i niechlujnej chwale. Ponieważ duże modele językowe, takie jak GPT-4, uczą się poprzez „przyjmowanie” i analizowanie ogromnych ilości tekstu, transkrypcja dźwięku z filmów staje się nieocenioną pożywką.

  Telefony z cegły powracają dzięki tej chińskiej marce

Jednak przekształcanie dźwięku z YouTube w przydatne dane szkoleniowe rodzi złożone pytania. Narzędzie do rozpoznawania mowy OpenAISzeptodegrał kluczową rolę w transkrypcji ogromnej ilości materiału wideo. Ten proces transkrypcji, choć konieczny, skupia uwagę na kwestiach praw autorskich i dozwolonego użytku.

Dane, wszędzie dane… Ale czy OpenAI może siać?

Poszukiwanie solidnych zbiorów danych do zasilania sztucznej inteligencji nie jest bynajmniej czymś wyjątkowym w przypadku OpenAI. Giganci technologiczni na całym świecie zmagają się z tym samym wyzwaniem. W końcu modele AI są notorycznie żądne danych. Im bardziej zróżnicowane i wysokiej jakości dane wejściowe, tym lepiej wyposażone są modele, aby poradzić sobie ze złożonością świata rzeczywistego.

Presja na znalezienie kreatywnych źródeł danych jest zrozumiała. W przypadku OpenAI firma podobno zbadała takie opcje, jak podcasty i audiobooki, po tym jak w 2021 r. borykała się z niedoborem bardziej konwencjonalnych materiałów szkoleniowych. Jednak to polowanie na dane ma potencjalną wadę – przesuwanie granic tego, co jest uważane za dopuszczalne prawnie i etycznie.

  Facebook zaczął rozwijać swój klub
openai podobno korzystało z danych YouTube
Według doniesień OpenAI wykorzystało ponad milion godzin danych wideo z YouTube do opracowania zaawansowanego modelu językowego GPT-4 (Kredyt obrazu)

Szara strefa, w której zderzają się dane AI i prawa autorskie

YouTube ma własne, jasne warunki korzystania z usługi, które zazwyczaj ograniczają sposób korzystania z jego treści. Chociaż w prawie autorskim istnieją postanowienia dotyczące „dozwolonego użytku” (z różnymi interpretacjami w poszczególnych krajach), wykorzystywanie ich jako uzasadnienia szeroko zakrojonego pobierania danych może być ryzykowne z punktu widzenia prawa.

Sprawa nie jest oczywista. Kiedy firmy technologiczne korzystają z istniejących treści do szkolenia swoich systemów AI, pojawiają się pytania:

  • Czy to potencjalnie ogranicza zdolność twórców oryginalnych treści do czerpania zysków ze swojej pracy?
  • Czy twórcy otrzymują wystarczające wynagrodzenie, jeśli ich materiały napędzają rozwój komercyjnych narzędzi AI?
  • Czy powinny istnieć jaśniejsze wytyczne lub przepisy dotyczące gromadzenia danych szkoleniowych na dużą skalę?

Duży apetyt sztucznej inteligencji rodzi jeszcze większe pytania

Przypadek OpenAI ukazuje szerszy trend – nienasycone zapotrzebowanie na dane we współczesnej branży AI. W miarę jak technologie sztucznej inteligencji stają się coraz bardziej wyrafinowane, w centrum uwagi znajdą się kwestie etyczne i prawne dotyczące sposobu pozyskiwania danych szkoleniowych.

  Xiaomi ogłasza Xiaomi 17, 17 Pro i 17 Pro Max Launch

Niezależnie od tego, czy chodzi o filmy z YouTube, repozytoria kodów, czy inne rodzaje treści generowanych przez użytkowników, zapewnienie uczciwego i odpowiedzialnego wykorzystania danych stanie się kluczowe dla utrzymania zaufania publicznego do tej szybko rozwijającej się technologii.


Autor wyróżnionego obrazu: Zaca Wolffa/Usuń rozpryski

Source: Według doniesień OpenAI wykorzystało dane YouTube przy opracowywaniu GPT-4

Related Posts

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci
Tech

ASUS wstrzymuje produkcję RTX 5070 Ti ze względu na poważne wąskie gardło w dostawach pamięci

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18
Tech

Przewodnik po przeglądaniu historii obliczeń w systemie iOS 18

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie
Tech

Jak sprawdzić, czy ktoś przeczytał Twoją wiadomość na iPhonie lub iPadzie

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej
Tech

Netflix zabezpiecza prawa Sony Pictures do pierwszej transmisji strumieniowej

Samsung wprowadza natychmiastową transmisję strumieniową w chmurze w ramach aktualizacji Mobile Gaming Hub
Tech

Samsung wprowadza natychmiastową transmisję strumieniową w chmurze w ramach aktualizacji Mobile Gaming Hub

TechBriefly PL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.