Openai wywołał rewolucję technologiczną debiutem Chatgpt w listopadzie 2022 r., A miliony niesamowitych użytkowników na całym świecie były zaskoczone zdolnością jego kultowego chatbota do angażowania się w ludzkie rozmowy na prawie każdy temat, jaki mogą wymyślić.
Rozpoczęło szaleństwo dla sztucznej inteligencji, która z dnia na dzień stała się coraz bardziej maniakalna, a każda firma technologiczna warta soli, która chce wejść na akt z własnymi generatywnymi modelami AI. Szybko zobaczyliśmy odpowiedź Google i Meta dzięki ich dużym modele języków Gemini i Llama, a Microsoft, który jest już ściśle powiązany z Openai, wyprzedził także budowanie własnych modeli.
Dodaj do tego gospodarz startupów AI, od antropika po korejeznie do laboratoriów AI21 i teraz Deepseek, i jasne jest, że branża stała się szalonym wolnym dla All, a dziesiątki konkurujących graczy starają się na gotówkę na szalonym poziomie zapotrzebowania na narzędzia AI nowej generacji.
Modele AI są szkolone i budowane przy użyciu ogromnych ilości danych i potrzebują ich coraz większych ilości, aby się poprawić. Aby uzyskać te dane, większość programistów AI przechodzi do najbardziej oczywistego źródła – publicznego Internetu, w którym swobodnie zeskrobają ogromne ilości informacji.
Czołganie się i skrobanie
Jedną rzeczą, o której większość ludzi nie zdaje sobie sprawy z tego, że nie ma łatwego miejsca, w którym można po prostu „pobrać Internet”. Tak więc programiści sztucznej inteligencji polegają na narzędziach znanych jako „frawlery internetowe”, które przeszukują światową sieć, przechodząc od linku do linku, gdy indeksuje wszystkie informacje, które widzą w bazie danych. Następnie używają „Notasków internetowych”, które przechodzą przez tę bazę danych i pobierają wszystkie informacje, do których je prowadzi.
Firmy z ogromnymi zasobami, takie jak Google i Microsoft, posiadają pieniądze i wiedzę specjalistyczną, aby same tworzyć te plik poradni i skrobiaki, a ta umiejętność prawdopodobnie daje im przewagę nad rywalami, których nie mogą. Przez resztę zwykle zwracają się do istniejących zasobów, takich jak Common Crawl, która jest organizacją non-profit, która czołga się z Internetem i pobiera ją, tworząc informacje w masywną bazę danych z otwartym poziomem, która jest aktualizowana co kilka miesięcy. Kolejnym zasobem jest duża sieć sztucznej inteligencji, znana jako Laion, która jest pełna linków do zdjęć, które znajduje w Internecie, oraz wszelkie napisane podpisy obok nich.
Ponadto istnieją inne organizacje non -profit, które są zainteresowane promowaniem rozwoju sztucznej inteligencji, takich jak Allen Institute for AI. Działa w celu kompilacji otwartych zestawów danych dla programistów dużych modeli językowych, takich jak baza danych Dolma, która zawiera ponad trzy trylion tokenów z różnych stron internetowych, książek, baz kodowych, dokumentów akademickich i encyklopediów znalezionych online.
Twórcy treści odpychają
Wszystkie te bazy danych są tworzone przez obsadki internetowe i scrafje, ale istnieje wiele kontrowersji w tej powszechnej praktyce, ponieważ rodzą pytania dotyczące dokładności i niezawodności modeli przeszkolonych przy użyciu tych informacji. W końcu jest wiele informacji i pogłosek i pogłosek opublikowanych online. Oczywiście doprowadziło to również do sporów dotyczących praw autorskich, a wielu twórców treści argumentuje, że powinni oni otrzymywać rekompensatę, biorąc pod uwagę, że AI jest postrzegane jako zagrożenie dla ich źródeł utrzymania.
Niektóre firmy próbowały to obejść, płacąc za dostęp do danych. Na przykład Openai pogodził się z organizacjami prasowymi, takimi jak Axel Springer i Forum Internet Reddit, płacąc za dostęp do ich treści. Inne, takie jak Meta, używają własnych danych, takich jak miliony publicznych postów na Facebooku i Instagramie, do szkolenia swoich modeli. Elon Musk, właściciel X, mówi, że jego firma robi to samo, aby przeszkolić swoją rodzinę LLM Grok. Amazon stwierdził, że wykorzysta dane głosowe od klientów, którzy rozmawiają z cyfrowym asystentem Alexą.

Jednak praktyki te nie są również tak popularne, ponieważ wielu użytkowników mediów społecznościowych czuje się dość niewygodnie z pomysłem, że ich posty i komentarze są wykorzystywane do szkolenia modeli AI.
Było okropnie wiele odrzutów, ale programiści AI nie są w stanie ugasić swojego pragnienia coraz więcej danych, biorąc pod uwagę, że jest to siła napędowa ich algorytmów. W związku z tym istnieją pytania dotyczące tego, gdzie mogą uzyskać informacje potrzebne do tworzenia innowacyjnych nowych aplikacji AI.
Dane syntezy mogą być rozwiązaniem
Jednym z możliwych rozwiązań tego pytania może być „dane syntetyczne”, które są sztucznie generowane przez maszyny, które najpierw zużywają ogromne ilości rzeczywistych danych.
Jeśli masz wiele rzeczywistych danych na początek, możliwe jest stworzenie tyle syntetycznych informacji w oparciu o to, ile będziesz potrzebować, ale istnieją pytania o jakość tych sztucznych informacji. W końcu wszystko pochodzi z rzeczywistych danych wykonanych przez ludzi, a jeśli dane źródłowe są niedokładne lub stronnicze, powstałe informacje syntetyczne prawdopodobnie powiększą te problemy.
W rezultacie, tym bardziej syntetyczne informacje, które są używane do szkolenia modeli AI, tym gorsze będą ich uprzedzenia i niedokładności, co prowadzi do większej liczby „halucynacji”, co odnosi się do przypadków, w których AI popełnia błędy lub po prostu tworzy fakty z powietrza.
Jeśli dane syntetyczne mają stać się realnym rozwiązaniem rosnącego zapotrzebowania na zestawy danych szkoleniowych, istnieje potrzeba upewnienia się, że spełnia podstawę standardów jakości, co będzie możliwe tylko wtedy, gdy pozostanie pewien rodzaj ludzkiego wejścia.
Zwiększenie jakości danych wraz z konkurencją
Tam jest Ułamek AI może coś zmienić. Jest twórcą unikalnego protokołu opartego na blockchain, który przekształcił zadanie generowania danych syntetycznych w konkurencję, w której ludzcy programiści tworzą agentów AI, które konkurują w celu generowania nowych zestawów danych. Tworząc odnoszący sukcesy agent AI, który wyróżnia się w tworzeniu danych syntetycznych, programiści mogą zdobyć znaczne nagrody za swój udział.
Frakcja AI organizuje regularne konkurencje między agentami AI, które konkurują o tworzenie najdokładniejszych i niezawodnych zestawów danych, zgodnie z konkretnymi wymaganiami. Płacą opłatę w kryptowalucie za wejście na te konkursy, ale tylko najlepsi wykonawcy są nagradzani, zmuszając programistów do tworzenia lepszych agentów AI.
Budowniczowie mogą tworzyć tych agentów bez umiejętności kodowania, po prostu wprowadzając podpowiedzi. Takie podejście zapewnia, że jest dostępne dla każdego.
Ponadto ułamek AI opiera się również na „Stakers”, którzy stawiają tokeny kryptowaluty ETH w celu zabezpieczenia sieci. Oni również zdobywają nagrody za to, poprzez połączenie udziału opłat za konkurs, opłat za protokoły i wszelkich przychodów wynikających z licencjonowania syntetycznych zestawów danych.
Genialną rzeczą w ułamku AI polega na tym, że wprowadza ona zupełnie nowe podejście do etykietowania danych, które powinno zapewnić znacznie lepszą jakość informacji syntetycznej. Tradycyjnie etykietowanie danych było albo wykonywane tylko przez ludzi, co jest dokładne, ale zdecydowanie zbyt wolne, albo przez modele AI, które są znacznie szybsze, ale mniej dokładne.
Frakcja AI pozwala ludziom powiedzieć agentom, w jaki sposób powinny oni oznaczać dane, aby agenci ci mogli to zrobić dokładniej w znacznie wyższych skalach. Jest to podejście, które łączy zalety obu metod i zapewnia wartość dla wszystkich trzech uczestników ekosystemu.
Budowniczowie lub twórcy agentów AI są nagradzani za tworzenie bardziej efektywnych agentów, co zapewnia dane lepszej jakości. Ponieważ tylko najlepsi agenci są nagradzani, ci, których agenci tracą, są zmuszeni do poprawy swoich agentów, aby mogli zacząć zarabiać. Stakers mają możliwość regularnego zarabiania na swoich inwestycjach, jednocześnie wspierając tworzenie większej liczby danych szkoleniowych. Wreszcie, programiści AI korzystają z ciągłego strumienia nowych, wysokiej jakości danych syntetycznych, które można wykorzystać do szkolenia bardziej zdolnych modeli AI.
Potrzeba ludzi w pętli
To nowe podejście, które pokazuje, że ma prawdziwy potencjał. Już teraz ułamek AI wykazał swoją zdolność do dostosowania małego multimodalnego LLM, aby umożliwić mu działanie na równi z GPT-4 Openai, za ułamek kosztów tego większego modelu.
Protokół pokazuje znaczenie zapewnienia, że ludzie pozostają w pętli podczas procesu tworzenia danych syntetycznych. Ludzie są jednym z głównych powodów wczesnego sukcesu Chatgpt. Podczas rozwoju Openai zatrudnił setki pracowników do eksperymentowania z wczesną wersją Chatgpt i przekazywania informacji zwrotnych, która następnie została wykorzystana do poprawy jego wydajności. Ostatecznie miało to transformacyjny wpływ na jakość odpowiedzi chatbota, wywołując szaloną walkę o sztuczną inteligencję, która istnieje dzisiaj.
Ponieważ modele AI stają się bardziej wszechobecne i bardziej wyrafinowane, świat szybko brakuje wiarygodnych danych. Dane syntetyczne, stworzone z ludźmi w pętli, pojawiły się jako najbardziej opłacalne rozwiązania tego problemu, a ich znaczenie dla branży AI będzie nadal rosły.
Polecane wizerunki: Maxim Berg/Unsplash
Post twórcy AI kończą się dane. Skąd mogą uzyskać więcej? Pojawił się pierwszy na Techbriefly.
Source: Deweloperzy AI kończą dane. Skąd mogą uzyskać więcej?








