Dolina Krzemowa stawia znaczne zakłady na środowiska uczenia się wzmocnienia (RL) jako kluczowe narzędzie do rozwijania agentów AI zdolnych do autonomicznego obsługi złożonych zadań oprogramowania. Przez lata dyrektorzy głównych firm technologicznych podważało potencjał tych agentów do zrewolucjonizowania wydajności poprzez interakcję z aplikacjami w imieniu użytkowników. Jednak obecne przykłady skierowane do konsumentów, takie jak Agent Chatgpt Openai i kometa zakłopotania, ujawniają znaczące ograniczenia w ich zdolności do niezawodnego wykonywania procesów wieloetapowych. Ta luka spowodowała wzrost innowacyjnych technik, a środowiska RL stały się obiecującym rozwiązaniem. Te symulowane podstawy treningowe naśladują interakcje oprogramowania rzeczywistego, umożliwiając modele AI na uczenie się poprzez próbę i błędy, podobnie jak oznaczone zestawy danych napędzały poprzednią erę generatywnych przełomów AI. Środowiska RL działają jako kontrolowane symulacje, w których agenci AI ćwiczą zadania w wirtualnym otoczeniu, otrzymując nagrody lub karę oparte na ich wydajności. Wyobraź sobie cyfrową przestrzeń roboczą replikającą chromowaną przeglądarkę, w której agent ma za zadanie nawigację po Amazon, aby kupić parę skarpet. Sukces może polegać na prawidłowym wyborze elementów, wypełnianiu kasy i unikaniu błędów, takich jak kupowanie niewłaściwej ilości lub utknięcie w menu. Jak opisał jeden założyciel w ostatnim wywiadzie, budowanie tych środowisk przypomina „stworzenie bardzo nudnej gry wideo”. W przeciwieństwie do statycznych zestawów danych, które zapewniają stałe wejścia i wyjścia, środowiska RL muszą przewidzieć i obsługiwać nieprzewidywalne działania agenta, zapewniając spójne informacje zwrotne w celu prowadzenia uczenia się. Ta złożoność wymaga solidnego projektu, aby symulacja pozostaje przydatna, nawet gdy agenci odbiegają od oczekiwanych ścieżek. Zapotrzebowanie na takie środowiska gwałtownie wzrosło wśród wiodących laboratoriów AI, w tym Openai, Google Deepmind, Antropic i Meta. Jennifer Li, generalna partnerka w Andreessen Horowitz, podkreśliła w wywiadzie dla TechCrunch, że „wszystkie duże laboratoria AI budują środowiska RL we własnym zakresie”. Jednak skomplikowany charakter rozwoju doprowadził te organizacje do poszukiwania partnerstwa z dostawcami stron trzecich w zakresie środowisk wysokiej jakości i narzędzi oceny. Trend ten rozpalił falę inwestycji i przedsiębiorczości, wraz z startupami i ustanowionymi firmami ścigania się, aby uchwycić udział w rynku o wartości wielu miliardów dolarów. Według doniesień z informacji przywództwo antropiku omówiło nawet przydzielanie ponad 1 miliard dolarów na środowiska RL w nadchodzącym roku, podkreślając strategiczny priorytet tej technologii. Historyczne precedensy ilustrują podstawową rolę RL w rozwoju AI. W 2016 r. Openai wprowadził „RL Gyms”, wczesne ramy dla agentów szkoleniowych w symulowanych scenariuszach. W tym samym roku Alphago Google Deepmind osiągnął przełomowe zwycięstwo, pokonując mistrza świata w grze Go, wykorzystując RL w symulowanym środowisku, aby opanować strategiczne podejmowanie decyzji. Wysiłki te położyły podstawę, ale dzisiejsze aplikacje oznaczają znaczącą ewolucję. Nowoczesne środowiska RL ukierunkowane są na duże modele oparte na transformatorach zaprojektowane do zadań ogólnego przeznaczenia na różne narzędzia programowe, kontrastujące ze specjalistycznymi systemami w zamkniętym świecie, takim jak Alphago. Naukowcy zaczynają teraz od bardziej zaawansowanych modeli podstawowych, ale ambicja tworzenia szeroko zdolnych agentów wprowadza nowe wyzwania, takie jak zapewnienie niezawodności w interakcjach otwartych. Ustalone giganci znakowania danych agresywnie obracają się, aby zaspokoić ten popyt, wykorzystując ich istniejące relacje infrastruktury i klientów. Surge, który podobno wygenerował w ubiegłym roku 1,2 miliarda dolarów przychodów z współpracy z laboratoriami AI, takimi jak Openai, Google, Anthropic i Meta, zaobserwował „znaczący wzrost” wniosków o środowiska RL, według CEO Edwin Chen. W odpowiedzi firma ustanowiła dedykowaną organizację wewnętrzną, aby skupić się na ich tworzeniu. Ten ruch pozycji zwiększa się do przejścia od tradycyjnej adnotacji danych do symulacji dynamicznych, wykorzystując sprawdzone osiągnięcia w wsparciu badań AI Frontier. Mercor, o wartości 10 miliardów dolarów, jest kolejnym kluczowym graczem podkreślającym środowiska RL specyficzne dla domeny dostosowane do sektorów takich jak kodowanie, opieka zdrowotna i prawo. Startup zapewnił partnerstwa z Openai, Meta i Anthropic oraz jego dyrektorem generalnym, Brendanem Fudy’m, podkreślającym w wywiadzie dla technologii, że „niewielu rozumie, jak duża jest taka możliwość wokół środowisk RL”. Podejście Mercora polega na stworzeniu specjalistycznych symulacji, które dotyczą niszowych wyzwań, takich jak poruszanie się po prawnych bazach danych lub analiza dokumentacji medycznej, potencjalnie przyspieszając przyjęcie sztucznej inteligencji w regulowanych branżach. Scale AI, gdy niekwestionowany lider w etykietowaniu danych o wycenie 29 miliardów dolarów, spotkał się z ostatnimi niepowodzeniami. Inwestycja Meta o wartości 14 miliardów dolarów w konkurencyjne przedsięwzięcie i kłusowanie byłego dyrektora generalnego Scale doprowadziły do utraty umów z Google i Openai, wraz z konkurencją wewnętrzną w Meta. Niemniej jednak skala dostosowuje się poprzez rozszerzenie na środowiska RL. Chetan Rane, szef produktu Scale dla agentów i środowisk RL, zauważył: „Taka jest tylko natura biznesu [Scale AI] jest w. Skala udowodniła, że jego zdolność do szybkiego dostosowywania się. Zrobiliśmy to we wczesnych dniach autonomicznych pojazdów, naszej pierwszej jednostki biznesowej. Kiedy wyszedł Chatgpt, AI Scale do tego dostosowało. A teraz, po raz kolejny, dostosowujemy się do nowych przestrzeni na granicy, takich jak agenci i środowiska. ”Ten obrotowy odzwierciedla historię ponownego ponownego opracowania Scale, od samojezdnych samochodów po boom chatbota, pozycjonując go do odzyskania znaczenia w erze agenta. Pośród tej konsolidacji, kohorta nimble start-upy jest zakłócającą krajobraz z ukierunkowaną innowacją, ustaloną sześć miesięcy, wykorzystywane sześć miesięcy temu, emitujące, ambitowane start „Zautomatyzowanie wszystkich zadań”, zaczynając od środowiska RL dla agentów kodowania AI. Współpracowanie z rozwojem RL, choć obie strony odmówiły komentarza. Menlo Ventures uruchomił w zeszłym miesiącu centrum RL. Częścią tego, co robimy, jest po prostu próba zbudowania dobrej infrastruktury otwartej sour. Usługa, którą sprzedajemy, jest obliczona, więc jest to wygodne onramp do korzystania z GPU, ale myślimy o tym bardziej w perspektywie długoterminowej. ”Dzięki ułatwianiu dostępu do GPU, Prime Intelect nie tylko sprzyja postępowi społeczności, ale także bierze udział w rosnącej potrzebie skalowalnych rozwiązań sprzętowych w szkoleniu AI. Dominująca siła podobna do tego, w jaki sposób skala napędzała fala AI. Start -upy w ostatnim podcastie Z inwestycji w RL w połączeniu z obliczeniami czasowymi, ponieważ twórcy O1 udostępnili TechCrunch, obstawiając jego skalowalność z dodatkowymi danymi i zasobami. Endeavour-te symulacje mogą zwiększać postępy w kierunku ogólnych środków AI. Nie doceniając, jak trudno jest skalować środowiska. Nawet najlepsze publicznie dostępne [RL environments] Zazwyczaj nie działa bez poważnej modyfikacji. ”Skalowanie wymaga nie tylko więcej środowisk, ale także udoskonaleń w celu złagodzenia takich problemów, zapewniając, że symulacje pozostają wierne prawdziwym aplikacjom. Nawet publiczne odniesienia często wymagają rozległych poprawek, podkreślając lukę między narzędziami Prototypu i gotowym do produkcji. Andrej Karpathy, a inwestor w najlepszym intelekcie i zwolenniku dla środowisk i interakcji agresywnych dla samej rl. stwierdził: „Jestem uparty w zakresie środowisk i interakcji agresywnych, ale jestem marynowany w sprawie uczenia się wzmocnienia”.
Source: Scale AI rozszerza się na środowiska RL dla agentów AI





