Nowe badania podmiotów podrzędnych MIT Sloan wskazują, że ulepszenia generatywnej wydajności sztucznej inteligencji (AI) nie są związane wyłącznie z postępami w dużych modelach językowych (LLM). Eksperyment na dużą skalę ujawnił, że tylko połowa zysków wydajności zaobserwowana po przejściu do bardziej zaawansowanego modelu AI wynika z samego modelu. Pozostała połowa była spowodowana tym, że użytkownicy dostosowują swoje podpowiedzi – pisemne instrukcje dostarczone do AI – w celu skutecznego wykorzystania nowego systemu.
To odkrycie podkreśla kluczową rzeczywistość dla firm: inwestowanie w nowe narzędzia AI nie przyniesie ich przewidywanej wartości, chyba że pracownicy również udoskonalą ich wykorzystanie. Badanie sugeruje, że monitowanie jest umiejętnością, którą jednostki mogą szybko poprawić, nawet bez formalnych instrukcji.
David Holtz, SM ’18, dr ’21, adiunkt na Columbia University i partner badawczy w MIT Initiative on the Digital Economy, a współautor badania, stwierdził: „Ludzie często zakładają, że lepsze wyniki pochodzą głównie z lepszych modeli. Fakt, że prawie połowa poprawy pochodzi z zachowań użytkowników, naprawdę wyzwań.
W eksperymencie wzięło udział prawie 1900 uczestników, którzy zostali losowo przydzielone do jednej z trzech wersji systemu generowania obrazu Dall-E Openai: Dall-E 2, bardziej zaawansowanego Dall-E 3 lub Dall-E 3 z podpowiedzi użytkowników automatycznie przepisywane przez GPT-4 LLM bez ich wiedzy. Uczestnicy mieli za zadanie odtworzyć obraz referencyjny, taki jak zdjęcie, projekt graficzny lub dzieło sztuki, wpisując instrukcje do sztucznej inteligencji. Mieli 25 minut na złożenie co najmniej 10 podpowiedzi i zostali zachęcani do płatności premii za 20% najlepszych wykonawców, zachęcając ich do testowania i udoskonalania ich instrukcji.
Naukowcy zgłosili kilka kluczowych ustaleń:
- Uczestnicy korzystający z podstawowej wersji Dall-E 3 wyprodukowali obrazy, które były bardziej podobne do obrazu docelowego w porównaniu do tych generowanych przez użytkowników Dall-E 2.
- Uczestnicy korzystający z wyjściowej Dall-E 3 pisali podpowiedzi, które były o 24% dłuższe niż u użytkowników Dall-E 2. Te podpowiedzi wykazywały również większe podobieństwo do siebie i zawierały wyższy odsetek słów opisowych.
- Około połowa poprawy podobieństwa obrazu została przypisana modelu ulepszonego, podczas gdy druga połowa wynika z dostosowania swoich podpowiedzi do wykorzystania możliwości ulepszonych modeli.
Podczas gdy to badanie koncentrowało się na generowaniu obrazu, naukowcy uważają, że ten sam wzorzec może zastosować się do innych zadań, w tym pisania i kodowania.
Badania wykazały, że zdolność do dostosowywania podpowiedzi z czasem nie była wyłączna dla użytkowników znających się na technologii. Holtz skomentował: „Ludzie często myślą, że musisz być inżynierem oprogramowania, aby dobrze monitorować i skorzystać z sztucznej inteligencji. Ale nasi uczestnicy pochodzili z szerokiego zakresu miejsc pracy, poziomów edukacji i grup wiekowych – i nawet tych bez środowisk technicznych były w stanie jak najlepiej wykorzystać możliwości nowego modelu”.
Dane sugerują, że skuteczne podpowiedzi polega bardziej na jasnej komunikacji niż kodowaniu. Holtz zauważył: „Najlepsze wspomaganie nie byli inżynierami oprogramowania. Byli to ludzie, którzy wiedzieli, jak wyraźnie wyrażać pomysły w języku codziennym, niekoniecznie w kodzie”.
Dostępność ta może również przyczynić się do zmniejszenia różnic wydajności wśród użytkowników o różnych poziomach umiejętności i doświadczeniach. Eaman Jahani, dr ’22, adiunkt na University of Maryland i cyfrowy członek Inicjatywy MIT na temat gospodarki cyfrowej oraz współautor badania, zauważył, że generatywne AI może potencjalnie ograniczyć luki w wydajności między użytkownikami. „Ludzie, którzy zaczynają na dolnym końcu [performance] Skala najbardziej skorzystała, co oznacza, że różnice w wynikach stały się mniejsze ”, powiedział Jahani.„ Postępy modelowe mogą pomóc w zmniejszeniu nierówności w produkcji ”.
Jahani wyjaśnił, że ustalenia zespołu mają zastosowanie do zadań z wyraźnymi, mierzalnymi wynikami i możliwym do zidentyfikowania górnego limitu dla dobrego wyniku. Zauważył, że nie jest jeszcze jasne, czy ten sam wzór utrzymałby się w przypadku bardziej otwartych zadań bez jednej poprawnej odpowiedzi i potencjalnie znaczących wypłat, takich jak generowanie nowych pomysłów.
Jednym z bardziej nieoczekiwanych ustaleń było to, że przepisywanie podpowiedzi przy użyciu generatywnej sztucznej inteligencji doprowadziło do znacznego spadku wydajności. Grupa, która wykorzystywała Dall-E 3 z generatywną AI automatycznie przepisując swoje podpowiedzi, doświadczyła 58% degradacji wydajności w porównaniu do podstawowej grupy Dall-E 3. Naukowcy odkryli, że automatyczne przepisywanie często wprowadzali obce detale lub zmieniły zamierzone znaczenie danych wejściowych użytkownika, powodując, że sztuczna inteligencja tworzy nieprawidłowy obraz.
Holtz wyjaśnił: „[Automatic prompt rewriting] Po prostu nie działa dobrze dla takiego zadania, w którym celem jest tak blisko docelowego obrazu. Co ważniejsze, pokazuje, w jaki sposób systemy AI mogą się zepsuć, gdy projektanci przyjmują założenia dotyczące tego, jak ludzie będą ich używać. Jeśli ukrywasz ukryte instrukcje w narzędziu, mogą one łatwo kolidować z tym, co użytkownik faktycznie próbuje zrobić. ”
Implikacje badania dla firm są jasne: poza wyborem „właściwego” modelu AI, liderzy muszą priorytetowo traktować skuteczne uczenie się i eksperymenty użytkowników. Jahani podkreślił, że podpowiedź nie jest umiejętnością plug-and-play. „Firmy muszą stale inwestować w swoje zasoby ludzkie” – powiedział. „Ludzie muszą być przyłapani na tych technologiach i wiedzieć, jak je dobrze wykorzystywać”.
Aby zmaksymalizować korzyści wynikające z generatywnej sztucznej inteligencji, naukowcy oferują kilka kluczowych priorytetów dla liderów biznesu, którzy mają na celu zwiększenie skuteczności systemu AI w rzeczywistym świecie:
- Inwestuj w szkolenie i eksperymenty: Same ulepszenia techniczne są niewystarczające. Zapewnienie pracownikom czasu i wsparcia w udoskonaleniu ich interakcji z systemami AI ma kluczowe znaczenie dla uświadomienia sobie pełnych korzyści.
- Projekt iteracji: Interfejsy użytkownika, które zachęcają do testowania, rewizji i uczenia się – i wyraźnie wyświetlają wyniki – przyczyniają się do lepszych wyników w czasie.
- Zachowaj ostrożność dzięki automatyzacji: Chociaż zautomatyzowane szybkie przepisywanie może wydawać się wygodne, może utrudniać wydajność, a nie poprawić ją, jeśli przesłania lub zastępuje zamiary użytkownika.
Artykuł został współautor przez doktorant MIT Sloan Benjamin S. Manning, SM ’24; Hong-yi tuye, SM ’23; i Mohammed Alsobay, ’16, SM ’24; a także doktorant Uniwersytetu Stanford Joe Zhang, Microsoft Computational Social Scientist Siddharth Suri oraz adiunkt Cypru, profesora Christos Nicolaides, SM ’11, dr ’14.
Source: Szybka jakość stanowi połowę zysków z wydajności sztucznej inteligencji








