W przełomowym dokumencie badawczym opublikowanym przez Openai naukowcy przedstawili rygorystyczne wyjaśnienie matematyczne, dlaczego duże modele językowe (LLM), takie jak chatgpt często halucynacja – po prostu generując fałszywe informacje. Badanie, opublikowane 16 września 2025 r., Przez Wei Xing w rozmowie, argumentuje, że problem ten jest nie tylko wadą szkoleniową, ale nieodłączną konsekwencją działania tych modeli. Chociaż artykuł oferuje potencjalne rozwiązania, podkreśla, że ich wdrożenie może zakłócać doświadczenia użytkowników i gwałtownie wzrosnąć koszty obliczeniowe, dzięki czemu powszechne przyjęcie mało prawdopodobnych dla aplikacji konsumenckich. Podstawowy problem wynika z autoregresyjnego charakteru LLM, który generuje odpowiedzi, przewidując jedno słowo w czasie w oparciu o prawdopodobieństwa pochodzące z danych szkoleniowych. Ten sekwencyjny proces z natury prowadzi do akumulacji błędów. Według naukowców całkowity poziom błędu generowania całego zdania jest co najmniej dwa razy wyższy niż poziom błędu dla prostego pytania tak/nie. Na przykład, jeśli model ma 10% wskaźnik błędów w binarnych zapytaniach, błędy na poziomie zdania mogą być podwójne do 20% lub więcej, ponieważ nieścisłości związane z wieloma tokenami. Halucynacje są zasadniczo ograniczone zdolnością modelu do klasyfikacji ważnych w porównaniu z nieważnymi odpowiedziami, zadaniem, które okazuje się trudne w różnych dziedzinach wiedzy. Nawet przy nieskazitelnych danych treningowych mechanizm przewidywania probabilistyczny zapewnia pewien poziom nieuniknionych kłamstw. Artykuł podkreśla, że rzadkość informacji w szkoleniu zestawów danych zaostrza to. Fakty wydające się rzadko są bardziej podatne na wnikanie lub wytwarzanie. Uderzający przykład obejmuje urodziny znaczących liczb. Analiza wykazała, że jeśli 20% takich urodzin pojawi się tylko raz w danych szkoleniowych, przewiduje się, że bazowe LLM są błędne na co najmniej 20% powiązanych zapytań. Aby to zilustrować, naukowcy przetestowali najnowocześniejsze modele na urodziny Adama Kalai, jednego ze współautorów gazety. Model Deepseek-V3, w osobnych próbach, wyświetla trzy szalenie nieprawidłowe daty: „03-07”, „15-06” i „01-01”. Rzeczywista data spada jesienią, podkreślając, w jaki sposób modele mogą pewnie potwierdzić szczegóły dalekie od rzeczywistości. Problemem jest ramy oceny stosowane w testach testowych AI. W badaniu dokonano przeglądu dziesięciu głównych punktów odniesienia, w tym z Google, Openai i wiodących tablic liderów AI. Dziewięć z nich stosuje systemy binarne, które przyznają zero punktów za wyrażanie niepewności, takich jak „Nie wiem”. Ta konfiguracja uwzględnia uczciwe przyjęcie ignorancji z bezpośrednimi błędami, tworząc przewrotną motywację do zawsze zgadywania, a nie wstrzymania wstrzymania się od powstrzymywania się. Matematycznie badacze dowodzą, że w ramach oceny binarnej zgadywanie daje wyższy oczekiwany wynik niż wstrzymanie odpowiedzi, niezależnie od prawdziwego prawdopodobieństwa poprawności. Jeśli model ma nawet niewielką szansę – powiedzmy, 1% – bycie racji, potencjalna nagroda przewyższa karę za wstrzymanie się. Ta „epidemia” niepewności karnej, jak opisują to autorzy, utrwala nadmierne dane wyjściowe, a trwa postęp w kierunku bardziej niezawodnej AI. Proponowane lekarstwo Openai polega na zintegrowaniu oszacowania zaufania z procesem decyzyjnym modelu. Przed odpowiedzią AI oceni poziom pewności i postępuje tylko wtedy, gdy przekroczy predefiniowany próg. Benchmarki zostałyby następnie skorygowane do oceny na podstawie tej pewności, takich jak carę błędów karnych (np. -3 punkty), jednocześnie nagradzając poprawne odpowiedzi (+1 punktów) i umożliwiając powstrzymanie przypadków niskiej pewności. Ramy matematyczne pokazują, że odpowiednie progi zachęcałyby modele do naturalnego wyrażania niepewności, zmniejszając halucynacje. Jednak praktyczne wdrożenie ujawnia znaczące wady. W artykule szacuje, że zastosowanie 75% progu ufności może doprowadzić Chatgpt do odpowiedzi „nie wiem” na około 30% zapytań, w oparciu o luki faktyczne w danych szkoleniowych. Użytkownicy, przyzwyczajeni do natychmiastowych, autorytatywnych odpowiedzi, mogą uznać to za frustrujące i przejść na mniej ostrożne alternatywy. Wei Xing przyciąga równolegle z jego zaangażowania w projekt monitorowania jakości powietrza w Salt Lake City w stanie Utah. Gdy system flaguje niepewności – w przypadku niekorzystnej pogody lub kalibracji – spadki zaangażowania użytkownika w porównaniu z wyświetlaczami pewności siebie, nawet jeśli są niedokładne, odczyty. Ta analogia podkreśla szerszą ludzką preferencję dla pewności nad dokładnością, która mogłaby erozować przyjęcie sztucznej inteligencji niepewności w warunkach konsumenckich. Oprócz doświadczenia użytkownika wymagania obliczeniowe stanowią ogromną barierę. Niepewność ilościowa wymaga oceny wielu ścieżek odpowiedzi i oszacowania przedziałów ufności, co jest znacznie bardziej wymagającym zasobem niż standardowa przewidywanie tokena. W przypadku usług obsługujących miliony codziennych zapytań może to dramatycznie pomnożyć koszty operacyjne. Ustalone metody kwantyfikacji niepewności, opracowane przez dziesięciolecia w dziedzinach takich jak statystyki i uczenie maszynowe, są skuteczne, ale kosztowne obliczeniowo. Zaawansowane techniki, takie jak aktywne uczenie się – gdzie AI stanowi wyjaśnianie pytań dla użytkowników – mogą jeszcze bardziej zwiększyć dokładność, ale jeszcze bardziej eskalować wymagania. Podejścia te są wykonalne w domenach o wysokich stawkach, w których błędy mają poważne konsekwencje. Na przykład w logistyce łańcucha dostaw, handlu finansowym lub diagnostyce medycznej koszt halucynacji (np. Milliony utraconych przychodów lub szkody pacjenta) uzasadnia inwestycję w ostrożne, obliczeniowe systemy. W projektowaniu chipów lub zarządzaniu infrastrukturą gospodarczą AI niepewności staje się nie tylko opłacalne, ale niezbędne. Artykuł zauważa, że gdy agenci AI nadzorują krytyczne operacje, przesunięcie ekonomii: koszt dokładnej ufności sprawdza się w stosunku do ryzyka zbyt pewnych błędów. Jednak AI konsumenckie, które dominują w priorytetach rozwoju, działa zgodnie z różnymi zasadami. Użytkownicy wymagają szybkich, pewnych odpowiedzi na każde zapytanie, od ciekawostek po porady. Benchmarks nadal sprzyjają zgadywaniu, a wydajność sprzętu – takie jak spadające koszty energii na token lub ulepszone architektury chipów – mogą ostatecznie niższe bariery. Jednak w stosunku do dzisiejszych usprawnionych modeli zgadywania, obsługa niepewności zawsze będzie wymagać większej mocy obliczeniowej. Artykuł nieumyślnie ujawnia niewspółosiowość w zachętach biznesowych: prędkość i zyski z napędu zaufania w aplikacjach konsumenckich, a dokładność zajmuje miejsce. Techniki po treningu, takie jak uczenie się wzmocnienia na podstawie informacji zwrotnych (RLHF), złagodziły pewne halucynacje, ale nie uwzględniają pierwotnych przyczyn. Badania dowodzi, że nawet zoptymalizowane modele zachowują te nieuchronności matematyczne. Dopóki standardy oceny nie ewoluują, aby nagrodzić niuanse i ekonomię obliczeniową priorytetem niezawodności nad prędkością, halucynacje będą przetrwać jako znak rozpoznawania LLM konsumenckich. To objawienie kwestionuje trajektorię branży AI. Ponieważ modele stają się coraz większe i bardziej zdolne, nasila się presja na zrównoważenie innowacji z wiarygodnością. Praca Openai wymaga zmiany paradygmatu, wzywając programistów, twórców porównawczych i użytkowników do ceny skalibrowanych odpowiedzi. W sektorach o wysokiej wartości adopcja wydaje się nieuchronna; W przypadku narzędzi codziennych pozostaje odległym perspektywą. Autorzy artykułu, w tym badacze Openai, stwierdzają, że bez realizacji motywacji dążenie do nieskazitelnej AI pozostanie nieuchwytny. Jako Wei Xing, asystent profesora z University of Sheffield’s School of Mathematicatic and Physical Sciences, zauważa w artykule opublikowanym z rozmowy na podstawie licencji Creative Commons, „zachęty biznesowe napędzające rozwój AI konsumenckiej pozostaje zasadniczo niewłaściwie wyrównany z ograniczaniem halucynacji”. Badanie to nie tylko diagnozuje trwałą wadę, ale także przedstawia ścieżkę naprzód-taką, która wymaga kompromisów między użytecznością, kosztami i prawdziwością. Ponieważ AI integruje się głębiej z życiem codziennym, zajęcie się tymi napięciami będzie miało kluczowe znaczenie dla zrównoważonego rozwoju.
Source: Openai Research potwierdza halucynacje llm matematycznie nieuniknione, proponuje kosztowną poprawkę





