ChatGPT GPT-5.2 błędnie liczy „r” w truskawkach

ChatGPT w dalszym ciągu boryka się z podstawowym zadaniem liczenia, pomimo udoskonaleń swojego podstawowego modelu. Chatbot błędnie stwierdza, że słowo „truskawka” zawiera dwie litery „r”, podczas gdy w rzeczywistości jest ich trzy. Problem ten występuje nawet w najnowszej wersji GPT-5.2, wydanej w grudniu 2025 r. Nowoczesne systemy AI z łatwością radzą sobie ze złożonymi operacjami, takimi jak generowanie obrazów marketingowych, kompilowanie raportów za pośrednictwem przeglądarek agentowych czy komponowanie utworów znajdujących się na czołowych miejscach list przebojów. Jednak nie radzą sobie z prostymi zadaniami, które siedmiolatek mógłby wykonać bez wysiłku. Liczenie „r” w „truskawce” ilustruje tę lukę. Słowo to rozkłada się na truskawkę i daje trzy wystąpienia litery „r”. Ostatnie testy potwierdzają, że problem pozostaje nierozwiązany. Po uruchomieniu GPT-5.2 zapytania kierowane do ChatGPT dawały bezpośrednią odpowiedź „dwa”. Dzieje się tak pomimo miliardowych inwestycji, podwyższonych wymagań sprzętowych, które spowodowały wzrost cen pamięci RAM, oraz znacznego globalnego zużycia wody związanego ze szkoleniami AI. Podstawowa przyczyna leży w tokenizowanym projekcie wejścia i wyjścia dużych modeli językowych, takich jak ChatGPT. Zamiast przetwarzać pojedyncze litery, system dzieli tekst na tokeny, którymi mogą być całe słowa, sylaby lub części słów. W przypadku „truskawki” Tokenizer OpenAI ujawnia trzy tokeny: „st”, „raw” i „berry”. Tylko dwa z nich – „surowy” i „jagodowy” – zawierają literę „r”. Model liczy zatem żetony zawierające „r”, a nie pojedyncze litery. Ta tokenizacja wpływa na podobne słowa. ChatGPT podaje, że „malina” ma również dwie litery „r”, z widokiem na trzecią. System traktuje „berry” jako pojedynczy token, kompresując jego dwa „r” w jedną jednostkę. GPT-5.x wykorzystuje nowszą metodę tokenizacji „o200k_harmony”, wprowadzoną w OpenAI o1-mini i GPT-4o, ale błąd „truskawka” nadal występuje. Od czasu debiutu ChatGPT pod koniec 2022 r. OpenAI rozwiązało wiele problemów związanych z tokenami. Wczesne wersje napotykały problemy z określonymi frazami, które powodowały błędne odpowiedzi lub błędy przetwarzania. Poprawki dostosowane dane szkoleniowe i ulepszone systemy, rozwiązując przypadki takie jak pisanie „Mississippi” – Mississippi – lub odwracanie „Lollipop” literami we właściwej kolejności. Jednak modele sztucznej inteligencji na ogół słabo radzą sobie z precyzyjnym zliczaniem małych wartości, nawet jeśli przodują w matematyce i rozwiązywaniu problemów. Testy klasycznych, problematycznych słów nie wykazały żadnych usterek poza znanym przypadkiem truskawek. ChatGPT poprawnie obsługiwał „Mississippi” i „Lollipop”. Godną uwagi pozostałością jest ciąg „solidgoldmagikarp”. W GPT-3 to wyrażenie powodowało awarie, w tym obrażanie użytkowników, niezrozumiałe wyniki i błędy przetwarzania spowodowane dziwactwami w tokenizacji. GPT-5.2 unika krachu, ale wywołuje halucynacje: twierdzi, że „solidgoldmagikarp” to tajny żart o Pokémonach ukryty przez programistów w repozytoriach GitHub. Aktywacja rzekomo przekształca awatary, ikony repozytorium i funkcje w elementy z motywem Pokémon. To twierdzenie jest całkowicie fałszywe i wynika z historycznych problemów struny. Inne modele AI poprawnie odpowiadają na pytanie „truskawkowe”. Perplexity, Claude, Grok, Gemini, Qwen i Drugi pilot identyfikują po trzy „r”. Nawet ci, którzy wykorzystują modele OpenAI, odnoszą sukcesy, ponieważ korzystają z odrębnych systemów tokenizacji, które lepiej przechwytują poszczególne litery. ChatGPT działa jako silnik przewidywania, opierając się na wzorcach uczenia w celu przewidywania kolejnego tekstu, a nie na prawdziwej inteligencji na poziomie liter. Tokenizacja przedkłada wydajność nad dosłowne liczenie, wyjaśniając utrzymujące się dziwactwa, takie jak problem truskawek. Od końca 2022 r. OpenAI iteracyjnie udoskonala obsługę tokenów. Początkowe uruchomienie ujawniło luki w zabezpieczeniach niektórych ciągów znaków, powodując introspekcyjne pętle lub reakcje przypominające wściekłość. Systematyczne poprawki dotyczyły tych elementów, takich jak wyliczanie liter „Mississippi” i odwracanie „Lollipop”, które teraz działają poprawnie. W przypadku różnych modeli utrzymują się szersze ograniczenia w dokładnym zliczaniu. Dane o małych wartościach stanowią wyzwanie dla architektur transformatorów, pomimo mocnych stron arytmetyki. Test „solidgoldmagikarp” podkreśla utrzymującą się wrażliwość na symbole, ewoluującą od jawnych niepowodzeń do sfabrykowanych narracji. Porównania podkreślają rolę tokenizacji. Perplexity wykorzystuje swój własny schemat, umożliwiający precyzyjne wykrycie „r” w „truskawce”. Claude z Anthropic, Grok z xAI, Gemini z Google, Qwen z Alibaba i Copilot firmy Microsoft — wszyscy zwracają liczbę do trzech. Różnice w granicach tokenów umożliwiają szczegółowość na poziomie liter, której nie ma w konfiguracji OpenAI. Narzędzie OpenAI Tokenizer demonstruje podział: „st-raw-berry”. „St” nie ma „r”, podczas gdy „surowy” ma jeden, a „berry” ma dwa, ale liczy się jako jeden żeton. „Malina” idzie w ich ślady: żetony kompresują ostatnie „r”. Przyjęcie „o200k_harmony” w GPT-5.2 miało na celu poprawę wydajności w porównaniu z epokami o1-mini i GPT-4o, jednak tokenizacja truskawek zachowuje tę wadę. Historia łatania OpenAI sugeruje, że ukierunkowane interwencje działają w przypadku narażonych przypadków. Wczesny ChatGPT wykazywał niezliczone spirale wywołane tokenami na frazach. Przykład „Solidgoldmagikarp”: przetwarzanie tokenów GPT-3 jest przeciążone, co powoduje chaos. GPT-5.2 przekształca go w nieistniejącą pisankę GitHub, zachowując błędy dzięki inwencji. Testy potwierdzają zakres poprawek. „Mississippi” zawiera teraz dokładnie 11 liter: cztery „i”, cztery „s”, dwa „p”, jedno „m”. „Lollipop” zamienia się w „pillopol”, nienaruszony. Pomimo tego deficyty w zakresie liczenia rdzeni pozostają. Modele przybliżają, a nie precyzyjnie wyliczają w ograniczonych kontekstach. Alternatywni dostawcy omijają się za pomocą niestandardowych tokenizatorów. Podejście oparte na wyszukiwaniu w Perplexity, szkolenie konstytucyjne Claude’a, dane w czasie rzeczywistym Groka, multimodalna analiza Gemini, wielojęzyczna optymalizacja Qwen, dostrajanie korporacyjne Copilot – wszystko to umożliwia prawidłową reakcję truskawkową. Ta rozbieżność podkreśla, że tokenizacja jest kluczowa. Kodowanie par bajtów OpenAI nadaje priorytet popularnym słowom podrzędnym, rezygnując z rozkładu rzadkich liter w związkach takich jak „truskawka”. Kontekst historyczny: premiera pod koniec 2022 r. została zalana raportami o dziwactwach w tokenach. OpenAI zareagowało szybkimi aktualizacjami, eliminując większość jawnych exploitów do 2025 r. GPT-5.2, będący obecnie w fazie pisania, zawiera skumulowane udoskonalenia, ale zachowuje truskawkę jako emblematyczną wadę. Treść powiązanych notatek na pasku bocznym: „Czy wiesz, że ChatGPT może to zrobić?” Autor: Amir Bohlooli, z 27 września 2025 r.

Kiln Finance wychodzi z walidatorów Ethereum po hakowaniu Swissborg

Source: ChatGPT GPT-5.2 błędnie liczy „r” w truskawkach