Nawet Pokémon nie jest bezpieczny przed kontrowersją odniesienia AI. Niedawny post na temat X stwierdził, że model Google Gemini przewyższył model Claude’a antropika w oryginalnej grze Pokémon, wywołując debatę na temat metod porównawczej.
W ubiegłym tygodniu post na X stał się popularny, twierdząc, że najnowszy model Google Gemini przewyższył flagowy model Claude’a w oryginalnej trylogii gry Pokémon. Podobno Gemini dotarł do Lavender Town w strumieniu dewelopera; Claude utknął na Mount Moon od końca lutego. Post brzmiał: „Gemini dosłownie wyprzedza Claude ATM w Pokemon po dotarciu do Lavender Town” i zawierał zrzut ekranu strumienia z komentarzem „119 widoków na żywo tylko przy okazji, niezwykle niedoceniany strumień”.
Jednak później ujawniono, że Gemini miał nieuczciwą przewagę. Użytkownicy Reddit zwrócili uwagę, że programista utrzymujący strumień Gemini zbudował niestandardową minimapę, która pomaga modelowi zidentyfikować „płytki” w grze, takie jak drzewa przecinające. Ta niestandardowa minimap zmniejsza potrzebę analizy zrzutów ekranu Gemini przed podjęciem decyzji dotyczących rozgrywki, co daje znaczną przewagę.
Podczas gdy Pokémon jest w najlepszym razie uważany za częściowy punkt odniesienia AI, służy jako pouczający przykład tego, jak różne implementacje testu porównawczego mogą wpływać na wyniki. Kontrowersje podkreślają niedoskonałości testów porównawczych AI i sposób, w jaki niestandardowe implementacje mogą utrudnić dokładne porównanie modeli.
Ten problem nie jest unikalny dla Pokémon. Antropic zgłosił dwa różne wyniki dla swojego modelu sonetowego Claude 3.7 na weryfikowanym przez SWE Bench, który ocenia zdolności kodowania modelu. Bez „niestandardowego rusztowania” Claude 3.7 Sonet osiągnął 62,3% dokładności, ale przy niestandardowym rusztowaniu dokładność wzrosła do 70,3%. Podobnie Meta dopracował wersję swojego modelu LLAMA 4 Maverick, aby lepiej osiągnąć punkt odniesienia LM Arena. Wersja dopracowana uzyskała znacznie wyższe wyniki niż wersja waniliowa przy tej samej ocenie.
Biorąc pod uwagę, że badania odniesienia AI są niedoskonałymi środkami na początek, wdrożenia niestandardowe i niestandardowe dodatkowo komplikują porównanie modeli. W rezultacie może być coraz trudniejsze do porównania modeli podczas ich uwalniania.
Source: Model AI „Wydajność” w Pokémon Marred przez dostosowywanie








