Według artykułu z przewodnika Toma, badanie na temat modelu CHATGPT-5 Openai wykazało, że udziela niepoprawnych odpowiedzi w około 25% przypadków. Chociaż podkreśla to trwały poziom błędu, model wykazuje znaczną poprawę dokładności w porównaniu z jego poprzednikiem, GPT-4. W szczególności CHATGPT-5 popełnia około 45% mniej błędów faktycznych i generuje sześć razy mniej odpowiedzi halucynowanych lub całkowicie wymyślonych niż GPT-4. Pomimo tego postępu badanie informuje, że model nadal cierpi na nadmierną pewność siebie i może pewnie przedstawić nieprawidłowe informacje, charakterystykę często określaną jako halucynacja. Wydajność i dokładność modelu różnią się w zależności od konkretnego zadania. Na przykład uzyskał 94,6% testu matematyki AIME 2025 i miał 74,9% wskaźnik sukcesu na zestawie zadań kodowania w świecie rzeczywistym. W sprawie trudniejszego MMLU Pro Benchmark, testu akademickiego obejmującego naukę nauk ścisłych, matematyki i historii, Chatgpt-5 osiągnął dokładność około 87%. Nadal jednak popełnia błędy w ogólnej wiedzy i złożonych pytaniach rozumowania. Badanie przypisuje te błędy kilku podstawowym czynnikom. Obejmują one ograniczenia modelu w pełnym zrozumieniu dopracowanych pytań, wykorzystanie danych szkoleniowych, które mogą być przestarzałe lub niekompletne, oraz jego fundamentalny projekt oparty na probabilistycznym wizytowaniu wzorowym. Ten mechanizm może czasami generować odpowiedzi, które wydają się prawdopodobne, ale są niedokładne faktycznie. Artykuł zaleca użytkownikom weryfikację wszelkich krytycznych informacji pochodzących z ChatGPT-5. Biorąc pod uwagę, że model nie jest nieomylny, ostrożność jest szczególnie ważna w przypadku zapytań związanych z kwestiami zawodowymi, akademicką lub zdrowotnymi, nawet przy udokumentowanej poprawie niezawodności modelu.

  Recenzja telefonu ASUS ROG 5S

Source: Openai Chatgpt-5 pokazuje 25% wskaźnik błędów w badaniu