OpenAI twierdzi, że błędy zdrowotne bezpłatnego ChatGPT spadły o 71 procent

OpenAI uruchomiło GPT-5.5 Instant jako domyślny model dla bezpłatnych użytkowników ChatGPT, twierdząc, że teraz dorównuje on wydajnością swoim modelom Frontier Thinking w zakresie zapytań o zdrowie w oparciu o wewnętrzne oceny. Informacje zdrowotne zostały poddane wzmożonej analizie, zwłaszcza po tym, jak dochodzenie przeprowadzone przez Guardiana wykazało nieścisłości w przeglądach Google AI, co skłoniło Google do wycofania tych funkcji w przypadku niektórych pytań związanych ze zdrowiem.

OpenAI stwierdziło, że jego aktualizacje stanowią poprawę dokładności informacji zdrowotnych. Ta zmiana umożliwia dużej publiczności dostęp do odpowiedzi medycznych z ChatGPT bez przekierowywania do źródeł zewnętrznych, co mogłoby mieć wpływ na wydawców i SEO w sektorze zdrowia.

Firma podkreśliła postępy w swoich testach porównawczych HealthBench i HealthBench Professional, zauważając, że GPT-5.5 Instant przewyższa swojego poprzednika, GPT-5.3 Instant. OpenAI odnotowało również 71% spadek liczby reakcji zdrowotnych oznaczonych jako potencjalne problemy związane z faktami w ciągu dwóch miesięcy, odnosząc się do systemów monitorowania ruchu na żywo.

Odrębna ocena obejmowała porównanie odpowiedzi wygenerowanych przez GPT-5.5 Instant z odpowiedziami napisanymi przez lekarzy w ramach 3500 reprezentatywnych rozmów na temat zdrowia. Podczas ocen panel lekarzy ocenił odpowiedzi z modelu sztucznej inteligencji wyżej niż odpowiedzi autorstwa lekarzy-ludzi pod względem dokładności, komunikacji i kompletności.

Apple przygotowuje integracje AI innych firm dla Siri i narzędzi

OpenAI stwierdziło, że GPT-5.5 Instant wykazuje mniej trybów awarii niż starsze wersje i reakcji ludzi, wskazując na mniej przeoczonych czerwonych flag i zmniejszone prawdopodobieństwo, że nie uda się uzyskać od użytkowników dodatkowego kontekstu. HealthBench został opracowany w oparciu o dane pochodzące z sieci lekarzy firmy i wykorzystuje do oceny rubryki utworzone przez lekarzy.

OpenAI współpracuje z ponad 260 lekarzami z 60 krajów, którzy łącznie sprawdzili ponad 700 000 przykładowych odpowiedzi. Chociaż liczba ta była stale cytowana od czasu uruchomienia ChatGPT Health w styczniu, nie opublikowano żadnych wyników niezależnego przeglądu.

Według OpenAI zapytania dotyczące zdrowia i dobrego samopoczucia stanowią znaczną część interakcji ChatGPT, a ponad 230 milionów użytkowników tygodniowo zadaje pytania związane ze zdrowiem. Co więcej, dyskusje na temat zdrowia podlegają ścisłym zasadom zabraniającym wyświetlania reklam podczas rozmów na temat zdrowia, zdrowia psychicznego lub polityki.

Zapotrzebowanie rynku na informacje zdrowotne za pośrednictwem bezpłatnej warstwy ChatGPT może zwiększyć presję na wydawców polegającą na braku kliknięć, ponieważ odpowiedzi generowane przez sztuczną inteligencję powodują zwiększone zaangażowanie, podobno najwyższe spośród kategorii analizowanych w przeglądach sztucznej inteligencji Google. Twierdzenia OpenAI dotyczące dokładności reakcji zdrowotnych nie są obecnie potwierdzone przez stronę trzecią, co budzi obawy co do wiarygodności jej ocen.

YouTube rozszerza wykrywanie podobieństwa AI na wszystkich użytkowników powyżej 18. roku życia

W ogłoszeniu nie wyjaśniono, w jaki sposób te aktualizacje mogą wpłynąć na protokoły cytowań, sugerując, że ciężar weryfikacji odpowiedzi i rozwiązywania problemu strat w ruchu może zostać przeniesiony na pracowników służby zdrowia.

Źródło wyróżnionego obrazu

OpenAI twierdzi, że błędy zdrowotne bezpłatnego ChatGPT spadły o 71 procent

Related Stories

Apple wprowadza bardziej osobistą kontrolę mowy Siri do wersji beta 3

Badanie antropiczne wykazało, że modele Claude’a tworzą wewnętrzną przestrzeń roboczą przypominającą świadomość

Apple aktywuje Siri AI na Apple Watch w systemie watchOS 27 beta 3

Midjourney namawia Disneya i inne firmy do ujawnienia w procesie sądowym wewnętrznego wykorzystania sztucznej inteligencji