Sztuczna inteligencja dorównała lekarzom w testach medycznych

18 cze 2026

Czy sztuczna inteligencja może przejąć część pracy lekarza? Dwa badania opublikowane 17 czerwca 2026 r. w „Nature” opisują systemy, które w kontrolowanych testach prowadziły elementy procesu klinicznego krok po kroku. Nie były zwykłymi chatbotami. Działały jak agenci AI, którzy zbierają informacje, podejmują kolejne decyzje i wykonują zadania przypominające fragment pracy lekarza.

Pierwszy system, MIRA, działał w testowej wersji elektronicznej dokumentacji medycznej. Mógł zebrać wywiad, zlecić badania, przeczytać wyniki, dobrać leki, wskazać procedury i zdecydować o przyjęciu pacjenta do szpitala. Drugi system, AMIE od Google, prowadził rozmowy kliniczne przez czat i planował opiekę nad pacjentem podczas kilku kolejnych wizyt.

MIRA w bezpośrednim porównaniu z lekarzami osiągnęła 87,8 proc. trafności diagnostycznej. Czterech lekarzy specjalistów pracujących w tej samej symulacji uzyskało 78,1 proc., a mieszana grupa sześciu lekarzy 71,1 proc. AMIE w scenariuszach obejmujących kilka wizyt przygotowywała plany leczenia oceniane jako bardziej precyzyjne niż plany lekarzy podstawowej opieki zdrowotnej.

Testy nie odbywały się w prawdziwym szpitalu z prawdziwymi pacjentami. MIRA rozmawiała z pacjentem symulowanym na podstawie dokumentacji medycznej, a AMIE z aktorami pracującymi według przygotowanych scenariuszy. Lekarz nadal musi zobaczyć chorego, ocenić jego stan, usłyszeć głos, zbadać ciało, zauważyć zachowanie i wziąć odpowiedzialność za decyzję.

Pierwsze badanie dotyczy systemu MIRA, czyli Medical Intelligence for Reasoning and Action. Stworzył go zespół badaczy związanych m.in. z Else Kröner Fresenius Center for Digital Health, TUD Dresden University of Technology i Heidelberg University Hospital. Praca nosi tytuł „Towards autonomous medical artificial intelligence agents”.

MIRA została umieszczona w środowisku przypominającym szpitalny system komputerowy. W takiej dokumentacji lekarz zleca morfologię, badania moczu, posiewy, zdjęcie RTG, tomografię, leki, zabieg albo przyjęcie chorego na oddział. System AI miał wykonać podobny ciąg czynności w piaskownicy testowej, bez kontaktu z prawdziwymi pacjentami.

MIRA mogła porozmawiać z symulowanym pacjentem, zapytać o objawy, zamówić badania, przeczytać wyniki, postawić rozpoznanie, dobrać leczenie i zdecydować, czy pacjent wymaga hospitalizacji. W całym systemie miała do wyboru ponad 85 tys. możliwych działań klinicznych.

Badacze użyli bazy MIMIC-IV. To zdeidentyfikowana baza dokumentacji medycznej z Beth Israel Deaconess Medical Center w Bostonie, obejmująca pacjentów leczonych w latach 2008–2019. Dane są pozbawione informacji pozwalających ustalić tożsamość chorych.

Z tej bazy przygotowano 574 przypadki z oddziału ratunkowego. Obejmowały osiem rozpoznań: zapalenie wyrostka robaczkowego, zapalenie pęcherzyka żółciowego, zapalenie uchyłków, zapalenie trzustki, zapalenie płuc, zakażenie układu moczowego, zatorowość płucną i raka trzustki.

Symulowany pacjent odpowiadał tylko na podstawie informacji zapisanych w prawdziwej historii choroby. Gdy MIRA pytała o ból, gorączkę, duszność albo wcześniejsze badania, odpowiedź pochodziła z dokumentacji danego przypadku. System nie dostawał od razu gotowej diagnozy.

Badanie nie przypominało testu z wiedzy medycznej. Model nie miał zaznaczyć odpowiedzi A, B, C albo D. Musiał przejść przez proces podobny do pracy lekarza na SOR-ze. Zbierał wywiad, wybierał badania, interpretował wyniki, stawiał rozpoznanie i planował leczenie.

MIRA korzystała z 11 narzędzi. Mogła zlecać badanie fizykalne, badania krwi, badania moczu, mikrobiologię, obrazowanie, leki, procedury i hospitalizację. Badacze zbudowali system tak, żeby polecenia AI były zgodne ze standardami używanymi w elektronicznej dokumentacji medycznej.

W pierwszej ocenie porównano rozpoznania MIRA z diagnozami zapisanymi w bazie MIMIC-IV. Średnia trafność wyniosła 88,9 proc. dla 574 przypadków. Najlepiej system poradził sobie z zapaleniem wyrostka robaczkowego. Poprawnie rozpoznał 146 ze 148 przypadków, czyli 98,6 proc.

Dobre wyniki odnotowano też przy zapaleniu trzustki. Słabiej wypadły zapalenie płuc i zakażenie układu moczowego. To częste powody wizyt na oddziałach ratunkowych, a ich obraz bywa mniej jednoznaczny niż klasyczny przypadek zapalenia wyrostka.

Badacze wykonali też porównanie z lekarzami. W tej części użyto 311 przypadków. MIRA została zestawiona z czterema lekarzami specjalistami oraz z drugą grupą sześciu lekarzy o różnym doświadczeniu. W drugiej grupie byli rezydenci i lekarze certyfikowani.

W tym porównaniu MIRA osiągnęła średnią trafność diagnostyczną 87,8 proc. Lekarze specjaliści uzyskali 78,1 proc., a grupa mieszana 71,1 proc. Różnica była największa przy zapaleniu trzustki. MIRA osiągnęła tam 95,2 proc., lekarze specjaliści 78,6 proc., a grupa mieszana 61,9 proc.

Przy zatorowości płucnej i zapaleniu pęcherzyka żółciowego przewaga AI była niewielka. Przy zapaleniu płuc i zakażeniu układu moczowego zarówno MIRA, jak i lekarze wypadli słabiej. Wynik systemu nie był jednakowy we wszystkich chorobach.

MIRA częściej niż lekarze zlecała badanie fizykalne. Robiła to w 97,1 proc. przypadków. Lekarze specjaliści zlecali je w 87,8 proc., a grupa mieszana w 88,4 proc. przypadków.

System zamawiał też więcej parametrów badań krwi niż lekarze. Pokrywał około 51,1 proc. badań dostępnych w historycznej dokumentacji, lekarze specjaliści 28,3 proc., a grupa mieszana 34,6 proc. Większa liczba danych laboratoryjnych mogła pomagać AI w trafniejszym rozpoznaniu.

Autorzy badania zaznaczają przy tym, że MIRA nie zlecała wszystkiego. System nadal zamawiał mniej badań niż zapisano w rutynowej dokumentacji MIMIC-IV. Nie zwiększał też systematycznie wykorzystania droższego obrazowania, takiego jak tomografia.

System dobrze wypadł przy wyborze procedur. MIRA wskazała 53,5 proc. istotnych procedur zapisanych w dokumentacji, a lekarze specjaliści 38,3 proc. Przy zapaleniu wyrostka robaczkowego system poprawnie dopasował wszystkie laparoskopowe appendektomie zapisane w danych. Przy zapaleniu pęcherzyka żółciowego poprawnie dopasował prawie wszystkie laparoskopowe cholecystektomie.

Badacze sprawdzili też, czy MIRA przepisuje leki zgodnie z wytycznymi. System częściej niż lekarze trzymał się zaleceń klinicznych w wielu ocenianych kategoriach. Średnia różnica zgodności z wytycznymi wyniosła około 35 punktów procentowych na korzyść systemu wobec lekarzy specjalistów i 36 punktów wobec grupy mieszanej.

Osobno oceniono bezpieczeństwo lekowe. W próbie 56 przypadków sprawdzanych przez lekarza nie stwierdzono ciężkich interakcji lek–lek, nieprawidłowego dawkowania przy zaburzonej pracy nerek, błędów związanych z alergiami, ryzyka związanego z QT ani niebezpiecznego przepisywania opioidów.

Wykryto trzy przypadki powielenia terapii. Uznano je za klinicznie uzasadnione, ale opis dawkowania mógł być bardziej jednoznaczny. W ocenie 468 recept i zaleceń lekowych MIRA uzyskała 99,8 proc. poprawności przy instrukcjach dawkowania. Najczęstszym miejscem błędu była droga podania leku.

System testowano także przy decyzjach o przyjęciu do szpitala. W eksperymencie dotyczącym zapalenia płuc i zatorowości płucnej MIRA nie pominęła żadnego przypadku wymagającego hospitalizacji. Przy zatorowości płucnej częściej działała ostrożnie i częściej kierowała pacjenta do przyjęcia.

Autorzy sprawdzili również, czy symulowany pacjent nie podpowiada przypadkiem diagnozy. W 933 rozmowach nie wykryto przedwczesnego ujawnienia rozpoznania. Nie wykryto go także w 880 próbach wymuszenia informacji przez podstępne polecenia.

Drugie badanie dotyczy systemu AMIE, czyli Articulate Medical Intelligence Explorer. To system Google DeepMind i Google Research. Praca nosi tytuł „Towards Conversational AI for Disease Management”.

AMIE nie działała w szpitalnej dokumentacji tak jak MIRA. Jej zadaniem była rozmowa z pacjentem i prowadzenie opieki przez kilka wizyt. Taki scenariusz przypomina kontakt z lekarzem podstawowej opieki zdrowotnej przy chorobie przewlekłej, gdy pacjent wraca po wyniki, zmianę leków albo dalsze zalecenia.

Badanie AMIE przeprowadzono w formacie wirtualnego egzaminu klinicznego. W medycynie taki egzamin nazywa się OSCE. Pacjent jest wtedy odgrywany według przygotowanego scenariusza, a lekarz ma przeprowadzić rozmowę, zebrać informacje i zaplanować dalsze postępowanie.

AMIE porównano z 21 lekarzami podstawowej opieki zdrowotnej. Użyto 100 scenariuszy obejmujących wiele wizyt. Scenariusze oparto na brytyjskich wytycznych NICE i BMJ Best Practice.

Każdy przypadek AMIE obejmował kolejne rozmowy. Najpierw pojawiało się pierwsze zgłoszenie pacjenta, a potem wizyty kontrolne z nowymi informacjami, np. wynikami badań, zmianą objawów albo reakcją na leczenie. System miał prowadzić sprawę w czasie, a nie tylko odpowiedzieć na pojedyncze pytanie.

AMIE uzyskała wynik nie gorszy od lekarzy w ogólnym rozumowaniu dotyczącym prowadzenia choroby. Lepiej wypadła w precyzji planowania badań i leczenia oraz w zgodności z wytycznymi klinicznymi. Plany leczenia przygotowane przez system oceniano jako precyzyjne w 94 proc., 90 proc. i 91 proc. przypadków, zależnie od etapu konsultacji. U lekarzy było to odpowiednio 67 proc., 70 proc. i 70 proc.

Przygotowano też test RxQA do oceny rozumowania lekowego, oparty na amerykańskim i brytyjskim formularzu leków. W trudniejszych pytaniach AMIE uzyskała 57,9 proc. poprawnych odpowiedzi, a lekarze podstawowej opieki zdrowotnej 47,8 proc.

AMIE opiera się na modelach Gemini i ich długim kontekście. System może jednocześnie brać pod uwagę dużą ilość tekstu: historię rozmów, kolejne wizyty, wytyczne medyczne, formularze lekowe i poprzednie decyzje. W badaniu miał dzięki temu planować opiekę nie jako pojedynczą odpowiedź, lecz jako ciąg decyzji.

MIRA i AMIE oceniano w różnych zadaniach. MIRA pracowała jak lekarz w szpitalnym systemie komputerowym, na przypadkach z oddziału ratunkowego. AMIE rozmawiała jak lekarz prowadzący pacjenta przez kilka wizyt. Pierwszy test dotyczył działań w dokumentacji i ostrych przypadków, drugi rozmowy klinicznej i zarządzania chorobą w czasie.

Eksperci komentujący publikacje nie mówią o gotowych autonomicznych lekarzach. Ignacio Miranda Gómez z International Breast Cancer Centre i Teknon Medical Centre w Barcelonie podkreślił, że systemy osiągnęły poziom porównywalny z lekarzami w konkretnych zadaniach klinicznych, ale badania przeprowadzono w środowiskach kontrolowanych. Skuteczność i bezpieczeństwo trzeba jeszcze potwierdzić w prawdziwych szpitalach i klinikach.

Alfonso Valencia z Barcelona Supercomputing Centre zwrócił uwagę na różnicę między systemami. MIRA jest dostępna jako projekt open source, co pozwala innym badaczom sprawdzić i rozwijać rozwiązanie. AMIE nie jest oprogramowaniem open source, co utrudnia niezależną ocenę.

Dr Dominic Oliver z Uniwersytetu Oksfordzkiego wskazał trzy główne ograniczenia. W żadnym z badań nie uczestniczyli prawdziwi pacjenci. Systemy testowano na wybranych stanach i specjalnościach. Oba modele były tekstowe, choć realna konsultacja obejmuje głos, zachowanie pacjenta, mowę ciała i badanie fizykalne.

Prof. Julie Jacko z Uniwersytetu Edynburskiego oceniła, że AMIE badano silnie przez zgodność z wytycznymi. Taka ocena nie obejmuje całej złożoności prawdziwej decyzji klinicznej, bo lekarz czasem dopasowuje postępowanie do konkretnego pacjenta, a nie tylko do zapisanej reguły.

Przy MIRA prof. Jacko wskazała inne ograniczenie. Część wyników odnoszono do tego, co zapisano w historycznych danych. System mógł być nagradzany za odtwarzanie dokumentowanych zachowań klinicznych, co nie zawsze musi oznaczać najlepszą możliwą opiekę.

Prof. Catherine Pope z Uniwersytetu Oksfordzkiego podkreśliła, że oba systemy potrafią naśladować część pracy doświadczonych lekarzy, ale nie zastępują relacji lekarz–pacjent. Jej zdaniem takie narzędzia powinny działać razem z klinicystami, a nie zamiast nich.

Dr Wei Xing z Uniwersytetu Sheffield zauważył, że przewaga MIRA w diagnostyce była największa w chorobach z bardziej jednoznacznymi wynikami badań, takich jak zapalenie wyrostka robaczkowego i zapalenie trzustki. Przy zapaleniu płuc i zakażeniu układu moczowego, częstych powodach wizyt w oddziałach ratunkowych, różnica między AI i lekarzami była najmniejsza.

Ten sam ekspert przypomniał wcześniejsze badanie AMIE z prawdziwymi pacjentami. W tamtej pracy lekarze przygotowywali bardziej praktyczne i bardziej opłacalne plany opieki niż system. Nowa publikacja AMIE wraca do środowiska w pełni symulowanego, dlatego jej wyniki nie zamykają sprawy wdrożenia.

Autorzy obu prac piszą, że potrzebne są badania prospektywne z udziałem prawdziwych pacjentów. Takie testy mają sprawdzić bezpieczeństwo, skuteczność i sprawiedliwość systemów w realnym leczeniu, gdzie pacjent może mówić nieprecyzyjnie, mieć kilka chorób naraz, reagować emocjonalnie albo nie pasować do przygotowanego scenariusza.

Na razie MIRA i AMIE są kandydatami na narzędzia dla lekarzy, nie ich następców. Kolejny krok to testy z prawdziwymi pacjentami i praca pod nadzorem klinicysty: dokumentacja, leki, wytyczne, wstępne plany leczenia. Ale granica przesuwa się szybko. Jeszcze niedawno medyczna AI odpowiadała na pytania egzaminacyjne. Teraz prowadzi przypadek, zamawia badania, czyta wyniki i układa plan leczenia. W gabinecie i na oddziale nadal zostaje człowiek, lecz zastępowanie części pracy lekarza nie jest już pytaniem „czy”, tylko „kiedy, gdzie i pod czyją kontrolą”.

Źródła:

Nature – badanie MIRA
https://www.nature.com/articles/s41586-026-10675-5

Nature – badanie AMIE
https://www.nature.com/articles/s41586-026-10764-5

Science Media Centre – komentarze ekspertów
https://www.sciencemediacentre.org/expert-reaction-to-presentation-of-two-new-medical-ai-models-for-patient-management-mira-and-amie/

Najnowsze

Radny KO i lekarz cudotwórca

Radny KO i lekarz cudotwórca

Dawid Kacprzyk, radny Ursusa związany z Koalicją Obywatelską i lekarz Warszawskiego Szpitala Południowego, zrezygnował...

Wyrwać Tuska?

Wyrwać Tuska?

Czeka nas odlewanie Tadeusza Mazowieckiego. W spiżu, w pomnikowej formie. Zaproponował to premier Donald Tusk, lider...

Sprawdź również

Mini-wszechświat mierzy czas bez zegara

Mini-wszechświat mierzy czas bez zegara

Giovanni Barontini z Uniwersytetu Birmingham zbudował laboratoryjny model „mini-wszechświata” z ultrazimnych atomów rubidu. W tym układzie upływ czasu nie jest odmierzany przez zewnętrzny zegar, lecz wynika ze zmian zachodzących wewnątrz samego systemu. Eksperyment...