Sztuczna inteligencja dorównała lekarzom w testach medycznych

18 cze 2026

Czy sztuczna inteligencja może przejąć część pracy lekarza? Dwa badania opublikowane 17 czerwca 2026 r. w „Nature” opisują systemy, które w kontrolowanych testach prowadziły elementy procesu klinicznego krok po kroku. Nie były zwykłymi chatbotami. Działały jak agenci AI, którzy zbierają informacje, podejmują kolejne decyzje i wykonują zadania przypominające fragment pracy lekarza.

Pierwszy system, MIRA, działał w testowej wersji elektronicznej dokumentacji medycznej. Mógł zebrać wywiad, zlecić badania, przeczytać wyniki, dobrać leki, wskazać procedury i zdecydować o przyjęciu pacjenta do szpitala. Drugi system, AMIE od Google, prowadził rozmowy kliniczne przez czat i planował opiekę nad pacjentem podczas kilku kolejnych wizyt.

MIRA w bezpośrednim porównaniu z lekarzami osiągnęła 87,8 proc. trafności diagnostycznej. Czterech lekarzy specjalistów pracujących w tej samej symulacji uzyskało 78,1 proc., a mieszana grupa sześciu lekarzy 71,1 proc. AMIE w scenariuszach obejmujących kilka wizyt przygotowywała plany leczenia oceniane jako bardziej precyzyjne niż plany lekarzy podstawowej opieki zdrowotnej.

Testy nie odbywały się w prawdziwym szpitalu z prawdziwymi pacjentami. MIRA rozmawiała z pacjentem symulowanym na podstawie dokumentacji medycznej, a AMIE z aktorami pracującymi według przygotowanych scenariuszy. Lekarz nadal musi zobaczyć chorego, ocenić jego stan, usłyszeć głos, zbadać ciało, zauważyć zachowanie i wziąć odpowiedzialność za decyzję.

Pierwsze badanie dotyczy systemu MIRA, czyli Medical Intelligence for Reasoning and Action. Stworzył go zespół badaczy związanych m.in. z Else Kröner Fresenius Center for Digital Health, TUD Dresden University of Technology i Heidelberg University Hospital. Praca nosi tytuł „Towards autonomous medical artificial intelligence agents”.

MIRA została umieszczona w środowisku przypominającym szpitalny system komputerowy. W takiej dokumentacji lekarz zleca morfologię, badania moczu, posiewy, zdjęcie RTG, tomografię, leki, zabieg albo przyjęcie chorego na oddział. System AI miał wykonać podobny ciąg czynności w piaskownicy testowej, bez kontaktu z prawdziwymi pacjentami.

MIRA mogła porozmawiać z symulowanym pacjentem, zapytać o objawy, zamówić badania, przeczytać wyniki, postawić rozpoznanie, dobrać leczenie i zdecydować, czy pacjent wymaga hospitalizacji. W całym systemie miała do wyboru ponad 85 tys. możliwych działań klinicznych.

Badacze użyli bazy MIMIC-IV. To zdeidentyfikowana baza dokumentacji medycznej z Beth Israel Deaconess Medical Center w Bostonie, obejmująca pacjentów leczonych w latach 2008–2019. Dane są pozbawione informacji pozwalających ustalić tożsamość chorych.

Z tej bazy przygotowano 574 przypadki z oddziału ratunkowego. Obejmowały osiem rozpoznań: zapalenie wyrostka robaczkowego, zapalenie pęcherzyka żółciowego, zapalenie uchyłków, zapalenie trzustki, zapalenie płuc, zakażenie układu moczowego, zatorowość płucną i raka trzustki.

Symulowany pacjent odpowiadał tylko na podstawie informacji zapisanych w prawdziwej historii choroby. Gdy MIRA pytała o ból, gorączkę, duszność albo wcześniejsze badania, odpowiedź pochodziła z dokumentacji danego przypadku. System nie dostawał od razu gotowej diagnozy.

Badanie nie przypominało testu z wiedzy medycznej. Model nie miał zaznaczyć odpowiedzi A, B, C albo D. Musiał przejść przez proces podobny do pracy lekarza na SOR-ze. Zbierał wywiad, wybierał badania, interpretował wyniki, stawiał rozpoznanie i planował leczenie.

MIRA korzystała z 11 narzędzi. Mogła zlecać badanie fizykalne, badania krwi, badania moczu, mikrobiologię, obrazowanie, leki, procedury i hospitalizację. Badacze zbudowali system tak, żeby polecenia AI były zgodne ze standardami używanymi w elektronicznej dokumentacji medycznej.

W pierwszej ocenie porównano rozpoznania MIRA z diagnozami zapisanymi w bazie MIMIC-IV. Średnia trafność wyniosła 88,9 proc. dla 574 przypadków. Najlepiej system poradził sobie z zapaleniem wyrostka robaczkowego. Poprawnie rozpoznał 146 ze 148 przypadków, czyli 98,6 proc.

Dobre wyniki odnotowano też przy zapaleniu trzustki. Słabiej wypadły zapalenie płuc i zakażenie układu moczowego. To częste powody wizyt na oddziałach ratunkowych, a ich obraz bywa mniej jednoznaczny niż klasyczny przypadek zapalenia wyrostka.

Badacze wykonali też porównanie z lekarzami. W tej części użyto 311 przypadków. MIRA została zestawiona z czterema lekarzami specjalistami oraz z drugą grupą sześciu lekarzy o różnym doświadczeniu. W drugiej grupie byli rezydenci i lekarze certyfikowani.

W tym porównaniu MIRA osiągnęła średnią trafność diagnostyczną 87,8 proc. Lekarze specjaliści uzyskali 78,1 proc., a grupa mieszana 71,1 proc. Różnica była największa przy zapaleniu trzustki. MIRA osiągnęła tam 95,2 proc., lekarze specjaliści 78,6 proc., a grupa mieszana 61,9 proc.

Przy zatorowości płucnej i zapaleniu pęcherzyka żółciowego przewaga AI była niewielka. Przy zapaleniu płuc i zakażeniu układu moczowego zarówno MIRA, jak i lekarze wypadli słabiej. Wynik systemu nie był jednakowy we wszystkich chorobach.

MIRA częściej niż lekarze zlecała badanie fizykalne. Robiła to w 97,1 proc. przypadków. Lekarze specjaliści zlecali je w 87,8 proc., a grupa mieszana w 88,4 proc. przypadków.

System zamawiał też więcej parametrów badań krwi niż lekarze. Pokrywał około 51,1 proc. badań dostępnych w historycznej dokumentacji, lekarze specjaliści 28,3 proc., a grupa mieszana 34,6 proc. Większa liczba danych laboratoryjnych mogła pomagać AI w trafniejszym rozpoznaniu.

Autorzy badania zaznaczają przy tym, że MIRA nie zlecała wszystkiego. System nadal zamawiał mniej badań niż zapisano w rutynowej dokumentacji MIMIC-IV. Nie zwiększał też systematycznie wykorzystania droższego obrazowania, takiego jak tomografia.

System dobrze wypadł przy wyborze procedur. MIRA wskazała 53,5 proc. istotnych procedur zapisanych w dokumentacji, a lekarze specjaliści 38,3 proc. Przy zapaleniu wyrostka robaczkowego system poprawnie dopasował wszystkie laparoskopowe appendektomie zapisane w danych. Przy zapaleniu pęcherzyka żółciowego poprawnie dopasował prawie wszystkie laparoskopowe cholecystektomie.

Badacze sprawdzili też, czy MIRA przepisuje leki zgodnie z wytycznymi. System częściej niż lekarze trzymał się zaleceń klinicznych w wielu ocenianych kategoriach. Średnia różnica zgodności z wytycznymi wyniosła około 35 punktów procentowych na korzyść systemu wobec lekarzy specjalistów i 36 punktów wobec grupy mieszanej.

Osobno oceniono bezpieczeństwo lekowe. W próbie 56 przypadków sprawdzanych przez lekarza nie stwierdzono ciężkich interakcji lek–lek, nieprawidłowego dawkowania przy zaburzonej pracy nerek, błędów związanych z alergiami, ryzyka związanego z QT ani niebezpiecznego przepisywania opioidów.

Wykryto trzy przypadki powielenia terapii. Uznano je za klinicznie uzasadnione, ale opis dawkowania mógł być bardziej jednoznaczny. W ocenie 468 recept i zaleceń lekowych MIRA uzyskała 99,8 proc. poprawności przy instrukcjach dawkowania. Najczęstszym miejscem błędu była droga podania leku.

System testowano także przy decyzjach o przyjęciu do szpitala. W eksperymencie dotyczącym zapalenia płuc i zatorowości płucnej MIRA nie pominęła żadnego przypadku wymagającego hospitalizacji. Przy zatorowości płucnej częściej działała ostrożnie i częściej kierowała pacjenta do przyjęcia.

Autorzy sprawdzili również, czy symulowany pacjent nie podpowiada przypadkiem diagnozy. W 933 rozmowach nie wykryto przedwczesnego ujawnienia rozpoznania. Nie wykryto go także w 880 próbach wymuszenia informacji przez podstępne polecenia.

Drugie badanie dotyczy systemu AMIE, czyli Articulate Medical Intelligence Explorer. To system Google DeepMind i Google Research. Praca nosi tytuł „Towards Conversational AI for Disease Management”.

AMIE nie działała w szpitalnej dokumentacji tak jak MIRA. Jej zadaniem była rozmowa z pacjentem i prowadzenie opieki przez kilka wizyt. Taki scenariusz przypomina kontakt z lekarzem podstawowej opieki zdrowotnej przy chorobie przewlekłej, gdy pacjent wraca po wyniki, zmianę leków albo dalsze zalecenia.

Badanie AMIE przeprowadzono w formacie wirtualnego egzaminu klinicznego. W medycynie taki egzamin nazywa się OSCE. Pacjent jest wtedy odgrywany według przygotowanego scenariusza, a lekarz ma przeprowadzić rozmowę, zebrać informacje i zaplanować dalsze postępowanie.

AMIE porównano z 21 lekarzami podstawowej opieki zdrowotnej. Użyto 100 scenariuszy obejmujących wiele wizyt. Scenariusze oparto na brytyjskich wytycznych NICE i BMJ Best Practice.

Każdy przypadek AMIE obejmował kolejne rozmowy. Najpierw pojawiało się pierwsze zgłoszenie pacjenta, a potem wizyty kontrolne z nowymi informacjami, np. wynikami badań, zmianą objawów albo reakcją na leczenie. System miał prowadzić sprawę w czasie, a nie tylko odpowiedzieć na pojedyncze pytanie.

AMIE uzyskała wynik nie gorszy od lekarzy w ogólnym rozumowaniu dotyczącym prowadzenia choroby. Lepiej wypadła w precyzji planowania badań i leczenia oraz w zgodności z wytycznymi klinicznymi. Plany leczenia przygotowane przez system oceniano jako precyzyjne w 94 proc., 90 proc. i 91 proc. przypadków, zależnie od etapu konsultacji. U lekarzy było to odpowiednio 67 proc., 70 proc. i 70 proc.

Przygotowano też test RxQA do oceny rozumowania lekowego, oparty na amerykańskim i brytyjskim formularzu leków. W trudniejszych pytaniach AMIE uzyskała 57,9 proc. poprawnych odpowiedzi, a lekarze podstawowej opieki zdrowotnej 47,8 proc.

AMIE opiera się na modelach Gemini i ich długim kontekście. System może jednocześnie brać pod uwagę dużą ilość tekstu: historię rozmów, kolejne wizyty, wytyczne medyczne, formularze lekowe i poprzednie decyzje. W badaniu miał dzięki temu planować opiekę nie jako pojedynczą odpowiedź, lecz jako ciąg decyzji.

MIRA i AMIE oceniano w różnych zadaniach. MIRA pracowała jak lekarz w szpitalnym systemie komputerowym, na przypadkach z oddziału ratunkowego. AMIE rozmawiała jak lekarz prowadzący pacjenta przez kilka wizyt. Pierwszy test dotyczył działań w dokumentacji i ostrych przypadków, drugi rozmowy klinicznej i zarządzania chorobą w czasie.

Eksperci komentujący publikacje nie mówią o gotowych autonomicznych lekarzach. Ignacio Miranda Gómez z International Breast Cancer Centre i Teknon Medical Centre w Barcelonie podkreślił, że systemy osiągnęły poziom porównywalny z lekarzami w konkretnych zadaniach klinicznych, ale badania przeprowadzono w środowiskach kontrolowanych. Skuteczność i bezpieczeństwo trzeba jeszcze potwierdzić w prawdziwych szpitalach i klinikach.

Alfonso Valencia z Barcelona Supercomputing Centre zwrócił uwagę na różnicę między systemami. MIRA jest dostępna jako projekt open source, co pozwala innym badaczom sprawdzić i rozwijać rozwiązanie. AMIE nie jest oprogramowaniem open source, co utrudnia niezależną ocenę.

Dr Dominic Oliver z Uniwersytetu Oksfordzkiego wskazał trzy główne ograniczenia. W żadnym z badań nie uczestniczyli prawdziwi pacjenci. Systemy testowano na wybranych stanach i specjalnościach. Oba modele były tekstowe, choć realna konsultacja obejmuje głos, zachowanie pacjenta, mowę ciała i badanie fizykalne.

Prof. Julie Jacko z Uniwersytetu Edynburskiego oceniła, że AMIE badano silnie przez zgodność z wytycznymi. Taka ocena nie obejmuje całej złożoności prawdziwej decyzji klinicznej, bo lekarz czasem dopasowuje postępowanie do konkretnego pacjenta, a nie tylko do zapisanej reguły.

Przy MIRA prof. Jacko wskazała inne ograniczenie. Część wyników odnoszono do tego, co zapisano w historycznych danych. System mógł być nagradzany za odtwarzanie dokumentowanych zachowań klinicznych, co nie zawsze musi oznaczać najlepszą możliwą opiekę.

Prof. Catherine Pope z Uniwersytetu Oksfordzkiego podkreśliła, że oba systemy potrafią naśladować część pracy doświadczonych lekarzy, ale nie zastępują relacji lekarz–pacjent. Jej zdaniem takie narzędzia powinny działać razem z klinicystami, a nie zamiast nich.

Dr Wei Xing z Uniwersytetu Sheffield zauważył, że przewaga MIRA w diagnostyce była największa w chorobach z bardziej jednoznacznymi wynikami badań, takich jak zapalenie wyrostka robaczkowego i zapalenie trzustki. Przy zapaleniu płuc i zakażeniu układu moczowego, częstych powodach wizyt w oddziałach ratunkowych, różnica między AI i lekarzami była najmniejsza.

Ten sam ekspert przypomniał wcześniejsze badanie AMIE z prawdziwymi pacjentami. W tamtej pracy lekarze przygotowywali bardziej praktyczne i bardziej opłacalne plany opieki niż system. Nowa publikacja AMIE wraca do środowiska w pełni symulowanego, dlatego jej wyniki nie zamykają sprawy wdrożenia.

Autorzy obu prac piszą, że potrzebne są badania prospektywne z udziałem prawdziwych pacjentów. Takie testy mają sprawdzić bezpieczeństwo, skuteczność i sprawiedliwość systemów w realnym leczeniu, gdzie pacjent może mówić nieprecyzyjnie, mieć kilka chorób naraz, reagować emocjonalnie albo nie pasować do przygotowanego scenariusza.

Na razie MIRA i AMIE są kandydatami na narzędzia dla lekarzy, nie ich następców. Kolejny krok to testy z prawdziwymi pacjentami i praca pod nadzorem klinicysty: dokumentacja, leki, wytyczne, wstępne plany leczenia. Ale granica przesuwa się szybko. Jeszcze niedawno medyczna AI odpowiadała na pytania egzaminacyjne. Teraz prowadzi przypadek, zamawia badania, czyta wyniki i układa plan leczenia. W gabinecie i na oddziale nadal zostaje człowiek, lecz zastępowanie części pracy lekarza nie jest już pytaniem „czy”, tylko „kiedy, gdzie i pod czyją kontrolą”.

Źródła:

Nature – badanie MIRA
https://www.nature.com/articles/s41586-026-10675-5

Nature – badanie AMIE
https://www.nature.com/articles/s41586-026-10764-5

Science Media Centre – komentarze ekspertów
https://www.sciencemediacentre.org/expert-reaction-to-presentation-of-two-new-medical-ai-models-for-patient-management-mira-and-amie/

Redakcja

← Poprzedni Następny →

Najnowsze

Porozumienie z Iranem, tańsza ropa i rekordowy zysk miliarderów

16 cze 2026 | Gospodarka

500 najbogatszych ludzi świata powiększyło swoje majątki w jeden dzień o 336 miliardów dolarów – wynika z danych...

Wewnętrzna granica, wewnętrzna wojna

16 cze 2026 | Opinie

Samozwańczy „obrońcy granic” poprzebierani w mundurki przypominające wojskowe, pojawili się na warszawskich dworcach i...

Radny KO i lekarz cudotwórca

15 cze 2026 | Polska

Dawid Kacprzyk, radny Ursusa związany z Koalicją Obywatelską i lekarz Warszawskiego Szpitala Południowego, zrezygnował...

Wyrwać Tuska?

15 cze 2026 | Opinie

Czeka nas odlewanie Tadeusza Mazowieckiego. W spiżu, w pomnikowej formie. Zaproponował to premier Donald Tusk, lider...

Absurd? Oktagon przed Białym Domem w dniu urodzin Trumpa

15 cze 2026 | Świat

Na południowym trawniku Białego Domu odbyła się w niedzielę 14 czerwca gala UFC Freedom 250. Walki zorganizowano w...

Związki w Brukseli mówią jednym głosem. Godna płaca, zdrowa praca i kontrola nad AI

15 cze 2026 | Gospodarka

W Brukseli odbyły się międzynarodowe spotkania związkowe poświęcone płacom, zdrowiu w pracy, cyfryzacji i prawu...

Sprawdź również

Nierówności społeczne przyspieszają starzenie organizmu

13 cze 2026 | Nauka i Technologia

Ubóstwo, rasizm i wykluczenie społeczne wiążą się z szybszym starzeniem organizmu. Metaanaliza opublikowana w „Nature Human Behaviour” objęła 140 badań z 23 krajów i 65 919 osób, od noworodków po ludzi w wieku 86 lat. Pracę przygotował zespół Biosocial z Instytutu...

Mini-wszechświat mierzy czas bez zegara

13 cze 2026 | Nauka i Technologia

Giovanni Barontini z Uniwersytetu Birmingham zbudował laboratoryjny model „mini-wszechświata” z ultrazimnych atomów rubidu. W tym układzie upływ czasu nie jest odmierzany przez zewnętrzny zegar, lecz wynika ze zmian zachodzących wewnątrz samego systemu. Eksperyment...

W Chinach odkryto czteroskrzydłego kuzyna welociraptora

8 cze 2026 | Nauka i Technologia

Naukowcy opisali nowy gatunek opierzonego dinozaura z północno-zachodnich Chin. Jian changmaensis żył około 120 milionów lat temu w dzisiejszej prowincji Gansu, prawdopodobnie szybował między drzewami i polował na wczesne ptaki. Odkrycie ogłoszono 4 czerwca w „Annals...

Grok Muska dostał własne miasteczko AI. Po czterech dniach wszyscy „mieszkańcy” byli martwi

3 cze 2026 | Nauka i Technologia

Amerykańskie laboratorium Emergence AI z Nowego Jorku dało pięciu modelom sztucznej inteligencji po jednym wirtualnym miasteczku. Każde miało dziesięciu mieszkańców, własne zasoby, reguły, głosowania i narzędzia do codziennego działania. Najszybciej rozpadła się...

Huawei dziękuje USA. Xu Zhijun mówi, że restrykcje przyspieszyły chińskie chipy

1 cze 2026 | Nauka i Technologia

Rotacyjny przewodniczący Huawei Xu Zhijun stwierdził, że amerykańskie ograniczenia eksportowe przyspieszyły rozwój chińskiego przemysłu półprzewodników. Według serwisu IT Home, który powołał się na TMTPost, Xu odpowiadał na pytania dotyczące ogłoszonego przez Huawei...

Chińscy astronauci wrócili po rekordowej misji na Tiangong

30 maj 2026 | Nauka i Technologia

Misja Shenzhou-21 zakończyła się po rekordowych 210 dniach pracy na chińskiej stacji kosmicznej Tiangong. Zhang Lu, Wu Fei i Zhang Hongzhang wrócili na Ziemię statkiem Shenzhou-22, wysłanym bez załogi jako pojazd powrotny po uszkodzeniu Shenzhou-20. Było to pierwsze...

Google oddaje AI Pentagonowi. Etyka kończy się przy klauzuli tajności

29 kwi 2026 | Nauka i Technologia

Google podpisał z Pentagonem umowę, która pozwala amerykańskiemu wojsku korzystać z modeli sztucznej inteligencji firmy w pracach objętych klauzulą tajności. Według Reutersa, powołującego się na serwis The Information, chodzi o dostęp do narzędzi AI Google, w tym...

Rekordowa fala upałów na Antarktydzie. Naukowcy wskazują na ślad człowieka

26 kwi 2026 | Nauka i Technologia, Świat

Wschodnia Antarktyda doświadczyła w 2024 roku najbardziej intensywnej zimowej fali upałów w całej 46-letniej historii obserwacji satelitarnych. W środku antarktycznej zimy, gdy kontynent pozostaje pogrążony w ciemności i zwykle notuje najniższe temperatury w roku,...