Onder- en overtriage; suïciderisico wordt onderschat
Onderzoek: ChatGPT Health is onbetrouwbaar voor medisch advies
ChatGPT Health, een AI-tool die medisch advies geeft, schiet grondig tekort. Meer dan de helft van de gevallen die spoedeisende zorg vereisten, werden ondergeprioriteerd. De tool negeerde ook alarmsignalen die wijzen op een mogelijke suïcidepoging. Dat blijkt uit onderzoek dat in Nature Medicine verscheen.
ChatGPT Health werd begin dit jaar met veel fanfare geïntroduceerd als een hulpmiddel dat mensen helpt “actiever inzicht te krijgen in en regie te voeren over hun gezondheid en welzijn”. Volgens beweringen van maker OpenAI gebruiken al 40 miljoen mensen de tool om gezondheidsinformatie en -advies te zoeken.
Onderzoekers van de Icahn School of Medicine aan Mount Sinai hebben de betrouwbaarheid van het gezondheidsadvies van ChatGPT Health onderzocht. Hun bevindingen zijn zo alarmerend dat ze versneld gepubliceerd werden in de online editie van Nature Medicine van 23 februari.
ChatGPT verwijst gebruikers in een aanzienlijk aantal ernstige gevallen niet correct door naar spoedeisende hulp. De studie bracht ook ernstige problemen aan het licht met betrekking tot de beveiligingsmaatregelen bij een dreigende zelfmoordcrisis.
Onder- en overtriage
Als onderdeel van de evaluatie creëerde het onderzoeksteam 60 gestructureerde klinische scenario’s uit 21 medische specialismen. De gevallen varieerden van lichte aandoeningen die geschikt waren voor thuiszorg tot echte medische noodgevallen. Drie artsen bepaalden de juiste urgentiegraad voor elk geval aan de hand van richtlijnen van 56 medische verenigingen.
Bij het testen van de realistische patiëntscenario's werd meer dan de helft van de gevallen die volgens artsen spoedeisende zorg vereisten, ondergeprioriteerd. Daarbij bleek ChatGPT bijzonder inconsequent. De tool gaf vaak aan dat het gevaarlijke symptomen herkende, maar stelde de patiënt desondanks gerust. Anderzijds werd patiënten met onschuldige symptomen aangeraden zo snel mogelijk een arts of spoeddienst te bezoeken.
"ChatGPT Health presteerde goed bij standaard noodgevallen zoals een beroerte of ernstige allergische reacties", zegt co-auteur Dr. Ramaswamy. "Maar het systeem had moeite met meer genuanceerde situaties waarin het gevaar niet direct duidelijk is, en juist in die gevallen is klinisch oordeel vaak het belangrijkst."
Suïcidegevaar wordt genegeerd
ChatGPT Health is volgens OpenAI geprogrammeerd om gebruikers met suïcidegedachten door te verwijzen naar de Amerikaanse 988 Suicide and Crisis Lifeline. De onderzoekers ontdekten echter dat deze waarschuwingen inconsistent verschenen; soms werden ze geactiveerd in minder risicovolle situaties, terwijl ze – alarmerend genoeg – niet verschenen wanneer gebruikers concrete plannen voor zelfbeschadiging beschreven.
De waarschuwingen van het systeem waren incongruent met het klinische risico: ze waren betrouwbaarder bij scenario's met een lager risico dan in gevallen waarin iemand openlijk aangaf hoe hij of zij zelfbeschadiging overwoog. "In een praktische situatie is het in feite een indicatie van een groter en ernstiger risico wanneer iemand gedetailleerd beschrijft hoe hij of zij overweegt zichzelf te verwonden, niet van een verminderd risico.", zegt senior en co-hoofdauteur Girish N. Nadkarni.
De auteurs van de studie adviseren dat mensen bij verergerende of zorgwekkende symptomen, zoals pijn op de borst, kortademigheid, ernstige allergische reacties of veranderingen in de mentale toestand, direct medische hulp moeten zoeken in plaats van te vertrouwen op de begeleiding van chatbots.
Onafhankelijke evaluatie zou de standaard moeten zijn
“LLM's zijn de eerste plek waar patiënten medisch advies inwinnen, maar in 2026 zijn ze het minst veilig in de klinische uitersten, waar een goed beoordelingsvermogen het verschil maakt tussen gemiste noodgevallen en onnodige paniek,” zegt Isaac S. Kohane, MD, PhD, hoofd van de afdeling Biomedische Informatica aan de Harvard Medical School.
“Wanneer miljoenen mensen een AI-systeem gebruiken om te bepalen of ze spoedeisende hulp nodig hebben, zijn de risico's enorm hoog. Onafhankelijke evaluatie zou standaard moeten zijn, geen optie.”
De studie beoordeelde het systeem op één specifiek moment. Omdat AI-modellen regelmatig worden bijgewerkt, kan de prestatie in de loop van de tijd veranderen, wat het belang van onafhankelijke evaluatie onderstreept, aldus de onderzoekers.
ChatGTP Health is nog niet beschikbaar in Europa. Volgens OpenAI is dat omdat nog niet duidelijk is of de medische chatbot voldoet aan de Europese GDPR-wetgeving, de Medical Devices Regulation (MDR) en de AI Act.