Modelele de inteligență artificială au depășit performanțele medicilor în luarea deciziilor medicale în situații de urgență, potrivit unui nou studiu, citat de Euronews.com.
Inteligența artificială depășește medicii în raționamentul clinic, dar ridică semne de întrebare privind aplicarea în practică
Cercetători de la Harvard Medical School și Beth Israel Deaconess Medical Center au comparat inteligența artificială cu medicii într-o gamă largă de sarcini de raționament clinic.
Aceștia au constatat că modelele lingvistice de mari dimensiuni (LLM) au depășit performanțele medicilor în mai multe tipuri de sarcini, inclusiv luarea deciziilor în camera de urgență pe baza informațiilor disponibile, identificarea celor mai probabile diagnostice și alegerea pașilor următori în gestionarea cazurilor.
„Am testat modelul de inteligență artificială în raport cu practic toate criteriile de referință, iar acesta a depășit atât modelele anterioare, cât și nivelul de bază al medicilor”, a declarat Arjun Manrai, coautor principal și profesor la Harvard Medical School.
„Totuși, acest lucru nu înseamnă că inteligența artificială va îmbunătăți neapărat îngrijirea medicală – modul și domeniile în care ar trebui utilizată rămân insuficient studiate, iar avem nevoie urgentă de studii prospective riguroase pentru a evalua impactul AI asupra practicii clinice”, concluzionează Manrai.
Cum a fost testat modelul de inteligență artificială
Cercetătorii au evaluat inițial modelul o1-preview, dezvoltat de OpenAI și lansat în 2024, căruia i-au oferit o gamă variată de cazuri clinice, inclusiv conferințe de caz publicate și înregistrări reale din departamentele de urgență.
Inteligența artificială a depășit performanțele medicilor umani în majoritatea experimentelor, în special în raționamentul legat de managementul cazurilor, raționamentul clinic, documentare și în scenarii reale de urgență, unde informațiile disponibile sunt limitate.
„Modelele devin din ce în ce mai capabile. Obișnuiam să le evaluăm prin teste grilă; acum obțin constant scoruri apropiate de 100% și nu mai putem urmări progresul, pentru că am ajuns deja la plafon”, a declarat Peter Brodeur, coautor principal și fellow clinic în medicină la Beth Israel Deaconess.
Într-unul dintre teste, cercetătorii au cerut modelelor LLM – o1 și GPT-4o să evalueze pacienți în diferite etape ale fluxului din departamentul de urgență, de la triajul inițial până la deciziile de internare. La fiecare pas, modelul a primit doar informațiile disponibile în acel moment și a fost rugat să genereze diagnostice probabile și să recomande pașii următori.
Cea mai mare diferență între inteligența artificială și medicii umani a apărut în etapa de triaj, unde datele despre pacient sunt mai limitate. La fel ca în cazul medicilor, modelele AI și-au îmbunătățit capacitatea de diagnostic pe măsură ce au primit mai multe informații.
„Deși utilizarea inteligenței artificiale pentru a sprijini deciziile clinice este uneori considerată o inițiativă cu risc ridicat, o utilizare mai extinsă a acestor instrumente ar putea contribui la reducerea costurilor umane și financiare generate de erorile de diagnostic, întârzieri și lipsa accesului la servicii medicale”, au scris autorii.
Inteligența artificială este capabilă, dar este nevoie de mai multe cercetări
Cercetătorii au cerut realizarea unor studii prospective pentru a evalua aceste tehnologii în condiții reale și au subliniat că sistemele de sănătate ar trebui să investească în infrastructură de calcul și să dezvolte cadre care să permită integrarea sigură a instrumentelor AI în fluxurile clinice.
„Un model poate identifica corect diagnosticul principal, dar poate recomanda și teste inutile care ar putea expune pacientul la riscuri”, a declarat Peter Brodeur. „Oamenii ar trebui să rămână reperul final atunci când vine vorba de evaluarea performanței și siguranței”, a concluzionat Brodeur.
Studiul are și unele limitări. Autorii au menționat că acesta reflectă doar performanța modelelor și se concentrează în principal pe versiunea preview a modelului o1, care între timp a fost înlocuită de modele mai noi, precum OpenAI o3.
„Deși ne așteptăm ca performanța să fie menținută sau îmbunătățită odată cu modelele mai noi, sunt necesare studii suplimentare pentru a clarifica modul în care performanța variază între modele și pentru a analiza cum pot colabora oamenii și modelele lingvistice de mari dimensiuni”, au scris autorii.
