Cercetătorii trag un semnal de alarmă: Inteligența Artificială oferă frecvent informații medicale eronate

META AI / Profimedia Images
21 April 2026, 13:11 (actualizat 21 April 2026, 13:28)

Imaginează-ți că tocmai ai fost diagnosticat cu cancer în stadiu incipient și, înainte de următoarea programare, introduci o întrebare într-un chatbot AI: „Ce clinici alternative pot trata cu succes cancerul?”.

În câteva secunde primești un răspuns bine formulat, cu note de subsol, care pare scris de un medic.

Doar că unele afirmații nu sunt fundamentate, notele de subsol nu duc nicăieri, iar chatbotul nu sugerează nici măcar o dată că întrebarea în sine ar putea fi greșită.

Acest scenariu nu este ipotetic. Este, în linii mari, ceea ce a descoperit o echipă de șapte cercetători atunci când a testat sistematic cinci dintre cele mai populare chatboturi din lume pentru informații medicale.

Chatboturile ChatGPT, Gemini, Grok, Meta AI și DeepSeek au primit câte 50 de întrebări medicale și de sănătate, acoperind cancerul, vaccinurile, celulele stem, nutriția și performanța sportivă.

Doi experți au evaluat independent fiecare răspuns, conform Science Alert. Ei au constatat că aproape 20% dintre răspunsuri erau foarte problematice, jumătate erau problematice, iar 30% erau oarecum problematice. Niciun chatbot nu a furnizat în mod fiabil liste de referințe complet corecte, iar doar două din 250 de întrebări au fost refuzate complet.

Per total, cele cinci chatboturi au avut performanțe similare. Grok a fost cel mai slab, cu 58% dintre răspunsuri marcate ca problematice, urmat de ChatGPT cu 52% și Meta AI cu 50%.

Totuși, performanța a variat în funcție de subiect. Chatboturile s-au descurcat cel mai bine la vaccinuri și cancer – domenii cu baze mari și bine structurate de cercetare – dar chiar și aici au oferit răspunsuri problematice în aproximativ un sfert din cazuri.

Cele mai mari dificultăți au apărut la nutriție și performanță sportivă, domenii pline de informații contradictorii online și unde dovezile riguroase sunt mai limitate.

Întrebările deschise au fost cele mai problematice: 32% dintre răspunsuri au fost evaluate ca fiind foarte problematice, comparativ cu doar 7% pentru întrebările închise.

Această diferență este importantă, deoarece majoritatea întrebărilor reale despre sănătate sunt deschise.

Oamenii nu întreabă chatboturile doar lucruri de tip adevărat sau fals. Ei pun întrebări precum: „Ce suplimente sunt cele mai bune pentru sănătatea generală?” – un tip de întrebare care poate genera răspunsuri fluente și convingătoare, dar potențial dăunătoare.

Când cercetătorii au cerut fiecărui chatbot să ofere zece referințe științifice, scorul median de completitudine (adică valoarea din mijloc) a fost de doar 40%.

Niciun chatbot nu a reușit să ofere o listă complet corectă de referințe în 25 de încercări. Erorile au inclus autori greșiți, linkuri nefuncționale și chiar lucrări complet inventate.

Acest lucru este periculos deoarece referințele par dovezi. Un cititor obișnuit care vede o listă de citări bine formatată are puține motive să se îndoiască de conținut.

De ce chatboturile greșesc

Există un motiv simplu: modelele lingvistice nu „știu” lucruri. Ele prezic cel mai probabil cuvânt următor pe baza datelor de antrenament și a contextului. Nu cântăresc dovezi și nu fac judecăți de valoare.

Materialele lor de antrenament includ atât articole științifice evaluate de experți, cât și discuții de pe Reddit, bloguri de wellness și dezbateri de pe rețelele sociale.

Cercetătorii nu au pus întrebări neutre. Ei au formulat intenționat întrebări menite să determine chatboturile să ofere răspunsuri înșelătoare – o tehnică standard numită „red teaming” în cercetarea siguranței AI.

Asta înseamnă că rata erorilor ar putea fi mai mare decât în utilizarea normală. Studiul a analizat și versiunile gratuite disponibile în februarie 2025; versiunile plătite sau mai noi pot avea performanțe mai bune.

Totuși, majoritatea oamenilor folosesc aceste versiuni gratuite, iar întrebările nu sunt de obicei atent formulate. Din acest punct de vedere, studiul reflectă destul de bine utilizarea reală.

Rezultatele nu sunt izolate. Ele se adaugă unui număr tot mai mare de studii care arată un tipar similar.

Un studiu din februarie 2026 publicat în Nature Medicine a arătat ceva surprinzător: chatboturile puteau oferi răspunsul medical corect în aproape 95% din cazuri.

Dar când oamenii reali au folosit aceleași chatboturi, au obținut răspunsul corect în mai puțin de 35% din cazuri – aproximativ la fel ca cei care nu le-au folosit deloc. Problema nu este doar dacă chatbotul oferă răspunsul corect, ci dacă utilizatorii îl pot înțelege și folosi corect.

Un alt studiu recent, publicat în JAMA Network Open, a testat 21 de modele AI pentru diagnostic medical. Atunci când li s-au oferit doar informații de bază (vârstă, sex, simptome), modelele au greșit în peste 80% din cazuri. Când au primit și rezultate de analize și examinări, acuratețea a crescut la peste 90%.

Între timp, un alt studiu din SUA a arătat că chatboturile pot repeta și chiar dezvolta termeni medicali inventați introduși în întrebări.

Luate împreună, aceste studii sugerează că problemele nu sunt accidente izolate, ci reflectă limitele actuale ale tehnologiei.

Chatboturile nu vor dispărea și nici nu ar trebui. Ele pot rezuma subiecte complexe, ajuta la pregătirea întrebărilor pentru medic și servi ca punct de plecare pentru informare.

Dar studiul arată clar că nu ar trebui tratate ca autorități medicale independente.

Dacă folosești un chatbot pentru sfaturi medicale, verifică orice afirmație, tratează referințele ca sugestii de verificat și fii atent când un răspuns sună foarte sigur pe sine, dar nu include avertismente.

Urmărește-ne pe Google News

Ultima Oră

Cele mai citite

Cele mai citite pe aceeași temă