L’Intelligenza artificiale è davvero più brava dei medici a fare le diagnosi? Per ora mancano le prove

Cautela d’obbligo

L’Intelligenza artificiale è davvero più brava dei medici a fare le diagnosi? Per ora mancano le prove

La maggior parte degli studi che elogiano le performance delle macchine nel leggere le immagini dei referti sono in realtà scientificamente poco rigorosi. Il successo degli algoritmi viene annunciato con troppa disinvoltura. La voce critica degli scienziati dell’Imperial College London sul Bmj

di redazione

L’intelligenza artificiale in medicina gode di una fama immeritata. Secondo uno studio pubblicato sul British Medical Journal i successi delle macchine nell’interpretare le immagini dei referti clinici sono stati un po’ troppo gonfiati. Non è ancora mai stato dimostrato con prove convincenti che le abilità diagnostiche di un software siano migliori di quelle dei medici in carne e ossa. Gli annunci che hanno fatto credere il contrario sono stati lanciati con troppa disinvoltura. 

Almeno così ritengono gli scienziati dell’Imperial College di Londra che hanno analizzato tutti gli studi degli ultimi dieci anni che mettevano a confronto le performance dell’intelligenza artificiale e del machine learning con quelle dei medici. Scoprendo che la maggior parte delle ricerche non possedeva i requisiti di affidabilità e di oggettività richiesti a pubblicazioni scientifiche rigorose. 

Su 83 studi pubblicati tra il 2010 e il 2019 solamente 2 rientravano nella categoria dei trial clinici randomizzati (caratterizzati da un alto livello di scientificità) mentre gli altri erano studi non randomizzati. 

Tra questi ultimi solamente 9 erano studi prospettici con un monitoraggio dei partecipanti a lungo termine e solamente 6 sono stati calati in un contesto reale. Inoltre i risultati di 58 studi su 81 sono stati giudicati dai ricercatori troppo condizionati da fattori esterni (bias) e quindi poco affidabili. 

Nei tre quarti degli studi analizzati (61) le performance dell’Intelligenza artificiale risultavano superiori o per lo meno paragonabili a quelle dei medici umani e mancava l’invito canonico ad approfondire ulteriormente le indagini (presente solamente in 31 studi). Inoltre i medici in carne e ossa reclutati per “gareggiare” con i computer erano troppo pochi, in media 4, per potre essere considerati un campione affidabile. 

Un ‘ultima osservazione: nessuno studio si è preso la briga di valutare i benefici per il paziente della diagnosi effettuata dalla macchina. Il percorso terapeutico è complesso e non è detto che le diagnosi tecnicamente migliori dell’IA (supposto che lo siano effettivamente) abbiano un effetto positivo sulla salute del paziente. 

C’è da considerare il rischio di sovradiagnosi e l’incapacità di analizzare la persona nel suo complesso, prerogativa di un bravo medico. 

Alla luce di questi dati, gli scienziati suggeriscono di non fidarsi troppo dei giudizi entusiastici sulle capacità di analisi delle macchine. «L'intelligenza artificiale basata sul deep learning è un campo innovativo e in rapido progresso che potenzialmente migliora i risultati clinici. Gli investimenti finanziari stanno dilagando, la copertura mediatica globale è diffusa e in alcuni casi gli algoritmi sono già in fase di marketing e adozione pubblica. Tuttavia sono in circolazione molte affermazioni probabilmente esagerate sulla parità o superiorità dell’intelligenza artificiale rispetto ai clinici, che rappresentano un potenziale rischio per la sicurezza dei pazienti e la salute della popolazione», concludono i ricercatori.