INTELLIGENZA ARTIFICIALE – ChatGPT ha sovraperformato i candidati umani in diverse aree della conoscenza in Ginecologia & Ostetricia
ChatGPT superiore ai candidati umani in un esame clinico strutturato con obiettivi virtuali in ostetricia e ginecologia
L’elaborazione del linguaggio naturale è una forma di intelligenza artificiale che consente agli utenti umani di interfacciarsi con una macchina senza utilizzare codici complessi. La capacità dei sistemi di elaborazione del linguaggio naturale, come ChatGPT, di interagire con successo con i sistemi sanitari che richiedono ragionamento fluido, interpretazione specialistica dei dati e comunicazione empatica in un ambiente sconosciuto e in evoluzione è poco studiata.
Uno studio ha indagato se l’interfaccia ChatGPT potesse interagire e completare un finto esame clinico strutturato e oggettivo che simulasse la valutazione per l’adesione al Royal College of Obstetricians and Gynaecologists.
L’obiettivo dello studio era quello di determinare se ChatGPT, senza formazione aggiuntiva, fosse in grado di ottenere un punteggio almeno equivalente a quello ottenuto dai candidati umani che hanno sostenuto esami clinici strutturati con obiettivi virtuali a Singapore.
Progettazione dello studio
Lo studio è stato condotto in 2 fasi. Nella prima fase, sono state selezionate un totale di 7 domande di discussione strutturata da 2 coorti storiche ( coorti A e B ) di domande oggettive di esame clinico strutturato. ChatGPT è stato esaminato utilizzando queste domande e risposte registrate in uno script. Da notare che 2 candidati umani ( in qualità di anonimizzatori ) sono stati esaminati sulle stesse domande utilizzando la videoconferenza e le loro risposte sono state trascritte parola per parola in script scritti. Le serie 3 di script di risposta erano miste e ciascuna serie è stata assegnata a 1 dei 3 attori umani. Nella seconda fase, gli attori erano abituati a presentare questi copioni agli esaminatori in risposta alle stesse domande d’esame. Queste risposte sono state valutate alla cieca da 14 esaminatori qualificati. I punteggi ChatGPT sono stati scoperti e confrontati con i punteggi storici delle prestazioni dei candidati umani.
Risultati
Il punteggio medio assegnato a ChatGPT da 14 esaminatori è stato del 77,2%. Il punteggio umano storico medio ( n=26 candidati ) è stato del 73,7%.
ChatGPT ha dimostrato notevoli miglioramenti delle prestazioni rispetto al candidato umano medio in diversi ambiti disciplinari.
Il tempo medio impiegato da ChatGPT per completare ciascuna stazione è stato di 2,54 minuti, ben prima dei 10 minuti consentiti.
Conclusione
ChatGPT ha generato risposte a discussioni strutturate accurate e contestualmente rilevanti a domande cliniche complesse e in evoluzione basate su contesti non familiari in un periodo molto breve. ChatGPT ha sovraperformato i candidati umani in diverse aree della conoscenza. Non tutti gli esaminatori sono stati in grado di distinguere tra risposte umane e risposte ChatGPT. I dati dello studio hanno evidenziato la capacità emergente dei modelli di elaborazione del linguaggio naturale di dimostrare un ragionamento fluido in ambienti non familiari e di competere con successo con candidati umani che hanno seguito un’ampia formazione specialistica.
Fonte: AJOG [ LINK: https://www.ajog.org/article/S0002-9378(23)00251-X/fulltext ]