CLUB BENCHMARKING

CHATGPT


ChatGPT è un modello di linguaggio sviluppato da OpenAI, messo a punto con tecniche di apprendimento automatico ottimizzato con tecniche di apprendimento supervisionato, elaborato per essere utilizzato come base per la creazione di altri modelli di machine learning (apprendimento della macchina)Si tratta di una evoluzione netta e decisa dei semplici RoboCall, i risponditori automatici delle aziende in grado di replicare alle domande più comuni degli utenti in merito a contratti, condizioni, costi ma non alla altezza dell’operatore umano. Naturalmente le aziende, mirando allo azzeramento (quasi) del centro di costo, non si sono preoccupati della qualità del servizio, creando scontento tra l’utenza ma evitando di essere insultati, hanno raggiunto il loro obiettivo minimo.ChatGPT è un programma di sviluppo degli studi sulla Intelligenza Artificiale ed è stato “addestrato” tramite algoritmi Instruct GPT o GPT-3.5 di OpenAI, che sono l'evoluzione dei modelli di GPT-3. Gli Instruct GPT (come code-davinci-1-2-3) sono modelli in cui il pre-addestramento è stato ottimizzato manualmente da addestratori umani. Nello specifico ChatGPT è stato sviluppato da un GPT-3.5 utilizzando l'apprendimento supervisionato e l'apprendimento per rinforzo. Il 14 Marzo 2023 è stata annunciata l'introduzione di GPT-4, un modello multi modale su larga scala che può accettare input di immagini, video, audio e testo e produrre output di testo. ChatGPT è stato lanciato il 30 Novembre 2022 e ha attirato l'attenzione per le sue risposte dettagliate e articolate, anche se la sua accuratezza è stata criticata. Sia l'apprendimento supervisionato che quello per rinforzo si sono serviti di istruttori umani per migliorare le prestazioni del modello. Nel primo caso il modello è stato alimentato con conversazioni nelle quali gli istruttori interpretavano entrambe le parti: l'utente e l'assistente basato su intelligenza artificiale. Nella fase di rinforzo gli istruttori umani hanno prima valutato le risposte che il modello aveva dato nella conversazione precedente. Queste valutazioni sono state usate per creare "modelli di ricompensa" sui quali il modello è stato perfezionato, utilizzando diverse iterazioni di Proximal Policy Optimization (PPO). (by wikipedia)