Siete assetati di ulteriori approfondimenti da parte di esperti?

Iscriviti alla nostra newsletter Tea O'Clock!

Abbonati

Da 0 a ChatGPT - Parte 3

Romain Warlop
Pubblicato su
21/7/2023
In questa serie di 4 articoli, illustriamo le fasi principali dell'evoluzione degli algoritmi di apprendimento automatico che sono stati sviluppati da ChatGPT.

Scoprite la prima parte di questa serie di articoli qui e la seconda parte qui.


Cinquième étape clé : Transformer in scala (gennaio 2018)

Alcuni ricercatori di Google (anche loro!) propongono un nuovo tipo di trasformatore ([5]): Transformer Decoder With Memory Compressed Attention, o T-DMCA, o semplicemente transformer, che diventerà poi la norma. In questo caso, come indica la versione lunga del suo nome, all'uscita dell'encoder non si può usare il decodificatore. Per generare la parola successiva, si considera che la frase di partenza e le prime parole già generate non costituiscono che un unico blocco. Non c'è quindi bisogno di effettuare un processo diverso per le parole di partenza e le parole già generate! Quindi, per generare la parola successiva, la parola precedente crea il proprio riassunto di tutto ciò che l'ha preceduta attraverso il meccanismo di attenzione visto in precedenza. Questo spiega la parte "Transformer Decoder", ma resta da definire "Con l'attenzione compressa dalla memoria".

Per comprendere questo termine, gli autori si ispirano a una tecnica molto utilizzata per le immagini: la convoluzione. Per poter individuare un animale in un'immagine, è necessario determinare quali forme la compongono. La convoluzione osserva un blocco di pixel, ad esempio composto da 3 linee e 3 colonne, e fa un riassunto di un solo pixel. Per farlo, si possono immaginare diversi metodi: utilizzare la moyenne, il massimo, il minimo, ... Ma tutti sono arbitrari. Si preferisce quindi lasciare che il modello impari da solo la modalità migliore per fare questo riassunto, utilizzando una somma ponderata di tutti i pixel, con cui stimare i pesi. Questi vengono poi raggruppati sotto un "kernel", che è lo stesso per tutti i blocchi di dimensioni 3×3 dell'immagine di partenza.

Esempio di rete di neuroni applicata all'immagine utilizzando le convoluzioni

Entrate nel testo. Gli embeddings (ognuno dei quali è un vettore, quindi un legame) dei termini disponibili nella frase d'ingresso, nonché quelli che sono già stati generati, possono essere posizionati gli uni sotto gli altri e formare così un tableau, alla maniera di un'immagine. Prima che il decodificatore riprenda la frase in questione, viene applicata una convoluzione a questa tabella. Si possono considerare come dei mini-riassunti, segmento per segmento. Questi mini-riassunti vengono poi completati tramite il meccanismo di attenzione del decodificatore per produrre il decodificatore finale.

Questa convoluzione ha permesso di creare documenti in entrata molto più lunghi rispetto a prima: questi documenti possono essere lunghi fino a tre volte di più rispetto al passato, a seconda degli autori.

Sixième étape clé : GPT-1 (giugno 2018)

Nel 2018, openAI ha proposto la sua prima versione di gpt ([6]), che mira a sviluppare un modello di generazione di testi in grado di eseguire diverse operazioni: rispondere a domande, analizzare documenti, confrontare documenti o ancora rispondere a un QCM. Il suo algoritmo si basa su due idee: il pre-training e il fine-tuning.

Pre-training: gpt è l'acronimo di Generative Pre-trained Transformer. La prima fase consiste quindi nel creare un trasformatore esattamente come descritto nella fase precedente.

Fine-tuning: il fine-tuning consiste nel proseguire l'apprendimento di un modello esistente su nuovi dati con un obiettivo di etichettatura preciso.

A sinistra: il trasformatore di base. A destra: le diverse tecniche di regolazione fine per un'operazione

Ad esempio, per mettere a punto un problema di riduzione logica (entailment en anglais), il presupposto e l'ipotesi vengono considerati come una sola frase separata da un fattore speciale. Una volta definito questo compito in questo modo, l'apprendimento dell'insieme del modello viene proseguito in modo da poter continuare a predire la frase successiva (come nel preaddestramento), ma anche per rispondere in modo corretto ai problemi di logica della riduzione.

Questa tecnica di pre-addestramento associata al fine-tuning ha permesso agli autori di migliorare le prestazioni dello stato dell'arte nel 75% dei test effettuati, comprendenti 12 set di dati.

[5] Generare Wikipedia riassumendo lunghe sequenze; [6] Migliorare la comprensione del linguaggio con il pre-training generativo

A presto per la 4a parte di questo articolo!

Tutti gli articoli

Articoli correlati

Da 0 a ChatGPT - Parte 1

8 minuti
Romain Warlop

Da 0 a ChatGPT - Parte 2

6 minuti
Romain Warlop

L'internalizzazione delle soluzioni di misurazione e l'ottimizzazione dell'efficacia del marketing: 5 fattori chiave di successo - Parte 2

6 minuti
Arnaud Genitore

Volete saperne di più? Iscrivetevi alla nostra newsletter mensile.

Scoprite tutte le ultime notizie, articoli, repliche di webinar e cinquantacinque eventi nella nostra newsletter mensile, Tea O'Clock.

Nome*
Cognome*
Azienda*
Lingua preferita*
Email*
 Grazie!

La tua richiesta di abbonamento è stata presa in considerazione con successo.
Oops! Qualcosa è andato storto durante l'invio del modulo.