Iscriviti alla nostra newsletter Tea O'Clock!
Scoprite la prima parte di questa serie di articoli qui e la seconda parte qui.
Alcuni ricercatori di Google (anche loro!) propongono un nuovo tipo di trasformatore ([5]): Transformer Decoder With Memory Compressed Attention, o T-DMCA, o semplicemente transformer, che diventerà poi la norma. In questo caso, come indica la versione lunga del suo nome, all'uscita dell'encoder non si può usare il decodificatore. Per generare la parola successiva, si considera che la frase di partenza e le prime parole già generate non costituiscono che un unico blocco. Non c'è quindi bisogno di effettuare un processo diverso per le parole di partenza e le parole già generate! Quindi, per generare la parola successiva, la parola precedente crea il proprio riassunto di tutto ciò che l'ha preceduta attraverso il meccanismo di attenzione visto in precedenza. Questo spiega la parte "Transformer Decoder", ma resta da definire "Con l'attenzione compressa dalla memoria".
Per comprendere questo termine, gli autori si ispirano a una tecnica molto utilizzata per le immagini: la convoluzione. Per poter individuare un animale in un'immagine, è necessario determinare quali forme la compongono. La convoluzione osserva un blocco di pixel, ad esempio composto da 3 linee e 3 colonne, e fa un riassunto di un solo pixel. Per farlo, si possono immaginare diversi metodi: utilizzare la moyenne, il massimo, il minimo, ... Ma tutti sono arbitrari. Si preferisce quindi lasciare che il modello impari da solo la modalità migliore per fare questo riassunto, utilizzando una somma ponderata di tutti i pixel, con cui stimare i pesi. Questi vengono poi raggruppati sotto un "kernel", che è lo stesso per tutti i blocchi di dimensioni 3×3 dell'immagine di partenza.
Esempio di rete di neuroni applicata all'immagine utilizzando le convoluzioni
Entrate nel testo. Gli embeddings (ognuno dei quali è un vettore, quindi un legame) dei termini disponibili nella frase d'ingresso, nonché quelli che sono già stati generati, possono essere posizionati gli uni sotto gli altri e formare così un tableau, alla maniera di un'immagine. Prima che il decodificatore riprenda la frase in questione, viene applicata una convoluzione a questa tabella. Si possono considerare come dei mini-riassunti, segmento per segmento. Questi mini-riassunti vengono poi completati tramite il meccanismo di attenzione del decodificatore per produrre il decodificatore finale.
Questa convoluzione ha permesso di creare documenti in entrata molto più lunghi rispetto a prima: questi documenti possono essere lunghi fino a tre volte di più rispetto al passato, a seconda degli autori.
Nel 2018, openAI ha proposto la sua prima versione di gpt ([6]), che mira a sviluppare un modello di generazione di testi in grado di eseguire diverse operazioni: rispondere a domande, analizzare documenti, confrontare documenti o ancora rispondere a un QCM. Il suo algoritmo si basa su due idee: il pre-training e il fine-tuning.
Pre-training: gpt è l'acronimo di Generative Pre-trained Transformer. La prima fase consiste quindi nel creare un trasformatore esattamente come descritto nella fase precedente.
Fine-tuning: il fine-tuning consiste nel proseguire l'apprendimento di un modello esistente su nuovi dati con un obiettivo di etichettatura preciso.
A sinistra: il trasformatore di base. A destra: le diverse tecniche di regolazione fine per un'operazione
Ad esempio, per mettere a punto un problema di riduzione logica (entailment en anglais), il presupposto e l'ipotesi vengono considerati come una sola frase separata da un fattore speciale. Una volta definito questo compito in questo modo, l'apprendimento dell'insieme del modello viene proseguito in modo da poter continuare a predire la frase successiva (come nel preaddestramento), ma anche per rispondere in modo corretto ai problemi di logica della riduzione.
Questa tecnica di pre-addestramento associata al fine-tuning ha permesso agli autori di migliorare le prestazioni dello stato dell'arte nel 75% dei test effettuati, comprendenti 12 set di dati.
A presto per la 4a parte di questo articolo!
Scoprite tutte le ultime notizie, articoli, repliche di webinar e cinquantacinque eventi nella nostra newsletter mensile, Tea O'Clock.