Siete assetati di ulteriori approfondimenti da parte di esperti?

Iscriviti alla nostra newsletter Tea O'Clock!

Abbonati

Da 0 a ChatGPT - Parte 2

Romain Warlop
Pubblicato su
10/7/2023

In questa serie di 4 articoli, illustriamo ogni fase dell'evoluzione degli algoritmi di apprendimento automatico che sono stati sviluppati da ChatGPT.

Scoprite la prima parte di questa serie di articoli qui.

Troisième étape clé : L'attenzione

Il meccanismo di attenzione ([3]) è stato utilizzato in precedenza per i compiti di traduzione. Gli algoritmi funzionano sull'idea delle RNN. La frase da tradurre passa in una RNN (denominata encoder) che produce un riassunto della frase, per poi passare in una seconda RNN (denominata decoder). Per tradurre, il decodificatore dispone di due informazioni: il riassunto globale generato dall'encoder e il riassunto in corso prodotto dal decodificatore. Nel momento in cui si aggiunge una parola a una traduzione, l'attenzione si concentra sulla parte della frase di partenza più pertinente, piuttosto che basarsi su un riassunto globale della stessa, per ottenere un risultato più esatto.'

Illustrazione dell'attenzione(fonte)

Al momento della traduzione, il modello deve poter accedere non solo ai due riassunti disponibili (quello del codificatore e quello del decodificatore), ma anche a tutti gli embedding delle parole di partenza. In funzione del riassunto della traduzione in corso, si può anche attribuire un punteggio di importanza a ogni parola della frase di partenza per determinare se può servire a generare quella successiva. Un nuovo riassunto viene quindi creato valutando ogni elemento della frase d'ingresso in funzione del suo interesse per il compito in corso. Questa idea di attenzione ha permesso di migliorare le prestazioni dei modelli, soprattutto per quanto riguarda le frasi lunghe, ma anche per i documenti lunghi... È necessario apportare ancora due miglioramenti!

In una RNN encoder-decoder con attenzione, il prossimo motto si basa su due riassunti (quello dell'encoder e quello del decoder) e su un'attenzione calcolata tra il riassunto del decoder e l'embedding di ciascun motto dell'encoder. Per creare il riassunto, si presentano due casi:
1. encoder: ogni argomento non ha accesso se non al riassunto in corso
2. decoder: ogni argomento ha accesso al riassunto in corso ET all'embedding di ogni argomento dell'encoder

Quatrième étape clé : L'attenzione è tutto ciò che serve (2017)

Attention is all you need ([4]) è un articolo pubblicato dai ricercatori di Google nel 2017 che, come indica il nome, si concentra sull'attenzione. Finis les RNN, place à l'attention et uniquement à l'attention. Il modello funziona sempre in base a un principio di codifica e decodifica.

Il ruolo dell'encoder è quello di trasformare ogni token in un vettore che comprende il suo gruppo. Per questo motivo, ogni token viene trasformato in embedding per essere confrontato con ognuno degli altri embeddings della frase (tra cui lui stesso) secondo il principio dell'attenzione: se un altro motivo è importante, lo sarà molto di più nel vettore finale. Alla fine dell'encoder, ogni parola viene trasformata in un vettore basato sul meccanismo dell'attenzione.

Il ruolo del decodificatore è simile a quello del decodificatore di RNN, ma con il principio dell'attenzione. Il riassunto del decodifica in corso è sostituito da un'attenzione. L'embedding dell'ultimo termine generato va quindi a considerare tutti i termini già generati, a valutare la loro importanza e a creare una moyenne pondérée per generare il proprio riassunto. Il riassunto deve poi applicare lo stesso meccanismo di attenzione a tutte le parole della frase del codificatore e generare il vettore finale che serve da base per generare la parola successiva.

Questo modello è chiamato transformer dai ricercatori di Google.

À retenir: in un transformer la frase successiva si basa su un unico riassunto creato in 3 fasi:

  1. encoder: ogni parola crea il proprio riassunto di tutta la frase (e non solo delle parole precedenti) del proprio punto di vista.
  2. decodificatore 1 : L'ultimo motore generato considera la frase in corso di generazione e crea un riassunto.
  3. decoder 2 : Viene creato un secondo riassunto confrontando il riassunto del decoder 1 con tutti i riassunti del codificatore.

Queste fasi (attenzione, codificatore, decodificatore) vengono eseguite più volte per consentire al modello di avere più margine di manovra per imparare il riassunto. Si parla quindi di deep learning o deep neural network, poiché i modelli contengono un numero elevato di calcoli di successo.

Questa modifica ha migliorato di nuovo le prestazioni dello stato dell'arte su frasi lunghe, ma, per quanto se ne dica, si tratta di documenti molto lunghi!

[3] La traduzione automatica neurale impara congiuntamente ad allineare e tradurre [4] L'attenzione è tutto ciò che serve

A presto per la 3a parte di questo articolo!

Tutti gli articoli

Articoli correlati

Da 0 a ChatGPT - Parte 1

8 minuti
Romain Warlop

L'internalizzazione delle soluzioni di misurazione e l'ottimizzazione dell'efficacia del marketing: 5 fattori chiave di successo - Parte 1

6 minuti
Arnaud Genitore

L'internalizzazione delle soluzioni di misurazione e ottimizzazione dell'efficacia del marketing: un'opportunità per raggiungere la quintessenza operativa?

10 minuti
Arnaud Genitore

Volete saperne di più? Iscrivetevi alla nostra newsletter mensile.

Scoprite tutte le ultime notizie, articoli, repliche di webinar e cinquantacinque eventi nella nostra newsletter mensile, Tea O'Clock.

Nome*
Cognome*
Azienda*
Lingua preferita*
Email*
 Grazie!

La tua richiesta di abbonamento è stata presa in considerazione con successo.
Oops! Qualcosa è andato storto durante l'invio del modulo.