Yoshua Bengio: Deep Learning

In questo podcast, Yoshua Bengio viene intervistato da un certo Lex Fridman che per tutta la durata dell’intervista sembra ipnotizzato dalla presenza di Bengio.  Vengono trattati svariati temi e concetti molto interessanti che riporterò di seguito, tradotti e un po’ reinterpretati da me. Il podcast è anche disponibile come video sul canale di Fridman insieme a tante altre interviste con molti personaggi importanti del panorama AI (interessante come lui sembri in tutte sempre abbastanza allucinato, ma è proprio quello il bello).

  • Uno dei problemi del deep learning è la gestione di lunghe sequenze temporali. I modelli attuali riescono a gestire centinaia di campioni, ma diventa sempre più difficile addestrare reti man mano la sequenza diventa lunga. In contrasto, noi umani possiamo affidare le nostre decisioni anche su ricordi temporalmente molti lontani.
  • Sapessimo di più sul cervello biologico forse riusciremmo a capire alcune limitazioni attuali.
  • Attualmente, una delle limitazioni più grandi del deep learning è la conoscenza superficiale del dataset che si ottiene dopo un addestramento. La rete ha sicuramente una certa rappresentazione al suo interno dei dati, ma non è lontanamente astratta e robusta come quella che avremmo noi umani (very low level and basic knowledge). Proprio per questa superficialità dell’apprendimento non siamo in grado di dire niente su come potrà comportarsi un modello su una nuova distribuzione. 
  • Facendo riferimento al punto di prima, non si tratta né di un problema di architettura né di quantità di dati, ma di obbiettivo dell’addestramento. Dobbiamo trovare un modo di addestrare i modelli con un obbiettivo che catturi gli alti livelli di rappresentazione e astrazione di un dataset. Infatti, a dimostrazione che l’obbiettivo è qualcosa di fondamentale, ci sono molti esempi di come i bambini non esplorino l’ambiente in modo passivo (passive learners), ma concentrino la loro attenzione su aspetti del mondo più nuovi e interessanti in modo da modificare il loro modello di realtà. Nel machine learning si può notare che utilizzando già solo l’etichettatura con il supervised learning si ottengono reti molto più performanti rispetto ad un addestramento unsupervised.
  • Questa è il punto che mi piace di più; secondo Yoshua il motivo principale del fallimento del knowledge based e dei sistemi esperti è il fatto che molte delle decisioni che prendiamo non siamo in grado di spiegarle e quindi di conseguenza non siamo in grado di metterle in codice.
  • Il concetto di distributed representation è tra i più potenti e sottovalutate del deep learning.
  • Disentangled Representation: le cause sono ben separate tra di loro e le rappresentazioni permettono facilmente di distinguerle. Praticamente, si parte dai dati di partenza per arrivare ad uno spazio multi-dimensionale in cui tutto è chiaramente separato e quindi è facile fare delle predizioni. 
  • Anche se con le reti attuali riusciamo ad ottenere un rappresentazione “disentangled”, le variabili sono connesse tra loro in modi molto complicati. Quello che bisognerebbe fare è svincolare anche questi meccanismi tra le variabili e ottenere quelle che nel AI classica sono le regole. Quindi avere un “disentangled” delle variabili e delle connessioni tra loro per ottenere molto più potere di generalizzazione.
  • Legato al punto di prima, mancando questo svincolamento tra le variabili, le reti attuali sono soggette ad un fenomeno chiamato catastrophic forgetting. Se una rete viene ri-addestrata può perdere molta della sua conoscenza perchè le rappresentazioni interne sono collegate tra loro e non separate come dovrebbero essere.
  • La scienza è fatta dal lavoro di tante persone e non di un solo ricercatore nascosto nelle montagne (ex-machina)