The History of Machine Learning from the
Inside Out
Per chi fosse nuovo del settore, i tre intervistati dei due podcast e raffigurati nella foto sono in ordine Yhann Lecun, Geoffrey Hinton e Yoshua Bengio. Abbastanza anonimi nell’aspetto, ma sotto le loro maschere si nascondono tre tra le maggiori e imponenti personalità di sempre del mondo dell’intelligenza artificiale.
In due parole, Yhann è il mega boss del centro ricerca AI di Facebook e, per non farsi mancare nulla, professore dell’università di New York. Ricercatore nel campo dell’intelligenza artificiale fin dai suoi primi anni di magistrale (master) e poi dottorato lavorando alla backpropagation (se non sai cos’è questo forse potrebbe aiutarti ma molto probabilmete no) che non gli frutterà nessuna fama (a Hinton si). Deve invece tutta la sua notorietà alle reti convoluzionali che ha inventato e implementato (guadagnandosi il nome di father of CNN) negli anni ’90 quando come molti altri geni lavorava ai Bell Labs. A parer mio il meno appassionato e coinvolto dei tre, infatti, negli anni 2000 abbandona tutto salutando tutti e concentra la sua ricerca sulla compressione delle immagini. Tuttavia, appena intuisce dagli altri due che le cose si potevano mettere molto bene per le reti artificiali (ANN) e quindi anche per tutta la sua ricerca fatta negli anni novanta, ritorna a lavorare sul progetto CIFAR (è un dataset orribile con immagini piccolissime 32×32 con 10 soggetti diversi) diventando poco per volta uno dei luminari e ideatori del Deep Learning.
Geoffrey Hinton, invece, è il mio preferito; attualmente è un ingegnere di Google e professore dell’università di Toronto. Dedicando letteralmente la sua vita alle reti artificiali ha determinato la loro popolarità. Per ben due volte le ha salvate dal declino inevitabile portandole di nuovo alla luce e dandole nuova vita. Negli anni ottanti, 1986 (interessante come siano successe molte cose in quell’anno, tipo Chernobyl, disastro del Challenger, etc), utilizza la “chain rule” (proprietà delle derivate di funzioni annidate) per addestrare reti neurali più complesse, creando un algoritmo che prenderà il nome di backpropagation. Dopo il secondo periodo di gelo, Geoffrey con il suo team trova un modo di addestrare reti con molti livelli di profondità, aprendo le porte a un’infinità di applicazioni spettacolari che in breve tempo porteranno tutti i giornali a usare così tanto la parola intelligenza artificiale che ci sembrerà, che il giorno che il nostro tostapane si metterà a parlare sia alle porte. Anche se una volta il machine learning e specialmente le reti neurali artificiali non erano considerate sotto il dominio dell’intelligenza artificiale, adesso Geoffrey è uno dei pionieri e pilastri di questa branca. E’ passato dall’essere quasi deriso e emarginato dai suoi pari ricercatori dell’AI simbolica a essere non solo parte di loro ma anche di gran lunga il più noto tra tutti loro. Grandi professoroni sono passato improvvisamente dal denigrare le reti neurali a richiedere fondi dicendo che loro erano professori di intelligenza artificiale (in verità molti di loro continuano a deridere le ANN dicendo che non sono altro che funzioni annidate). A detta di Hinton: <<Era meglio quando intelligenza artificiale e reti neurali erano due cose ben separate!>>. Come per Yhann anche per Hinton ci sarebbero righe e righe da scrivere, andando veramente a raccontare la loro storia (e non queste poche righe a caso), ma sinceramente non ho voglia di scrivere di più sapendo che con facilità si possono trovare sul Web letteralmente tonnellate di parole su di loro.
Infine, Yoshua è decisamente il più riflessivo dei tre. Come un vulcano in eruzione è sempre pieno di idee e progetti. Professore e ricercatore all’università di Montréal è uno dei luminari del natural language processing, text to speech/speech to text e speech recognition.
Avrò sicuramente modo in futuro di parlare ancora di questi tre affascinanti personaggi, ma per adesso, come da titolo, vorrei semplicemente riportare i pensieri più interessanti emersi dalle due interviste (parte 1/ parte 2). Enjoy
- Rappresentazione distribuita (distributed learning): come si può intuire dal nome, la conoscenza è distribuita su tutta la rete. Ogni unità elementare rappresenta un piccolo aspetto (feature) e collabora ad ispirare le altre unità. Unite insieme rappresentano il concetto nella sua totalità. Infine, questi vettori multi-dimensionali sono molto diversi da dei simboli perché racchiudono al loro interno caratteristiche intrisiche che permettono di essere comparate con altre distribuzioni. Possiamo partire da una rappresentazione distribuita di una frase in italiano e elaborarla per arrivare ad una equivalente di un’altra lingua.
- Molto collegato all’ultima frase del punto precedente, quello che i tre “bomber” primariamente fanno è cercare di “vettorizzare” il mondo (embeddings)
- Hinton sostiene che una delle prove che noi non ragioniamo con simboli ma con “vettori” è che se si chiede a chiunque se gatto (cat) o cane (dog) siano maschio o femmina tutti rispondono che gatto è femmina e cane maschio (in inglese è tutto neutro). Questo è dovuto al fatto che il vettore gatto nel nostro cervello è più vicino a quello femminile e viceversa.
- Le funzioni che possono apprendere tutte le metodologie classiche di machine learning (SVM, Random Forest, etc) sono troppo semplici e non sono lontanamente sufficienti per risolvere gli ambiziosi compiti che ci siamo posti (dimostrazione Yhann e Yoshua).
- Parlando nuovamente di vettori, i numeri che li compongono non sono altro che attributi appresi dalla rete (feature learning). Non è una cosa esclusiva delle macchine, infatti per esempio, noi umani lo facciamo con le parole: una parola può essere singolare, femminile, etc.
- Unsupervised learning è visto da tutti e tre come il futuro.
- Bisogna puntare a creare reti end-to-end che non abbiano bisogno di altro.
- Il metodo peer review non funziona. Per esempio Yoshua ha provato a sottomettere lo stesso articolo in più posti e in alcuni veniva accettato e in altri rifiutato. Invece, sarebbe molto meglio un sistema di revisione in cui i commenti sono pubblici e tutti possono commentare. Sarebbe molto più imparziale.