Facebook
Razor

Facebook ha progettato un programma per alzare l’asticella nel ramo del riconoscimento di immagini casuali, che non siano state oggetto di una precisa etichettatura. E lo ha fatto attingendo al più ampio database in-house: Instagram.

Come si legge sul blogpost ufficiale, Facebook ha sviluppato SEER (SElf-supERvised), un nuovo modello di visione artificiale auto-supervisionato da un miliardo di parametri che può apprendere da qualsiasi gruppo casuale di immagini reperite in Internet, senza la necessità di un’attenta cura ed etichettatura, cosa che invece oggi è necessaria al momento nella maggior parte dell’addestramento di sistemi di visione artificiale.

Dopo aver eseguito un pre-addestramento su un miliardo di immagini pubbliche casuali ricavate da Instagram, non etichettate e non trattate, SEER ha superato i sistemi autoguidati più avanzati e all’avanguardia, raggiungendo l’84,2% di accuratezza top-1 su ImageNet. SEER ha anche sovraperformato i modelli supervisionati all’avanguardia nelle attività a valle, tra cui low-shot, rilevamento di oggetti, segmentazione e classificazione delle immagini. Se addestrato con solo il 10 percento degli esempi nel set di dati ImageNet, SEER ha comunque raggiunto la massima precisione del 77,9 percento sul set di dati completo. Se addestrato con solo l’1% degli esempi ImageNet annotati, SEER ha ottenuto il 60,5% di precisione top-1.

Le prestazioni di SEER dimostrano che l’apprendimento autogestito può eccellere nelle attività di visione artificiale in contesti reali. Si tratta di un importante passo avanti che apre la strada a modelli di visione artificiale più flessibili, accurati e adattabili.

Facebook sta condividendo dettagli su SEER con la comunità AI – e VISSL open-source, la libreria che usata per sviluppare SEER – per democratizzare ulteriormente l’apprendimento autogestito e accelerare il progresso verso un futuro completamente autogestito. Facebook è consapevole che fare progressi su una sfida così ampia e profonda richiede lo scambio aperto di idee tra menti diverse afferenti allo stesso campo.

La Visione artificiale autogestita nel mondo reale

Il lavoro con SEER è parallelo al lavoro svolto nella PNL, dove i modelli all’avanguardia ora utilizzano regolarmente trilioni di parametri e set di dati con trilioni di parole di testo per l’addestramento. Con più input e modelli più grandi, le prestazioni nelle attività a valle migliorano notevolmente e lo stesso dovrebbe essere vero per la visione artificiale.

Ma usare l’auto-supervisione per temi legati alla vista è un approccio diverso rispetto a quello per il linguaggio. Con il testo, i concetti semantici vengono suddivisi in parole discrete. Ma con le immagini, l’algoritmo deve decidere quale pixel appartiene a quale concetto. Inoltre, lo stesso concetto varierà notevolmente tra le immagini, basti pensare a un gatto in pose diverse o visto da diverse angolazioni. Per cogliere la variazione attorno a un singolo concetto, c’è bisogno di fare riferimento a molte immagini.

Il corretto ridimensionamento dei modelli per lavorare in modo efficiente con dati legati a immagini complesse multi-dimensionali richiedeva due componenti chiave: 1) un algoritmo che potesse apprendere da un vasto numero di immagini casuali senza metadati o annotazioni e 2) una rete convoluzionale (ConvNet) abbastanza grande da catturare e apprendere ogni concetto visivo da questi dati grandi e complessi.

Fortunatamente, i recenti progressi di Facebook AI e di altri nel campo dell’apprendimento autoguidato e della progettazione dell’architettura ConvNet hanno finalmente reso possibile applicare queste idee alla visione artificiale, sebbene Facebook avesse ancora bisogno di superare diverse sfide, non ultima quella del calcolo capacità richieste.

Facebook ha sfruttato un nuovo algoritmo chiamato SwAV, sviluppato dalla ricerca di FAIR sull’apprendimento autogestito. SwAV utilizza il clustering online per raggruppare rapidamente immagini con concetti visivi simili e sfruttare le loro somiglianze. Con SwAV, Facebook ha potuto migliorare nell’apprendimento autoguidato rispetto allo stato dell’artecon un tempo di formazione 6 volte inferiore.

L’addestramento di modelli su questa scala richiedeva anche un’architettura del modello efficiente in termini di runtime e memoria, senza compromettere l’accuratezza. Fortunatamente, una recente innovazione di FAIR nel campo del design dell’architettura ha portato a una nuova famiglia di modelli chiamata RegNets che si adattano perfettamente a queste esigenze. I modelli RegNet sono ConvNet in grado di scalare fino a miliardi o potenzialmente anche trilioni di parametri e possono essere ottimizzati per adattarsi a diversi limiti di runtime e memoria.

Approccio open-source

Facebook offre un accesso open-source alla libreria generica usata anche per SEER, in modo che una comunità più ampia possa sperimentare l’apprendimento autogestito dalle immagini. VISSL è un PyTorch che consente la formazione autogestita sia su piccola che su vasta scala con un’ampia varietà di metodi moderni. VISSL contiene anche una vasta suite di benchmark e un modello composto da più di 60 modelli preaddestrati, consentendo ai ricercatori di confrontare diversi metodi moderni auto-supervisionati.

Un futuro autogestito


L’apprendimento autogestito è stato a lungo un obiettivo per l’AI di Facebook perché consente alle macchine di apprendere direttamente dalla grande quantità di informazioni disponibili nel mondo, piuttosto che solo dai dati di addestramento creati appositamente per la ricerca sull’Intelligenza artificiale.

Questo aiuterà Facebook a costruire un’IA che funzioni bene per più persone in tutto il mondo, si adatti rapidamente alle mutevoli circostanze, si estenda a casi d’uso aggiuntivi e molto altro ancora. L’auto-supervisione può essere usata per attività che vanno dal riconoscimento vocale automatizzato nella robotica per tradurre tra linguaggi di programmazione, alla costruzione
di strumenti di produzione che aiutano a rilevare contenuti dannosi sulle piattaforme dell’azienda.

L’apprendimento autogestito ha incredibili ramificazioni per il futuro della visione artificiale, proprio come in altri campi di ricerca. L’eliminazione della necessità di annotazioni umane e metadati consente alla comunità della visione artificiale di lavorare con set di dati più ampi e diversificati, apprendere da immagini pubbliche casuali e potenzialmente mitigare alcuni dei pregiudizi che entrano in gioco con la cura dei dati. L’apprendimento autogestito può anche aiutare a specializzare i modelli in domini in cui si hanno immagini o metadati limitati, come l’imaging medico. E senza la manodopera necessaria per l’etichettatura, i modelli possono essere creati e distribuiti più rapidamente, consentendo risposte più rapide e accurate a situazioni in rapida evoluzione. L’apprendimento autogestito è una componente chiave della creazione di un’IA che comprenda il mondo visivo e il lavoro di Facebook su SEER ci avvicina di un passo a tale obiettivo.


.