Come le intelligenze artificiali creano immagini

Nelle ultime settimane, le notizie ed i contenuti in tema di Immagini create dalle intelligenze artificiali si sono moltiplicate sensibilmente, merito soprattutto dei recenti progressi di DALL-E, prodotto della californiana OpenAI o di Imagen da Google.

I progressi che queste tecnologia ha fatto negli ultimi anni sono a dir poco esorbitanti, ed è bene capire meglio come funzionano, perché, e se davvero è il momento per artisti, disegnatori e creatori di contenuti di chiudere i battenti (piccola anticipazione: no, almeno per il momento).

Cosa c’è dietro

Come si può facilmente immaginare, il funzionamento di una intelligenza artificiale che produce immagini a partire ad esempio da un testo scritto, non è per nulla banale, ma cercheremo di semplificare al fine di rendere il concetto alla portata di tutti.

Dietro al termine Intelligenza Artificiale, nella maggioranza dei casi, come quello di cui parliamo, si cela una rete neurale artificiale. Il nome non è casuale, sostanzialmente si tratta di un algoritmo (un insieme di linee di codice scritte in un linguaggio di programmazione per computer) che simula in maniera artificiale appunto, il funzionamento di una rete neurale biologica, con i suoi neuroni e le sue connessioni, seppur in maniera infinitamente più semplice.

Questa rete neurale è capace di apprendere dei pattern, ossia dei modelli, e di replicarli o di crearne di nuovi sulla base dell’esperienza appresa, un po come fa un bambino nella fase iniziale della sua vita, in cui impara a scrivere, parlare o disegnare, e poi sulla base dell’esperienza acquisita è in grado di generare nuove forme di rappresentazione.

Ma come fa una rete neurale a generare immagini così realistiche? L’elemento chiave sono i dati, ed il motivo per cui quasi sempre i progetti e prodotti più impressionanti provengano da aziende gigantesche, sono proprio i dati. Infatti la rete per poter apprendere come si disegna un albero ad esempio, ha bisogno di analizzare migliaia, anche milioni di immagini di alberi, in modo tale da apprendere tutte le caratteristiche intrinseche della figura albero, caratteristiche che non sono paragonabili direttamente a quelle che un essere umano può analizzare, semplicemente perché l’uomo analizza la figura tramite la vista, la rete scompone l’immagine, costituita da pixel, e ne analizza il loro valore, in relazione a se stessi ma anche agli altri pixel, andando a determinare delle connessioni  e relazioni che hanno significato solo per un computer, tutto questo processo, chiamato fase di training, di vero e proprio allenamento, la porta ad acquisire la conoscenza necessaria a produrre nuovi risultati, potendo associare tra loro anche soggetti che magari in precedenza non aveva visto insieme nella stessa immagine, questo perché se l’allenamento procede nel modo corretto, la rete ha una conoscenza dettagliata del contesto ed è quindi in grado di creare contenuti originali.

La produzione di immagini a partire da un testo, da un’altra immagine, da un video e cosi via, avviene proprio così, la rete viene progettata per analizzare l’input a disposizione, convertirlo sostanzialmente in qualcosa che per lei abbia significato, e poi processare quell’input per generare l’output per cui è stata creata.

Sembra fantascienza, c’è da preoccuparsi?

Sebbene quanto detto possa sembrare qualcosa di assurdo e di fantascientifico, gli algoritmi, i dati, il funzionamento di queste reti neurali è solo il frutto di un complesso lavoro da parte di team di ricerca e sviluppo, e quello che ad occhi di un non addetto ai lavori può sembrare magia, ha sempre dietro una lunga serie di funzioni matematiche che lo regolano, lo controllano e lo limitano.

Il motivo per cui oggi vediamo certi risultati così impressionanti quando fino a qualche mese fa, o ancor più indietro qualche anno fa era impensabile, è perché per realizzare questo tipo di risultati c’è bisogno della giusta potenza hardware da parte dei computer, potenza che aumentando esponenzialmente nel tempo ci porta ad ottenere risultati sempre migliori.

Ma tutto questo non deve farci preoccupare, le fantastiche immagini che è possibile generare utilizzando queste intelligenze artificiali, o i video cosiddetti DeepFake che replicano una persona reale in video ricreando interamente (volto e voce) in digitale, sono comunque i migliori risultati che si sono ottenuti in mezzo alle centinaia di risultati di minor qualità, che non vengono chiaramente mostrati, ed hanno alle spalle una grande quantità di dati di qualità accuratamente selezionati. Sebbene il risultato sia spesso talmente elevato da essere indistinguibile dalla realtà, siamo ancora lontani dalla creazione di un sistema intelligente che riesca a produrre contenuti, decisioni o risultati su scala generale. Ogni intelligenza artificiale è specializzata in un determinato ambito, ha dietro il suo insieme di dati e algoritmi, e non è assolutamente in grado di cambiare il suo funzionamento se non con una riprogettazione profonda (tradotto in parole povere, un’intelligenza artificiale atta a creare ritratti, non è minimamente in grado di riconoscere immagini di luoghi, o di essere installata a bordo di un veicolo per dotarlo di guida autonoma), siamo ancora lontani da quello che si vede nei film di fantascienza, e il processo di sviluppo è sempre guidato da regolamentazione e meccanismi che fanno si che tale sviluppo avvenga in modo controllato.

In definitiva

Concludendo possiamo dire che la questione non è da sottovalutare ma non c’è da allarmarsi, la tecnologia sta progredendo come sempre a passi da gigante, ma un artista in grado di dipingere e di creare arte, così come un regista che dirige un film, hanno ancora ad oggi un enorme flessibilità e potere di generalizzazione che un computer non è assolutamente in grado di eguagliare, ma è bene ripeterlo, ad oggi. 

In un futuro, più o meno prossimo, quando le macchine, gli algoritmi e soprattutto i dati saranno abbastanza, quanto vale oggi potrebbe cambiare.

Aurel Hoe 

Cresta Help Chat
Invia tramite WhatsApp