Magazine

Come fa l'Intelligenza Artificiale a trasformare un testo in immagini?

31/05/2024
Come fa l'Intelligenza Artificiale a trasformare un testo in immagini?
PMIPrivatiProfessionisti
Se l’Intelligenza Artificiale generativa ha stupito il mondo rivoluzionando la creazione di testi, il Text-To-Image (TTI) ha fatto compiere all’impiego di questa tecnologia un vero e proprio salto quantico. Come? Aprendo le porte a una nuova dimensione di creatività e accessibilità visiva, e offrendo a tutti la possibilità di far tradurre a una macchina il linguaggio umano, fatto di parole e concetti, in rappresentazioni visive tangibili, mediante indicazioni testuali minime.

Quasi una magia, in pratica, che, oltre al fatto tecnico in sé, apre riflessioni sull’origine della creatività e sul significato del concetto di arte che risulta, oggi, sottoposto a una ridefinizione. É cambiato infatti il modo in cui gli artisti e le professioni creative nell’ambito del visuale possono esprimersi, arrivando a tradurre storytelling testuali in opere d'arte visive, e facendo convergere il tutto in un nuovo linguaggio dove le parole e le immagini convivono in una sinergia virtuosa.

Come funzionano i generatori di immagini AI-based

Alla base di questa nuova frontiera ci sono nuovi e avanzati algoritmi di deep learning, la costola dell’Intelligenza Artificiale che si concentra sull'addestramento di modelli complessi di reti neurali artificiali, noti come reti neurali profonde, per apprendere direttamente dai dati.

Questi modelli sono in grado di estrarre automaticamente rappresentazioni gerarchiche di dati utilizzando più strati di elaborazione, il che li rende estremamente potenti nella comprensione e nell'analisi di informazioni anche molto articolate.

Tra le reti neurali utilizzate nell’ambito del TTI, spiccano le Generative Adversarial Networks (GAN), o reti generative avversarie: introdotte una decina di anni fa dal giovane informativo e ricercatore statunitense Ian Goodfellow, che hanno rivoluzionato il modo in cui l'AI può generare, soprattutto, immagini e suoni.  Le GAN si basano su un concetto rivoluzionario: far gareggiare due reti neurali, il generatore e il discriminatore, in un processo di apprendimento che, in gergo, viene definito competitivo.

Il compito del generatore è creare immagini dal nulla. Si inizia da uno spunto che verrà poi raffinato tentando di generare ulteriori risorse visuali mediante input successivi. L’altro elemento, il discriminatore, funziona alla stregua di un “giudice” che cerca di distinguere tra immagini reali e quelle generate dal generatore, imparando a riconoscere le differenze tra le une e le altre.

In una sorta di competizione continua, il generatore cerca di produrre immagini sempre migliori mentre il discriminatore diventa sempre più abile nell’apprendere dalle immagini generate.

In pratica, il generatore agisce cercando costantemente di ingannare il discriminatore, il quale viene addestrato da appositi algoritmi a riconoscere immagini preesistenti, attraverso l’analisi di milioni di esempi etichettati ad hoc, con l’obiettivo di capire se quelle prodotte dal generatore sono reali o artificiali. A sua volta, via via il generatore impara a produrre immagini sintetiche che sembrano create da un umano.

L’altra tipologia di rete neurale che si applica alla produzione intelligente di immagini dal nulla è quella che viene definita CNN, un acronimo che, esploso, significa Convolutional Neural Network.

La loro struttura si differenzia in modo radicale dalle GAN e dalle reti neuronali tradizionali poiché funziona con un’architettura a strati che, a seconda dello stadio di produzione del contenuto in cui si trovano le reti, chiamano in causa un insieme di filtri che scansionano l'immagine fornita come input per rilevare le sue caratteristiche, oppure riducono al minimo il numero di parametri che identificano il contenuto e, infine, effettuano la sua classificazione.

Ovviamente, i sistemi più avanzati di generazione di immagini hanno, al livello di interfaccia strumenti basati sui cosiddetti diffusion model, cioè modelli in grado di comprendere non soltanto semplici parole-chiave ma anche frasi complesse formulate con il linguaggio naturale.

Ciascuna soluzione utilizza tecniche diverse: le più diffuse hanno la capacità di generare CLIP image embedding ossia di “farsi un’idea” di che cosa quell’input potrebbe rappresentare. Passano le informazioni ricavate a un’altra rete che sulla base di ulteriori modelli, per esempio, il Decoder Diffusion model (unCLIP) inizia a disegnare quell’idea per passi successivi, oppure farà ricorso a un autoregressive model che trasformerà le parole in immagini con un codificatore di testo che attinge a 20 miliardi di parametri.

Come richiedere la generazione AI di un’immagine

Se la tecnologia che sta alle spalle della trasformazione di testi in immagini è una delle più complesse in assoluto, il front-end, cioè l’interfaccia che permette di comunicare con l’AI, è relativamente semplice.

Come nel caso dei contenuti testuali, anche per le immagini non bisogna far altro che scrivere un testo che descriva l’immagine desiderata nel linguaggio naturale, mettendo cioè in atto il cosiddetto prompting.
Un prompt altro non è che una stringa di testo - che può comprendere una o più frasi, sia in forma assertiva che interrogativa - deputata a guidare l’AI con le istruzioni utili alla generazione delle risposte che ci si aspetta di ricevere.

Con il prompt è possibile gestire tutte le fasi di una conversazione con la piattaforma, con l’obiettivo di far comprendere a quest’ultima la richiesta nel modo più chiaro possibile.

In particolare, affinché il processo si svolga correttamente, occorre seguire tre principi-chiave: la semplicità, la chiarezza e la precisione dell’input, avendo cura di suddividere le richieste in più passaggi soprattutto quando sono particolarmente complesse e articolate.

Tra le varie istruzioni da impartire al sistema è molto importante quella che riguarda lo stile dell’immagine che si desidera generare, aggiungendo, per esempio, le indicazioni sulla corrente artistica alla quale l’elaborazione dell’immagine artificiale dovrebbe ispirarsi, corredata, poi, dagli aggettivi (semplice, realistica, d’impatto, più o meno dettagliata, eccetera) che lo aiuteranno a dar forma ancora meglio all’output finale.

Un ulteriore, importante, aspetto da tenere in considerazione riguarda la lingua con la quale vengono impartite le istruzioni: nonostante il fatto che i principali sistemi di AI siano stati addestrati in più linguaggi, il grado di comprensione della lingua inglese da parte della macchina è superiore a qualsiasi altro idioma.