Magazine

Come fa l'Intelligenza Artificiale a trasformare un testo in immagini?

31/05/2024

PMIPrivatiProfessionisti

Se l’Intelligenza Artificiale generativa ha stupito il mondo rivoluzionando la creazione di testi, il Text-To-Image (TTI) ha fatto compiere all’impiego di questa tecnologia un vero e proprio salto quantico. Come? Aprendo le porte a una nuova dimensione di creatività e accessibilità visiva, e offrendo a tutti la possibilità di far tradurre a una macchina il linguaggio umano, fatto di parole e concetti, in rappresentazioni visive tangibili, mediante indicazioni testuali minime.

Quasi una magia, in pratica, che, oltre al fatto tecnico in sé, apre riflessioni sull’origine della creatività e sul significato del concetto di arte che risulta, oggi, sottoposto a una ridefinizione. É cambiato infatti il modo in cui gli artisti e le professioni creative nell’ambito del visuale possono esprimersi, arrivando a tradurre storytelling testuali in opere d'arte visive, e facendo convergere il tutto in un nuovo linguaggio dove le parole e le immagini convivono in una sinergia virtuosa.

Come funzionano i generatori di immagini AI-based

Alla base di questa nuova frontiera ci sono nuovi e avanzati algoritmi di deep learning, la costola dell’Intelligenza Artificiale che si concentra sull'addestramento di modelli complessi di reti neurali artificiali, noti come reti neurali profonde, per apprendere direttamente dai dati.

Questi modelli sono in grado di estrarre automaticamente rappresentazioni gerarchiche di dati utilizzando più strati di elaborazione, il che li rende estremamente potenti nella comprensione e nell'analisi di informazioni anche molto articolate.

Tra le reti neurali utilizzate nell’ambito del TTI, spiccano le Generative Adversarial Networks (GAN), o reti generative avversarie: introdotte una decina di anni fa dal giovane informativo e ricercatore statunitense Ian Goodfellow, che hanno rivoluzionato il modo in cui l'AI può generare, soprattutto, immagini e suoni. Le GAN si basano su un concetto rivoluzionario: far gareggiare due reti neurali, il generatore e il discriminatore, in un processo di apprendimento che, in gergo, viene definito competitivo.

Il compito del generatore è creare immagini dal nulla. Si inizia da uno spunto che verrà poi raffinato tentando di generare ulteriori risorse visuali mediante input successivi. L’altro elemento, il discriminatore, funziona alla stregua di un “giudice” che cerca di distinguere tra immagini reali e quelle generate dal generatore, imparando a riconoscere le differenze tra le une e le altre.

In una sorta di competizione continua, il generatore cerca di produrre immagini sempre migliori mentre il discriminatore diventa sempre più abile nell’apprendere dalle immagini generate.

In pratica, il generatore agisce cercando costantemente di ingannare il discriminatore, il quale viene addestrato da appositi algoritmi a riconoscere immagini preesistenti, attraverso l’analisi di milioni di esempi etichettati ad hoc, con l’obiettivo di capire se quelle prodotte dal generatore sono reali o artificiali. A sua volta, via via il generatore impara a produrre immagini sintetiche che sembrano create da un umano.

L’altra tipologia di rete neurale che si applica alla produzione intelligente di immagini dal nulla è quella che viene definita CNN, un acronimo che, esploso, significa Convolutional Neural Network.

La loro struttura si differenzia in modo radicale dalle GAN e dalle reti neuronali tradizionali poiché funziona con un’architettura a strati che, a seconda dello stadio di produzione del contenuto in cui si trovano le reti, chiamano in causa un insieme di filtri che scansionano l'immagine fornita come input per rilevare le sue caratteristiche, oppure riducono al minimo il numero di parametri che identificano il contenuto e, infine, effettuano la sua classificazione.

Ovviamente, i sistemi più avanzati di generazione di immagini hanno, al livello di interfaccia strumenti basati sui cosiddetti diffusion model, cioè modelli in grado di comprendere non soltanto semplici parole-chiave ma anche frasi complesse formulate con il linguaggio naturale.

Ciascuna soluzione utilizza tecniche diverse: le più diffuse hanno la capacità di generare CLIP image embedding ossia di “farsi un’idea” di che cosa quell’input potrebbe rappresentare. Passano le informazioni ricavate a un’altra rete che sulla base di ulteriori modelli, per esempio, il Decoder Diffusion model (unCLIP) inizia a disegnare quell’idea per passi successivi, oppure farà ricorso a un autoregressive model che trasformerà le parole in immagini con un codificatore di testo che attinge a 20 miliardi di parametri.

Come richiedere la generazione AI di un’immagine

Se la tecnologia che sta alle spalle della trasformazione di testi in immagini è una delle più complesse in assoluto, il front-end, cioè l’interfaccia che permette di comunicare con l’AI, è relativamente semplice.

Come nel caso dei contenuti testuali, anche per le immagini non bisogna far altro che scrivere un testo che descriva l’immagine desiderata nel linguaggio naturale, mettendo cioè in atto il cosiddetto prompting.
Un prompt altro non è che una stringa di testo - che può comprendere una o più frasi, sia in forma assertiva che interrogativa - deputata a guidare l’AI con le istruzioni utili alla generazione delle risposte che ci si aspetta di ricevere.

Con il prompt è possibile gestire tutte le fasi di una conversazione con la piattaforma, con l’obiettivo di far comprendere a quest’ultima la richiesta nel modo più chiaro possibile.

In particolare, affinché il processo si svolga correttamente, occorre seguire tre principi-chiave: la semplicità, la chiarezza e la precisione dell’input, avendo cura di suddividere le richieste in più passaggi soprattutto quando sono particolarmente complesse e articolate.

Tra le varie istruzioni da impartire al sistema è molto importante quella che riguarda lo stile dell’immagine che si desidera generare, aggiungendo, per esempio, le indicazioni sulla corrente artistica alla quale l’elaborazione dell’immagine artificiale dovrebbe ispirarsi, corredata, poi, dagli aggettivi (semplice, realistica, d’impatto, più o meno dettagliata, eccetera) che lo aiuteranno a dar forma ancora meglio all’output finale.

Un ulteriore, importante, aspetto da tenere in considerazione riguarda la lingua con la quale vengono impartite le istruzioni: nonostante il fatto che i principali sistemi di AI siano stati addestrati in più linguaggi, il grado di comprensione della lingua inglese da parte della macchina è superiore a qualsiasi altro idioma.

intelligenza Artificiale

Articoli recenti

PrivatiProfessionisti

Ministero della Giustizia: PEC obbligatoria per partecipare al maxi concorso da 2.970 posti

Il Ministero della Giustizia ha pubblicato un concorso pubblico per titoli ed esami per assumere 2.970 unità di personale non dirigenziale a tempo indeterminato.

EnterprisePartnerPMIPubblica Amministrazione

Intelligenza artificiale nel Cloud: le innovazioni che stanno rivoluzionando i servizi

La crescita esponenziale delle soluzioni AI e la loro integrazione nei processi aziendali stanno trasformando il modo in cui le organizzazioni lavorano, prendono decisioni e creano valore.

PMIPrivatiProfessionisti

Hosting di Aruba: qualità, ricche funzionalità e supporto continuo per il tuo sito web

Aruba è stata recentemente premiata come miglior Hosting per Siti Web in Italia 2025, ricevendo il punteggio più alto nell'indagine condotta dall’Istituto Tedesco Qualità e Finanza, in collaborazione con La Repubblica.

PMIProfessionisti

Come iscriversi al Registro Unico degli Ispettori entro il 31 agosto 2025

È in arrivo una scadenza importante per gli ispettori dei centri di revisione: entro il 31 agosto 2025 tutti dovranno essere iscritti al nuovo Registro Unico degli Ispettori (RUI) per continuare a esercitare la propria attività.

PMI

Adeguamento ASD/SSD alla Riforma dello Sport 2025: cosa fare entro il 31 agosto e con quali strumenti digitali

La scadenza è fissata: entro il 31 agosto 2025, tutte le Associazioni e Società Sportive Dilettantistiche dovranno adeguare i propri statuti ai requisiti della Riforma dello Sport (D. Lgs. 36/2021 e successivi correttivi).

Articoli più letti

PrivatiProfessionisti

Aruba Fibra: qualità, convenienza e ti premia con l'iniziativa "Porta un amico"

Aruba Fibra: brand N.1 per rapporto qualità-prezzo in Italia per il 2024 e 2025

PMIProfessionisti

Le scadenze fiscali del 2025

Entro il 31 marzo 2025, i contribuenti che hanno aderito al concordato preventivo biennale entro il 12 dicembre 2024 possono sanare le irregolarità dichiarative afferenti agli anni 2018-2022, versando un’imposta sostitutiva delle imposte sui redditi e relative addizionali e dell’IRAP.

EnterprisePMI

Normativa RENTRI: obblighi, scadenze e strumenti digitali necessari per l’adeguamento

Il Registro Elettronico Nazionale per la Tracciabilità dei Rifiuti (RENTRI) sta rivoluzionando la gestione dei rifiuti in Italia.

EnterprisePubblica Amministrazione

NIS 2: Scadenze imminenti e nuove responsabilità

L’applicazione della direttiva NIS 2 (Network and Information Security Directive) segna un’evoluzione significativa nel quadro normativo europeo per la sicurezza informatica.

Aruba e Microsoft Italia: la risposta alle aziende italiane che vogliono un servizio su infrastruttura dedicata e italiana

In un panorama digitale in costante evoluzione, Aruba e Microsoft Italia uniscono le forze per offrire un servizio cloud innovativo ed efficiente alle aziende italiane.

Hosting e domini

PEC e Trust Services

Connettività

Cloud

Server e colocation

Altri servizi

Aruba Business

Certificati SSL Actalis

Microsoft 365

Pratiche.it

SMS

Magazine

Come fa l'Intelligenza Artificiale a trasformare un testo in immagini?

Come funzionano i generatori di immagini AI-based

Come richiedere la generazione AI di un’immagine