Area press

L'ordine cronologico degli eventi: il banco di prova dell'AI applicata al diritto

02/07/2026

A cura di Francesco Tarasconi, Artificial Intelligence Manager di Aruba

L'ordine cronologico degli eventi: il banco di prova dell'AI applicata al diritto
Il tempo è un parametro critico in qualsiasi processo giuridico. Stabilire quando un fatto è avvenuto, e soprattutto in quale ordine si collocano gli eventi di una vicenda, può separare la ricostruzione corretta di un caso dal suo ribaltamento. Nei testi legali, infatti, la sequenza temporale non è un dettaglio descrittivo, ma un elemento interpretativo centrale.

Stabilire se un difetto di prodotto sia precedente o successivo a una segnalazione formale può cambiare la lettura di una responsabilità e incidere sull’esito di un giudizio. Per un giurista quella sequenza può apparire quasi ovvia; per i Large Language Models generalisti, ricostruirla in modo affidabile all’interno di testi complessi resta invece una sfida aperta.

È da questo nodo che nasce la ricerca condotta da Aruba con il Politecnico di Torino sul temporal reasoning dei Large Language Models in ambito legale. L’obiettivo dello studio è analizzare in modo sistematico la capacità dei modelli linguistici di comprendere e classificare le relazioni temporali tra eventi giuridicamente rilevanti.

Per analizzare il problema, lo studio ha introdotto e formalizzato due compiti distinti:
  • Verifica della relazione temporale (LETOV): stabilire se una relazione tra due eventi sia corretta o meno;
  • Classificazione della relazione temporale (LETOC): identificare quale relazione lega due eventi, ad esempio “precede”, “segue” o “simultaneo”.
Questi task permettono di testare i modelli su un aspetto specifico del reasoning: la capacità di comprendere sequenze temporali complesse all’interno di contesti giuridici. Per farlo, è stato utilizzato e ampliato un dataset pubblico di riferimento, costruendo un ambiente di test in grado di simulare scenari realistici e progressivamente più complessi.

Uno degli aspetti più interessanti emersi dalla ricerca riguarda il fatto che alcune delle evoluzioni più recenti dei modelli, in particolare quelle legate al cosiddetto deep reasoning, non producono automaticamente miglioramenti significativi in questo tipo di task. Al contrario, i risultati mostrano dinamiche più articolate:
  • l’utilizzo di esempi nel prompt (few-shot learning) si dimostra il fattore più determinante per migliorare le performance;
  • l’aumento dello “sforzo di ragionamento” dei modelli porta benefici, ma di entità limitata;
  • le differenze tra modelli “chat” e “instruction-based” risultano marginali, pur con un leggero vantaggio per questi ultimi.
In altre parole, non è solo la potenza del modello a fare la differenza, ma il modo in cui viene guidato nel processo di comprensione.

Dal punto di vista quantitativo, lo studio evidenzia come alcuni modelli generalisti di ultima generazione siano in grado di raggiungere livelli di accuratezza superiori allo stato dell’arte nei task di verifica, superando l’85%. Un risultato rilevante, ma che va letto nel giusto contesto. Questi livelli di performance, infatti, non sono ancora sufficienti per garantire un utilizzo completamente affidabile in ambiti ad alta criticità come quello legale. Inoltre, emergono trade-off importanti tra accuratezza, costi computazionali e tempi di risposta, che rendono necessaria una valutazione attenta in ottica industriale.

A prima vista, la capacità di ordinare eventi nel tempo può apparire un tema molto specialistico, ma in realtà ha ricadute concrete su diversi ambiti chiave: dalla corretta interpretazione di contratti e contenziosi nel legal tech, alla ricostruzione delle sequenze di eventi in ambito compliance e auditing, fino all’analisi di responsabilità nel risk management e all’automazione dei processi decisionali, dove la dimensione temporale è spesso determinante. In tutti questi casi, un errore nella comprensione del tempo non è un semplice limite tecnico, ma un rischio concreto.

Il tempo, nel diritto come nei sistemi che lo trattano, resta una dimensione critica. Da un lato c’è il tempo come elemento probatorio, legato alla certezza di quando un documento, una firma o un evento digitale vengono prodotti. Dall’altro c’è il tempo come elemento interpretativo, cioè la capacità di ricostruire correttamente l’ordine e la relazione tra eventi all’interno di testi complessi.

Il temporal reasoning degli LLM si colloca proprio su questo secondo piano. La sua affidabilità non riguarda solo la qualità tecnica dei modelli, ma la possibilità di applicarli in contesti in cui un errore di sequenza può produrre conseguenze giuridiche concrete. È su questo terreno che la collaborazione tra ricerca industriale e mondo accademico può contribuire a rendere l’intelligenza artificiale più solida, verificabile e adatta a scenari reali.

La collaborazione tra Aruba e il Politecnico di Torino si inserisce in un percorso di ricerca industriale-accademico più ampio e continuativo, finalizzato a rendere l’intelligenza artificiale più applicabile in contesti reali. La ricerca è stata presentata nell’ambito di DARLI-AP 2026, all’interno della conferenza internazionale EDBT/ICDT tenutasi a Tampere, in Finlandia, a conferma del valore di una collaborazione orientata a sviluppare competenze e strumenti per affrontare alcune delle sfide più concrete dell’AI.