AI Agent & Model Poisoning: la guerra invisibile sui dati che nutrono l’AI
Nel 2026 l’Intelligenza Artificiale non è più un esperimento da laboratorio: i Large Language Models (LLMs) sono diventati il cuore pulsante delle aziende, con accesso a dati particolari e capacità di agire in autonomia.
Ma questa evoluzione porta con sé una verità scomoda: la cybersicurezza non riguarda più solo il codice, bensì l’integrità dei flussi di dati che alimentano gli AI Agents. Il salto dai chatbot passivi agli agenti autonomi ha aperto una superficie d’attacco enorme, dove le vulnerabilità non si risolvono con una semplice patch.
Per capire dove si nasconde il pericolo, guardiamo al framework OODA (Observe, Orient, Decide, Act), usato per analizzare i processi decisionali. Gli agenti AI, a differenza dei sistemi tradizionali, incorporano dati e attori non fidati direttamente nel loro ciclo:
- Observe: raccolgono informazioni da web e database interni, che possono contenere tecniche di sensor spoofing o artefatti testuali non visibili progettati per alterare la percezione del sistema
- Orient: la “visione del mondo” del modello può essere corrotta da training data poisoning o backdoor semantiche inserite mesi prima
- Decide: nei sistemi agentici dotati di meccanismi di feedback o apprendimento, la logica decisionale può essere distorta tramite reward hacking, trasformando il processo decisionale stesso in un vettore d’attacco
- Act: qui si scatena il “blast radius”: chiamate a tool malevoli o esfiltrazione di dati mascherata da operazioni legittime.
La scoperta del 2025?
Studi sperimentali hanno dimostrato che anche poche centinaia di documenti malevoli, in specifiche condizioni di addestramento o fine-tuning, possono essere sufficienti a impiantare una backdoor, indipendentemente dalla scala del modello. Una volta “congelata”, la backdoor può restare dormiente per anni, attivandosi solo quando incontra la frase trigger giusta.
Gli agenti basati su Retrieval-Augmented Generation (RAG) aprono nuove superfici di attacco, in particolare attraverso il poisoning del contesto e delle basi di conoscenza, che opera in modo silenzioso e risulta estremamente difficile da intercettare. Una delle tecniche più insidiose è l’Indirect Prompt Injection (IPI): l’attaccante non tocca il prompt dell’AI, ma avvelena le fonti da cui il sistema attinge informazioni, come documenti, email o database. L’AI recupera dati apparentemente innocui, ma che contengono istruzioni malevole nascoste.
A complicare il quadro ci sono framework come RIPRAG, che dimostrano quanto sia efficace ottimizzare questi contenuti avvelenati usando Reinforcement Learning from Black-box Feedback (RLBF). Il risultato? Bastano pochissimi documenti ben progettati, anche in mezzo a milioni di file legittimi, per influenzare il comportamento dell’AI in modo significativo.
Non è finita. Esiste il problema del fingerprinting degli agenti web: molti hanno impronte digitali riconoscibili, dovute ai framework di automazione o ai pattern di navigazione. I siti malevoli sfruttano questa caratteristica per applicare tecniche di cloaking: agli utenti umani mostrano una pagina innocua, mentre all’agente AI inviano istruzioni nascoste che possono indurre l’agente a invocare tool o workflow downstream, portando all’esecuzione di azioni non autorizzate.
Il rischio esplode nei sistemi multi-agente
Qui entrano in gioco attacchi persistenti, come quelli analizzati dal framework BackdoorAgent, che possono annidarsi nella memoria o nei tool degli agenti e propagarsi nel tempo. Nei sistemi multi‑agente, inoltre, comunicazioni Agent-to-Agent (A2A) e risorse condivise possono creare un effetto domino capace di compromettere l’intero ecosistema.
Oggi la sicurezza degli agenti AI non può più seguire le regole dei modelli tradizionali. Limitarsi a controllare i contenuti non basta: questi agenti vivono in ambienti dinamici, accedono a strumenti esterni e prendono decisioni in autonomia. Servono architetture Zero Trust pensate apposta per l’AI, basate su un approccio identity-first: gestione delle identità non umane, separazione dei ruoli interni agli agenti, protezione distribuita lungo tutto il ciclo di elaborazione.
Un altro punto cruciale: l’integrità semantica
Non basta che un’informazione sia corretta, conta come viene interpretata dall’AI e quali azioni può generare. Nel 2026, la vera sfida è costruire architetture capaci di distinguere in modo affidabile tra informazioni e istruzioni, contenendo il raggio d’azione dell’AI. Solo così possiamo trasformare l’autonomia da potenziale rischio a leva di fiducia e scalabilità.
Di Matteo Ghiotto – Chief Technology Officer, Cyberoo
