Il National Cyber Security Centre, l’agenzia governativa del Regno Unito per la cybersecurity, afferma che il problema della prompt injection potrebbe non venire mai risolto. La prompt injection e la SQL injection sono due vulnerabilità diverse, nonostante vengano spesso accostate. La SQL injection può essere mitigata con query parametrizzate, mentre la prompt injection non può essere mitigata allo stesso modo.

Il concetto dietro le due vulnerabilità è lo stesso: si tratta di una gestione errata di dati e istruzioni che consente di eseguire l’input utente come un comando. Tuttavia, nel caso degli LLM, non esiste una separazione vera tra istruzione e dato a livello del modello, quindi non esiste un equivalente delle query parametrizzate deterministico e risolutivo.

La mitigazione della prompt injection è un’area di ricerca molto attiva e include diversi approcci, come l’individuazione dei tentativi di injection e l’addestramento dei modelli per prioritizzare le istruzioni rispetto ai dati. Tuttavia, poiché gli LLM operano in maniera intrinsecamente diversa dagli altri sistemi, la mitigazione non è definitiva.

Per ridurre il rischio, è fondamentale che sviluppatori e team di sicurezza comprendano che la prompt injection è un rischio persistente che non può essere mitigato completamente con un prodotto o un’appliance esterna. necessario che i modelli e le applicazioni vengano progettate seguendo i principi del Secure Design, soprattutto quando l’LLM è autorizzato a chiamare strumenti esterni o API. La protezione deve includere l’implementazione di controlli di sicurezza non-LLM che vincolino le azioni del sistema e l’applicazione del principio del least privilege.

È possibile usare tecniche per ridurre la probabilità che l’LLM agisca sulle istruzioni iniettate, come l’uso di marcatori per incapsulare e separare la sezione “dati” dalle “istruzioni”. essenziale monitorare prompt e dati per identificare attività sospette e rilevare attacchi. L’NCSC avverte che, se non si adottano fin da subito approcci di sicurezza migliori, potrebbe verificarsi un’ondata di violazioni e fughe di dati.