Gli attacchi backdoor iniettano campioni di malevoli durante la fase di addestramento, con l'obiettivo di forzare un modello di apprendimento automatico a produrre una classe scelta dall'attaccante quando viene presentato un trigger specifico al momento del test. Anche se gli attacchi backdoor sono stati dimostrati efficaci contro una larga varietà di modelli, i fattori che ne influenzano la loro efficacia non sono ancora ben compresi.
In questo lavoro, forniamo un quadro unificante per studiare il processo di apprendimento delle backdoor sotto la lente del “incremental learning” e delle funzioni di influenza.
Mostriamo che l'efficacia degli attacchi backdoor dipende da: (i) la scelta degli iperparametri del modello; (ii) la frazione di campioni di backdoor iniettati nei dati di addestramento; e (iii) le caratteristiche del trigger. Questi fattori influenzano la velocità con cui un modello impara a correlare la presenza del trigger backdoor con la classe di destinazione.
Infine, la nostra analisi rivela anche l'intrigante esistenza di una regione nello spazio degli iperparametri che rende il modello più robusto agli attacchi, suggerendo così nuovi criteri per migliorare le difese esistenti.
Speaker:
Antonio Emanuele Cinà Ph.D. at Ca' Foscari University of Venice
Meetup di Deep Learning Italia