MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) ist ein öffentliches Wissensmodell für Angriffe auf KI- und Machine-Learning-Systeme. Es wurde von der Organisation MITRE entwickelt und dokumentiert bekannte Angriffsmuster entlang des Lebenszyklus von KI-Systemen.
ATLAS strukturiert Angriffe ähnlich wie das bekannte MITRE ATT&CK Framework, jedoch speziell für KI. Es beschreibt unter anderem:
- Taktiken: Ziele eines Angreifers (z. B. Manipulation eines Modells)
- Techniken: konkrete Angriffsmethoden
- Angriffsszenarien gegen Trainingsdaten, Modelle oder Inferenzsysteme
Typische Angriffe sind:
- Data Poisoning: Manipulation von Trainingsdaten
- Model Extraction: Kopieren eines Modells über API-Abfragen
- Adversarial Examples: Eingaben, die ein Modell gezielt täuschen
ATLAS unterstützt Organisationen bei:
- Bedrohungsanalysen für KI-Systeme
- Sicherheitsarchitektur für Machine Learning
- Risikomanagement und Security Engineering
Beispiel:
Ein Unternehmen nutzt MITRE ATLAS, um mögliche Angriffe auf ein Bilderkennungsmodell zu identifizieren und entsprechende Schutzmaßnahmen zu planen.