Data Poisoning bezeichnet Angriffe, bei denen Trainingsdaten eines Machine-Learning-Systems absichtlich manipuliert werden. Ziel ist es, das Modell während des Trainingsprozesses zu beeinflussen, sodass es später falsche oder vom Angreifer gewünschte Ergebnisse liefert.
Die Manipulation kann auf verschiedene Weise erfolgen:
- Einfügen falscher Daten in den Trainingsdatensatz
- Verändern von Labels (z. B. falsche Klassenzuordnung)
- Einbringen speziell gestalteter Beispiele, die ein Modell gezielt fehlleiten
Data Poisoning kann unterschiedliche Ziele haben:
- Allgemeine Verschlechterung der Modellleistung
- Gezielte Fehlklassifikation bestimmter Eingaben
- Hintertüren (Backdoors) im Modell
Solche Angriffe sind besonders relevant bei offenen Datenquellen, Crowdsourcing von Trainingsdaten oder automatisierter Datensammlung aus dem Internet.
Beispiel:
In einem Spam-Filter werden absichtlich viele Spam-E-Mails als „nicht Spam“ gekennzeichnet, damit das trainierte Modell später Spam falsch einordnet.