Angriffe auf generative KI: Wo die Gefahren lauern

Der Einsatz generativer KI in Unternehmen verspricht grosse Effizienzgewinne und schnelle Ideengenerierung – und neue Angriffsflächen auf die Datensicherheit. Um diese Risiken und Gefahren müssen sich KI- und Sicherheitsverantwortliche kümmern.

3. Mai 2024, Text Andreas Heer           4 Min.

Der Boom (und auch Hype) rund um generative KI öffnet den grossen Sprachmodellen (LLMs) die Tür in die Geschäftswelt. Und damit oft ungewollt eine Hintertür für Cyberkriminelle oder zumindest für den Abfluss vertraulicher Geschäftsdaten. Diese Sicherheitsrisiken müssen IT- und Sicherheitsverantwortliche in Unternehmen angehen. Dieser Artikel beleuchtet die wichtigsten Bedrohungen und mögliche Schutzmassnahmen.

Datensicherheit und Integrität von LLMs

«Der offensichtlichste Aspekt betrifft die Datensicherheit bei LLMs», sagt Beni Eugster, Cloud Operation and Security Officer im Swisscom Outpost im Silicon Valley. «Hier geht es darum, zu kontrollieren, auf welche Daten die Modelle zugreifen dürfen und vor allem, was dann mit diesen Daten geschieht.» Eine Data oder AI Governance hilft hierbei zu definieren, welche Informationen Mitarbeitende mit einem KI-Modell verwenden dürfen – und welche eben nicht.

Bei extern gehosteten Modellen – also SaaS-Angeboten – haben Unternehmen kaum Kontrolle darüber, was im Hintergrund passiert. Das gilt insbesondere dann, wenn der Anbieter keine Vereinbarung zur Datensicherheit anbietet. Werden die Daten fürs Training genutzt, oder ist das Modell gar manipuliert worden und im Hintergrund lesen Angreifer sämtliche Ein- und Ausgaben mit? Wie gross ist das Risiko, bei den rund 470 000 Modellen auf HuggingFace(öffnet ein neues Fenster) auf eine manipulierte Version zu treffen? 

Denn Cybersecurity steht bei einigen Anbietern in der aktuellen Phase vielleicht nicht an erster Stelle, so Eugster: «Bei einem Technologieboom fokussieren sich die Anbieter zuerst auf die geschäftlichen Chancen und erst dann auf die Risiken.» Doch die zweite Phase rollt bereits an, beobachtet Eugster: «In San Francisco, der AI-Stadt schlechthin, entstehen immer mehr Start-ups, die sich mit den Risiken von generativer KI beschäftigen.»

Informieren Sie sich über aktuelle Trends in der Cybersecurity und über relevante Bedrohungen.

Prompt Injection oder die missbräuchliche Nutzung generativer KI

Doch auch an der Schnittstelle zu den Modellen lauert Gefahr, bei der Eingabe von Prompts (Anweisungen an die generative KI). Durch eine geschickte Formulierung lassen sich die Sicherheitsmassnahmen, die «Leitplanken», austricksen. Ein aktuelles Beispiel aus der Forschung ist die «ArtPrompt(öffnet ein neues Fenster)» genannte Attacke, bei der Schlüsselwörter als Zeichengrafiken («ASCII Art») übermittelt werden, was die Leitplanken ausser Kraft setzt. Prompt Injection kann auch dazu genutzt werden, einem Modell vertrauliche Daten zu entlocken. Dazu gehören beispielsweise die Quellen der gebotenen Informationen.

Ein Ausschnitt aus dem Prompt, mit dem die Forscher GPT-4 dazu gebracht haben, eine Anleitung zur Herstellung von Falschgeld zu generieren. Quelle: ArtPrompt-Forschungspapier.

Doch auch die Zuverlässigkeit der Modelle selbst muss geprüft werden bei der Ausgabe – Stichwort Halluzination und falsche Antworten. Das gilt umso mehr, wenn ein Unternehmen ein LLM für den Kundenkontakt nutzt oder die Antworten für Entscheidungen verwendet werden. So musste kürzlich die Fluggesellschaft Air Canada einem Passagier nachträglich eine Rückerstattung genehmigen, weil der Chatbot auf der Website diese Möglichkeit empfohlen hatte – in Widerspruch zu anderen Informationen auf derselben Website.

Das Filtern und Validieren von Ein- und Ausgaben bei KI-basierten Unternehmensangeboten ist eine zentrale Sicherheitsmassnahme – wie auch umfangreiches Testen. «Hier müssen Cybersecurity- und KI-Fachleute zusammenarbeiten und ihr Wissen kombinieren, um aussagekräftige Testresultate zu erhalten», empfiehlt Eugster. «Entsprechend müssen Unternehmen auch ihre Cybersecurity-Strategien und -Vorgaben ergänzen.»

Angriffe auf Infrastruktur und Trainingsdaten

Es ist anzunehmen, dass nur wenige Unternehmen eigene Modelle trainieren und betreiben. In diesen Fällen zeigen sich weitere sicherheitsrelevante Aspekte:

  • AI Poisoning: Hierbei werden Trainingsdaten gezielt manipuliert, um falsche Antworten zu erzeugen. Das untergräbt den Nutzen eines LLM und das Vertrauen. Wirksame Sicherheitsmassnahmen liegen in einer kontrollierten Datensicherheit und einer passenden Data Governance, um die Integrität der Trainingsdaten sicherzustellen.
  • Sicherheitslücken in der Supply Chain: Modelle und Plug-ins von Drittanbietern können Sicherheitslücken aufweisen, durch die Angreifer beispielsweise auf Abfragen und Trainingsdaten zugreifen können. Eine Sicherheitsprüfung aller Komponenten ist hier entscheidend.
  • API-Sicherheit: Ungenügend abgesicherte APIs können Unbefugten erlauben, ein LLM zu nutzen und zu missbrauchen. Hier helfen die üblichen Schutzmassnahmen für APIs, wie Authentifizierungsmechanismen und Zugriffskontrollen.

Der Schutz von LLMs, eine neue Disziplin der Cybersecurity

Die Absicherung grosser Sprachmodellen erfordert eine ganzheitliche Strategie, die sowohl die direkte Nutzung als auch die zugrunde liegende Infrastruktur und die Trainingsdaten umfasst. Zugriffsregeln, Datensicherheitsmassnahmen und ein Filtern/Prüfen von Ein- und Ausgaben sowie das proaktive Management von Risiken sorgen für einen sicheren Betrieb und eine verlässliche Nutzung. Oder, wie es Eugster zusammenfasst: «Das Modell, die Benutzung und die Anwendungsfälle zu verstehen, ist die halbe Miete, um KI-Projekte gut zu schützen. Die Entwickler und die Cybersecurity-Teams müssen hier eng zusammenarbeiten, um Schwachstellen und Risiken früh zu erkennen.»

Weitere interessante Artikel