Einführung
Das National Institute of Standards and Technology (NIST) in den Vereinigten Staaten von Amerika (USA) ist eine anerkannte Autorität im Bereich der Computersicherheit. Es gibt Richtlinien und Normen für verschiedene Technologien heraus, darunter auch für künstliche Intelligenz (KI). Diese Richtlinien beinhalten Vorgaben wie die Notwendigkeit einer transparenten Entscheidungsfindung in KI-Systemen und die Notwendigkeit von Verständlichkeit, strengen Tests und Validierung, um die Zuverlässigkeit und Sicherheit von KI-Modellen zu gewährleisten. Darüber hinaus hat das NIST Standards für die Kryptografie formuliert, eine zentrale Komponente zahlreicher KI-Anwendungen, die auf Large Language Models (LLMs) beruhen, wie z. B. die Absicherung der Kommunikation und die Verschlüsselung von Daten. Diese Kryptografiestandards spielen eine entscheidende Rolle bei der Gewährleistung der Sicherheit und Widerstandsfähigkeit von LLM-basierten Anwendungen gegen potenzielle Angriffe von böswilligen Entitäten. Die Übernahme von Standards, wie sie vom NIST festgelegt wurden, kann einen pragmatischen Rahmen für die sichere und ethische Entwicklung und den Einsatz von LLM-basierten Anwendungen bieten. Durch die Einhaltung dieser Standards können Entwickler und Organisationen die Verlässlichkeit, Vertrauenswürdigkeit und Widerstandsfähigkeit ihrer LLM-basierten Anwendungen angesichts potenzieller Bedrohungen sicherstellen. Dieses Kapitel gibt einen Überblick über bestehende und zukünftige Standards zur Bildung der Sicherheits-, Zuverlässigkeits- und Vertrauensschicht für Anwendungen, die auf LLMs aufbauen. Zu diesem Zweck dienen die bestehenden Standards im Bereich der Cybersicherheit als intuitiver Ausgangspunkt. Angetrieben durch die jüngste Explosion des Interesses an generativer KI (genAI) haben mehrere aktuelle Bemühungen gemeinschaftszentrierte Werkzeuge, Techniken und Rahmenwerke vorgeschlagen, die darauf ausgerichtet sind, Praktikern zu helfen, verantwortungsvoll auf LLMs aufzubauen. Da die LLM-Sicherheit und das KI-Risikomanagement noch in den Kinderschuhen stecken, müssen solche neuen Vorschläge in strenge technische Standards umgesetzt werden, um die Entwicklungsteams in den nächsten Jahren in großem Maßstab zu leiten.
Die Cybersecurity-Landschaft
Ich beginne mit einem Überblick über relevante Standards und Rahmenwerke im Bereich der Cybersicherheit, die Vorläufer für ähnliche Standards im Bereich der LLM-Sicherheit und des Vertrauens sein können.
MITRE CVEs
Das CVE-Programm (Common Vulnerabilities and Exposures – Gemeinsame Schwachstellen und Gefährdungen), das von MITRE überwacht wird, legt eine allgemein akzeptierte Definition und einen Standard für die Definition von Schwachstellen in der Cybersicherheit fest. Es bietet auch ein unverwechselbares Mittel zur Identifizierung einzelner Schwachstellen mit technischen Details, zugehörigen Softwareversionen, Referenzen und zusätzlichen Informationen zu diesen Schwachstellen. Neben einem standardisierten Rahmen für Schwachstellen weist das CVE-System jeder Schwachstelle zusätzlich einen qualitativen Schweregrad zu und stützt sich dabei auf das Common Vulnerability Scoring System (CVSS). Um sowohl die Skalierbarkeit als auch die Qualität des CVE-Systems zu gewährleisten, können interessierte Parteien – wie Anbieter, Forscher, gemeinnützige Organisationen oder andere Einrichtungen – einen gründlichen Bewertungsprozess durchlaufen, um als CVE Numbering Authority (CNA) zertifiziert zu werden. Diese Zertifizierung ermächtigt sie, Schwachstellen CVE-IDs zuzuweisen und CVE-Einträge in den spezifischen Themenbereichen zu veröffentlichen, für die sie zugelassen wurden. Mit den CVEs wird ein gemeinsamer Wissensspeicher für die Verbreitung von Informationen und die Förderung von Diskussionen über bestimmte Fälle von Softwarefehlfunktionen geschaffen.
CWE
Während das CVE-System das „Was“ hinter einer Schwachstelle liefert, liefert ein anderer Standard – die Common Weakness Enumeration Specification (CWE) – das „Warum“. CWE ist eine Auflistung inhärenter Schwachstellen in verschiedenen Phasen des Softwareentwicklungszyklus. Das CWE-System, das derzeit von MITRE, einem gemeinnützigen Unternehmen, das von der US-Regierung finanzierte Forschungs- und Entwicklungsprojekte unterstützt, gepflegt wird, kategorisiert im Wesentlichen die Landschaft aller Schwachstellen im Bereich der Cybersicherheit in Standardkategorien und erleichtert den breiteren Diskurs über Schwachstellen. Derzeit sind mehr als 600 CWEs in einer hierarchischen Struktur organisiert, die es ermöglicht, Schwachstelleninformationen (unter Verwendung von CVEs) auf verschiedenen Ebenen zu organisieren. CWEs auf höherer Ebene charakterisieren eine Schwachstelle, während die darunter liegenden CWEs dieselbe Schwachstelle mit funktionalen und/oder kausalen Begründungen ausstatten, die zu ihrem Auftreten geführt haben. Solche breiten und tiefen Charakterisierungen werden den CVEs hinzugefügt, wenn sie vom NIST überprüft werden, bevor sie gespeichert werden, um eine bessere Organisation der Informationen in der US National Vulnerability Database (NVD) zu ermöglichen.
MITRE ATT&CK und Cyber Kill Chain
Das ATT&CK-Rahmenwerk von MITRE ist ein Kompendium von Taktiken, Techniken und Verfahren (TTPs), die von Angreifern bei realen Sicherheitsangriffen verwendet werden. Im Vergleich zu den Schwachstellenaufzählungen in CWE sind die ATT&CK-Kategorien (a) extrinsisch, d. h. sie konzentrieren sich auf Angriffe und Exploits, und (b) sequenziell, d. h. sie folgen dem natürlichen Ablauf solcher Angriffe. Seit seiner Einführung im Jahr 2013 hat MITRE ATT&CK bei der Charakterisierung von Bedrohungsmodellen und -methoden eine breite Akzeptanz im privaten, staatlichen und kommerziellen Sektor gefunden.
Cyber Kill Chain von Lockheed Martin ist ein weiterer weit verbreiteter Rahmen zur Verhinderung von Cyberangriffen. Während ATT&CK hilft, die genauen Aktionen eines Angreifers zu charakterisieren, kategorisiert Kill Chain die allgemeinen Ziele, die ein Angreifer für einen erfolgreichen Angriff erreichen muss. Oft werden ATT&CK und Kill Chain gleichzeitig eingesetzt, um ein umfassendes Verständnis eines Cyberangriffs in freier Wildbahn zu gewinnen.
Bestehende Normen
Da KI ein relativ neues Feld ist, steckt die Diskussion über Standards für KI und generative KI noch in den Kinderschuhen. Im vergangenen Jahr wurden einige Schritte unternommen, um die technischen Aspekte des KI-Risikomanagements zu standardisieren. Erstens schlug das NIST das AI Risk Management Framework (AI RMF) vor – das im Januar 2023 veröffentlicht wurde – als eine Reihe von vorgeschlagenen Richtlinien, Konzepten und Terminologien für Unternehmen, um die Risiken der von ihnen entwickelten KI zu verwalten. Zweitens veröffentlichte das Office of Science and Technology Policy im Weißen Haus der Vereinigten Staaten einen Entwurf für eine „AI Bill of Rights“ (KI-Rechtskatalog), in dem eine Reihe hochrangiger Grundsätze für die Gestaltung, Nutzung und Einführung automatisierter Systeme bei gleichzeitiger Bewältigung ihrer Nachteile dargelegt werden.
Obwohl sie in der richtigen Absicht vorgeschlagen wurden, lassen diese Bemühungen keine Schritte zur Umsetzung erkennen. In den folgenden Monaten gab es mehrere Bemühungen, diese Lücke zu schließen.
AI RMF Playbook
Ein „Playbook“, das die KI-RMF begleitet, enthält Vorschläge für Maßnahmen, mit denen die beabsichtigten Ergebnisse der KI-RMF in der Realität erreicht werden können. Das Playbook ist in vier Funktionsbereiche unterteilt – Govern, Map, Measure, Manage -, die grob nach zunehmender Nähe zur Implementierung und der vor- und nachgelagerten Position im KI-Entwicklungslebenszyklus geordnet sind. Unter jeder Funktion gibt es mehrere Leitanforderungen und Kategorien, die Überlegungen enthalten, die das NIST einer KI-Organisation vorschlägt. «Govern» steht im Zusammenhang mit organisationsweiten Richtlinien, Prozessen, Verfahren und Praktiken zur Steuerung der übrigen Funktionen. «Map» befasst sich mit der Definition der Risikooberfläche, «Measure» mit geeigneten Messmethoden für spezifische Risiken und «Manage» mit dem ganzheitlichen Prozess der Verwaltung von KI-Risiken durch Bewertung und Quantifizierung.
Wie das NIST feststellt, ist „das Playbook weder eine Checkliste noch eine Reihe von Schritten, die in ihrer Gesamtheit befolgt werden müssen“. Organisationen, die es umsetzen, sollen fundierte Entscheidungen treffen, indem sie das Playbook als Ausgangspunkt nehmen und seine Komponenten nach Bedarf nutzen und anpassen, um das Risikomanagement bei ihren KI-Anwendungen anzugehen.
OWASP Top 10 für LLMs
Dieses Projekt der Stiftung Open Worldwide Application Security Project (OWASP) ist eine aktuelle Initiative, die Praktiker, Führungskräfte und Organisationen bei der Kartierung der Landschaft potenzieller Sicherheitsprobleme im Zusammenhang mit dem Einsatz und der Verwaltung von LLMs anleitet. Zu diesem Zweck werden die zehn kritischsten Schwachstellen aufgelistet, die häufig in LLM-Anwendungen auftreten, wobei die potenziellen Folgen, die Anfälligkeit für eine Ausnutzung und die Häufigkeit in realen Szenarien hervorgehoben werden.
Das Hauptziel dieser Liste ist es, das Bewusstsein für die dringendsten Schwachstellen zu schärfen, Strategien zur Abschwächung zu empfehlen und letztendlich die Sicherheit von LLM-Anwendungen zu stärken. Am wichtigsten ist jedoch, dass sie die Grundlage für den Wissensaustausch unter den Praktikern in der entstehenden LLM-Sicherheitsgemeinschaft schafft. Im Folgenden finden Sie kurze Beschreibungen der einzelnen Schwachstellen und ihre Standard-Identifikationsnummern.
LLM01: Prompt-Injektion
Ähnlich wie bei der SQL-Injektion kann die böswillige Veränderung von Eingaben in LLMs zu Sicherheitsverletzungen, Datenlecks und beeinträchtigten Entscheidungsprozessen führen.
LLM02: Unsichere Ausgabebehandlung
Wird die vorgesehene Struktur der LLM-Ausgaben nicht validiert, können Systeme für nachgelagerte Sicherheitslücken anfällig sein, einschließlich der Ausführung von Code, der die Systemintegrität gefährdet und sensible Daten preisgibt.
LLM03: Vergiftung von Trainingsdaten
Manipulierte Trainingsdaten können die Leistung von LLM-Modellen negativ beeinflussen und zu Reaktionen führen, die die Sicherheit, Genauigkeit oder ethische Standards beeinträchtigen.
LLM04: Modell Denial of Service
Wie herkömmliche Denial of Service (DoS)-Angriffe kann auch die Überlastung von LLMs mit ressourcenintensiven Operationen zu einer Unterbrechung der Dienste und zu zusätzlichen Kosten führen.
LLM05: Lieferkette
Schwachstellen, kompromittierte Komponenten, Dienste oder Datensätze innerhalb der Lieferkette der LLM-basierten Anwendung können die Systemintegrität untergraben, was zu Datenverletzungen und Systemausfällen führen kann.
LLM06: Offenlegung sensibler Informationen
Die Vernachlässigung des Schutzes vor der Offenlegung sensibler Informationen in LLM-Outputs kann rechtliche Konsequenzen oder Wettbewerbsverluste nach sich ziehen.
LLM07: Unsicheres Plugin-Design
Plugins für ein LLM-System, die Eingaben ohne ordnungsgemäße Überprüfung und ohne ausreichende Zugriffskontrolle verarbeiten, sind anfällig für schwere Angriffe.
LLM08: Exzessives Handeln
Die uneingeschränkte Handlungsautonomie eines LLM-Systems kann unbeabsichtigte Folgen haben und die Zuverlässigkeit, die Privatsphäre und das Vertrauen gefährden.
LLM09: Übermäßiges Vertrauen
Wenn LLM-Ergebnisse nicht kritisch bewertet werden, kann dies die Entscheidungsfindung beeinträchtigen und zu Sicherheitslücken und rechtlichen Konsequenzen führen.
LLM10: Modell-Diebstahl
Der unrechtmäßige Zugang zu geschützten LLM birgt die Gefahr von Diebstahl, Wettbewerbsnachteilen und der Verbreitung sensibler Informationen.
AI-Schwachstellen-Datenbank
Die AI Vulnerability Database (AVID) soll die Handlungsfähigkeit von MITRE ATT&CK mit der Genauigkeit und dem Wahrheitsaspekt der CVEs verbinden. AVID ist die erste quelloffene, erweiterbare Wissensdatenbank mit Fehlermöglichkeiten für KI-Modelle, -Datensätze und -Systeme. Obwohl AVID darauf abzielt, Schwachstelleninformationen für allgemeine KI-Modelle zu erhalten, hat das jüngste Interesse an LLMs dazu geführt, dass AVID seine Bemühungen zur Aufzeichnung und Befähigung von Entwicklern auf diese Seite konzentriert. Was den Aspekt der Taxonomie betrifft, so soll die AVID-Taxonomie eine breite gemeinsame Grundlage für die Einbeziehung von Vertrauenskoordinaten wie Sicherheit, Ethik und Leistung bilden, um eine Landschaft potenzieller Schäden über diese Koordinaten hinweg zu schaffen. Neben seiner Taxonomie bietet AVID auch eine erweiterbare Bibliothek mit Taxonomien von Drittanbietern (KI- und LLM-spezifisch), die es Praktikern ermöglicht, den breiten Rahmen für ihre Arbeitsabläufe anzupassen.
MITRE ATLAS
Nicht zuletzt ist MITRE ATLAS (Adversarial Threat Landscape for Artificial Intelligence Systems) das MITRE ATT&CK-Pendant für KI. Es bietet eine Reihe von TTPs ähnlich wie ATT&CK, jedoch speziell für Angriffe auf KI-Systeme. Basierend auf dem bewährten ATT&CK-Rahmenwerk dient ATLAS als umfassendes Repository mit gegnerischen Strategien, Methoden und Beispielen, die für KI-Systeme relevant sind. Diese Erkenntnisse basieren auf realen Beobachtungen, Demonstrationen von ML-Red-Teams und Sicherheitsbehörden sowie auf aktuellen Erkenntnissen aus der akademischen Forschung. ATLAS dient als wertvolle Ressource für Forscher, die sich mit den Bedrohungen für maschinelle Lernsysteme befassen. Der Einsatz von ML-Technologie hat sich in verschiedenen Branchen immer mehr durchgesetzt, was zu einer steigenden Zahl von Schwachstellen in ML-Anwendungen führt, die wiederum die Angriffsfläche bestehender Systeme vergrößern. Die Entwicklung von ATLAS zielt darauf ab, das Bewusstsein für diese drohenden Bedrohungen zu schärfen und sie in einem Format zu präsentieren, das für Sicherheitsforscher ein vertrautes Terrain darstellt.
Blick in die Zukunft
Es sind bereits Anstrengungen im Gange, um die oben genannten Rahmenwerke durch partizipatorische Bemühungen zur Reife zu bringen. So hat das NIST beispielsweise eine Arbeitsgruppe für generative KI eingerichtet, die ihre Arbeit an der RMF für KI fortsetzen und eine an genAI-Anwendungen angepasste Version des RMF Playbook erstellen soll. AVID hat öffentliche Veranstaltungen und Workshops organisiert, um Feedback und Zusammenarbeit zu fördern und seine Ressourcen durch Expertenbeiträge weiterzuentwickeln. Um den Erfolg dieser und ähnlicher Bemühungen zu gewährleisten, muss sich diese Arbeit an der bisherigen Forschung und dem vorhandenen einschlägigen Fachwissen orientieren. So benötigen wir beispielsweise eine Standarddefinition von Begriffen wie Schwachstellen, Vorfälle und Probleme in den Bereichen KI und LLM sowie die CVE-Definition einer Sicherheitsschwachstelle. Diese Definition sollte sich auf das Fachwissen von Cybersicherheitsexperten sowie auf aktuelle Forschungsergebnisse stützen. Schließlich sollte die Offenlegung von Schwachstellen im LLM-Bereich mit den CVE-Bemühungen koordiniert werden. Traditionelle Cybersicherheitsschwachstellen eines LLM-basierten Systems würden weiterhin eine klassische CVE-Meldung rechtfertigen. Im Gegensatz dazu würden interne Schwachstellen des LLM selbst unter Verwendung der neuen Konventionen offengelegt und gespeichert werden.
Zur einfacheren Lesbarkeit wurden die Quellverweise entfernt.
Übersetzung Boris Wanzeck
Majumdar, S. (2024). Standards for LLM Security. In: Kucharavy, A., Plancherel, O., Mulder, V., Mermoud, A., Lenders, V. (eds) Large Language Models in Cybersecurity, Springer, Cham.