Microsoft hat kürzlich Einzelheiten darüber veröffentlicht, wie KI-Systeme durch sogenannte „AI Jailbreaks“ umgangen werden können und welche Maßnahmen ergriffen werden, um diese zu mitigieren. KI-Jailbreaks beschreiben Methoden, mit denen die Sicherheitsmaßnahmen von KI-Modellen umgangen werden, um unerwünschte oder unangemessene Inhalte zu generieren, die gegen die Richtlinien des Systems verstoßen.

Techniken der KI-Jailbreaks

Die Techniken umfassen die Einspritzung von Befehlen (Prompt Injection), das Umgehen von Sicherheitsvorkehrungen (Evasion) und die Manipulation von Modellen. Obwohl Filter darauf ausgelegt sind, die Generierung gefährlicher Informationen zu verhindern – wie etwa genaue Anleitungen für verbotene Waffen –, gibt es Methoden wie „Crescendo“, die diese Maßnahmen umgehen können.

Ständige Verbesserung der Sicherheitsmaßnahmen

Microsoft und andere beteiligte Parteien arbeiten kontinuierlich daran, neue Varianten von Jailbreaks zu identifizieren und zu neutralisieren. Die geopolitischen Aspekte sind wichtige Faktoren der verantwortungsvollen Entwicklung und implizieren eine ständige Arbeit, um den Schutz von KI-Systemen gegen Jailbreaks und ähnliche Bedrohungen zu stärken.

Potenzielle Auswirkungen und notwendige Absicherungen

KI-Sprachmodelle, die nicht angemessen vor schädlichen Informationen geschützt sind, könnten schädliche Inhalte generieren, unbeabsichtigte Aktivitäten ausführen oder private Daten preisgeben aufgrund ihrer nicht-deterministischen generativen Natur. Laut Microsoft kann kein KI-Modell als sicher vor Jailbreaks angesehen werden. Daher ist ein mehrschichtiger Ansatz erforderlich, um Jailbreaking-Versuche zu erkennen, darauf zu reagieren und deren Auswirkungen zu begrenzen.

Schwere eines KI-Jailbreaks

Die Schwere eines KI-Jailbreaks hängt davon ab, welche Barriere umgangen wurde und ob dies unbefugten Zugriff, Automatisierung oder eine weitergehende Verbreitung von Inhalten im System ermöglicht. Einzelne bösartige Ausgaben an einen Benutzer sind kleinere Vorfälle, aber der Missbrauch von Systemen für weitreichendere Auswirkungen steigert die Schwere.

Empfohlene Abwehrmaßnahmen von Microsoft:

  • Prompt-Filterung über Azure AI Content Safety Prompt Shields
  • Identitätsmanagement mit Managed Identities für Azure-Ressourcen
  • Datenzugriffskontrollen mit Microsoft Purview-Datensicherheit
  • System-Metaprompt-Framework und Empfehlungen für LLM-Vorlagen
  • Inhaltsfilterung des Azure OpenAI Service
  • Missbrauchsüberwachung des Azure OpenAI Service
  • Modellausrichtung während der Trainingsverfahren
  • Microsoft Defender for Cloud zur Bedrohungsabwehr für KI-Workloads

Diese Techniken reichen von langsamem Austricksen der KI-Sicherheitsvorkehrungen durch menschenähnliche Einflüsse oder künstliche Eingabemuster bis hin zur Verwirrung. In der Realität umfassen Jailbreaks verschiedene Ansätze, die Eingaben manipulieren, um Barrieren zu überwinden, und ein entsprechendes Set an Gegenmaßnahmen, abhängig von ihren potenziellen Konsequenzen, muss berücksichtigt werden.