Microsoft KI-Forscher legen versehentlich 38 Terabyte privater Daten offen

Im Rahmen ihrer fortlaufenden Arbeit zur zufälligen Offenlegung von in der Cloud gehosteten Daten scannte das Wiz Research Team das Internet nach falsch konfigurierten Speichercontainern. Dabei fanden sie ein GitHub-Repository unter der Organisation Microsoft mit dem Namen „robust-models-transfer“. Das Repository gehörte zur KI-Forschungsabteilung von Microsoft, deren Ziel es ist, Open-Source-Code und KI-Modelle für die Bilderkennung bereitzustellen.

Nach weiteren Untersuchungen stellte sich heraus, dass Microsoft KI-Forscher versehentlich 38 Terabyte privater Daten offengelegt hatten, einschließlich eines Festplatten-Backups von zwei Mitarbeiter-Arbeitsstationen, während sie einen Datensatz für Open-Source-Training auf GitHub veröffentlichten. Das Backup enthielt Geheimnisse, private Schlüssel, Passwörter und über 30.000 interne Microsoft Teams-Nachrichten.

Die URL für das Repository gewährte jedoch Zugriff auf mehr als nur Open-Source-Modelle. Sie war so konfiguriert, dass sie Berechtigungen für das gesamte Speicherkonto gewährte und zusätzliche private Daten versehentlich offengelegt wurden.

Der Scan von Wiz zeigte, dass dieses Konto 38 Terabyte zusätzlicher Daten enthielt, einschließlich Backups von persönlichen Computern von Microsoft-Mitarbeitern. Die Backups enthielten sensible persönliche Daten, einschließlich Passwörter für Microsoft-Dienste, geheime Schlüssel und über 30.000 interne Microsoft Teams-Nachrichten von 359 Microsoft-Mitarbeitern.

In den Händen von Bedrohungsakteuren hätte diese Daten für den Technologieriesen verheerend sein können, insbesondere unter den aktuellen Umständen. Microsoft hat kürzlich enthüllt, wie bösartige Akteure darauf aus sind, Microsoft Teams auszunutzen, um Ransomware-Angriffe zu erleichtern.

Laut einem Blogbeitrag von Wiz hatte der Zugriffsbereich nicht nur eine zu weitreichende Berechtigung, sondern das Token war auch falsch konfiguriert, um „Vollzugriff“-Berechtigungen anstelle von schreibgeschützten Berechtigungen zu gewähren. Das bedeutet, dass ein Angreifer nicht nur alle Dateien im Speicherkonto einsehen konnte, sondern auch bestehende Dateien löschen und überschreiben konnte.

Dies ist besonders interessant, wenn man den ursprünglichen Zweck des Repositories betrachtet: Es sollte KI-Modelle für die Verwendung in Trainingscodes bereitstellen. Das Repository weist die Benutzer an, eine Modell-Datendatei von dem SAS-Link herunterzuladen und sie in ein Skript einzuspeisen.

Das Dateiformat war ckpt, ein von der TensorFlow-Bibliothek erzeugtes Format. Es wird mit dem Pickle-Formatter von Python formatiert, der von Natur aus anfällig für die willkürliche Ausführung von Code ist. Das bedeutet, dass ein Angreifer bösartigen Code in alle KI-Modelle in diesem Speicherkonto hätte injizieren können, und jeder Benutzer, der dem GitHub-Repository von Microsoft vertraut, wäre davon infiziert worden.