Wo werden eigentlich meine Cloud-Daten gespeichert?
Aus rechtlicher Sicht ist der tatsächliche Speicherort von Cloud-Daten aus vielerlei Gründen relevant (Lehmann/ Giedke, "Cloud Computing - technische Hintergründe für die territorial gebundene rechtliche Analyse", CR 2013, 608 (615f.)). Diverse Aspekte des Datenschutzrechts und des Urheberrechts hängen vom Speicherort bzw. vom Datentransfer dorthin ab. Auch im Hinblick auf IT-Sicherheit ist es interessant zu wissen, über welche Datenleitungen die Daten zu welchen Speicherorten unter wessen Kontrolle fließen.
In Bezug auf „Cloud-Daten“ hört man in der Diskussion immer wieder, dass diese an einem unbestimmten und sogar unbestimmbaren Ort liegen, eben in der „Wolke“. Eine solche magische „Wolken“-Technologie, in der Daten einfach mit unbestimmtem Ort abgelegt werden können, gibt es jedoch aus technischer Sicht nicht. Auch Cloud-Daten sind immer irgendwo gespeichert (Lehmann/Giedke, CR 2013, 608 (613)).
Allerdings ist es grundsätzlich so, dass Computersysteme heute so vielschichtig aufgebaut sind, dass es nicht immer einfach ist, für ein bestimmtes, beispielsweise personenbezogenes Datum einen bestimmten Sektor einer bestimmten Festplatte anzugeben. Viele aktuelle Technologien zielen aus verschiedenen Gründen darauf ab, von der bestehenden Hardware zu abstrahieren und die genaue Speicherung und Verarbeitung der Daten vor den höheren Verarbeitungsschichten (z.B. der Benutzerschnittstelle zum Anwender) zu „verstecken“ und so die Anwendungen von konkreten Betriebsgegebenheiten unabhängig zu machen.
Typische Speicherungstechnologien:
Im Folgenden werden am Beispiel der Speicherung eines Geburtsdatums eine Reihe typischer Technologien erklärt, die die Speicherung der Daten beeinflussen und von Cloud-Anbietern häufig sogar in Kombination angewandt werden:
- RAID - Speicherung verteilt auf mehrere Festplatten
Um ein System gegen den Ausfall einzelner Festplatten abzusichern, werden einzelne Daten (z.B. ein Byte) über mehrere Festplatten verteilt gespeichert. Dieses Verfahren heißt grundsätzlich RAID (Redundant Array of Independent Disks). Wenn eine Festplatte ausfallen sollte, reichen die Daten auf den verbleibenden Festplatten zur vollständigen Rekonstruktion der Gesamtdaten.
Beispiel: Damit liegt dann beispielsweise ein Geburtsdatum effektiv verteilt auf fünf Festplatten. Aus einer einzelnen Platte könnte man das Datum überhaupt nicht rekonstruieren.
- Verschlüsselung auf einer Festplatte
Oft werden zum Schutz gegen den Diebstahl Daten von Festplatten aus einem Rechenzentrum vollständig verschlüsselt.
Beispiel: Je nach Verschlüsselungs-Algorithmus liegt das Geburtsdatum dann über verschiedene Bereiche der Festplatte verteilt und kann nur mit dem richtigen Schlüssel wieder gelesen werden.
- Virtualisierung physikalischer Rechner
Bei der Virtualisierung (ausführlich hierzu siehe Lehmann/Giedke, CR 2013, 608 (611)) wird von der tatsächlichen Rechnerhardware und dem Betriebssystem abstrahiert und man kann beispielsweise viele verschiedene virtuelle Rechner („Maschinen“) mit verschiedenen Betriebssystemen auf einem einzigen physikalischen Rechner laufen lassen. Auch der Festplattenspeicher wird dabei virtualisiert, d.h. zumeist sind die „Festplatten“ der virtuellen Maschine Dateien im Betriebssystem der Gastrechner-Hardware.
Beispiel: Wenn also die virtuelle Maschine das Geburtsdatum auf Sektor XY der virtuellen Festplatte speichert, so kann es an einer gänzlich anderen Stelle der tatsächlichen Festplatte liegen.
- Clustering zum Verteilen von Rechenoperationen und Daten auf unterschiedliche Maschinen
Clustering bezeichnet eine ganze Klasse von Technologien, die sich mit dem Verteilen von Rechenoperationen und Daten auf verschiedenen Maschinen (virtuell oder physikalisch) beschäftigt. Clustering wird beispielsweise eingesetzt, um beim Ausfall eines Geräts (z.B. einer Datenbank) sehr schnell – ohne dass die Benutzer davon etwas mitzubekommen – auf ein Reservegerät zu schwenken, dass mit den gleichen Programmen und Daten ausgestattet ist und sofort die Arbeit aufnehmen kann. Bei einem Cluster ist davon auszugehen, dass Daten mehrfach in der Systemlandschaft vorkommen.
Beispiel: In diesem Fall liegt das Geburtsdatum dann also in vergleichbarer Form gespeichert auf mehreren Rechner im Cluster.
- Remote-Backup zur Datensicherung
Beim Erstellen von Datensicherungen (Backups) werden naturgemäß ebenfalls Daten dupliziert und ggf. sogar an entfernte Orte gebracht (Schließfach in der Bank) oder kopiert (Online-Backup). Die Erstellung von Backups gehört heute zu den allgemein anerkannten Regeln der Technik, weshalb bei jeder Art von Datenspeicherung davon auszugehen ist, dass die Daten nicht nur am Ort vorliegen, an dem sie tatsächlich verarbeitet werden, sondern auch noch an mindestens einem anderen Ort.
Beispiel: Das Geburtsdatum liegt dann auch immer mindestens einmal zusätzlich im Backup vor, wo immer dieser auch aufbewahrt wird.
- Mandantenfähigkeit für die Zuordnung von Cloud-Kunden zu ihren Daten
Mandantenfähige Anwendungen zeigen zwar jedem Benutzer an dessen Zugangs-Oberfläche nur dessen eigene Daten an (z.B. Interessentendaten in einem CRM-System). Im Hintergrund ist jedoch zumeist nur eine einzige Anwendung in Betrieb, die im Datenmodell (mehr oder weniger) sauber die Daten der verschiedenen Cloud-Kunden (Mandanten) auseinanderhält und bei der Abfrage und Anzeige entsprechend filtert. Schaut man direkt auf eine solche Datenbank, sieht das Datenmodell üblicherweise komplexer aus, als es die Oberfläche für einen Benutzer vermuten ließe. Auch hier wird also in der Oberfläche zumeist von den konkreten Gegebenheiten im Rechner abstrahiert.
Beispiel: Wenn beispielsweise die selbe Person von zwei Cloud-Kunden als Interessent im CRM-System eingetragen ist, so wird das Geburtsdatum dort auch zweimal gespeichert - einmal als Datum unter Kontrolle des Cloud-Kunden A, einmal unter Kontrolle des Cloud-Kunden B.
Konsequenz für den Speicherort in der Cloud
In datenspeichernden Cloud-Anwendungen sind üblicherweise fast alle der oben genannten Technologien im Einsatz, so dass das Geburtsdatum aus unserem Beispiel eine ganze Reihe von Transformationen und Verteilungen hinter sich hat, bevor es auf einer echten Festplatte "zur Ruhe kommt". Dieses "zur Ruhe kommen" besteht aus zwei Komponenten:
- Exakter Speicherort: Die Transformationen und Verteilungen der Daten laufen nach programmierten Regeln ab, d.h. der Speicherort auch des ggf. in seine Einzelteile zerlegten Datums ist immer bestimmbar – ansonsten könnten man das gespeicherte Geburtsdatum nie wieder anzeigen.
- Relative Flüchtigkeit: In der Praxis wäre diese Bestimmung des genauen Orts auf der Festplatte jedoch in einem konkreten Fall sehr mühsam und auch nur eine Momentaufnahme, da Daten umkopiert und verlagert werden können.
Allerdings ist meiner Ansicht nach für die rechtliche Bewertung eine genaue Zuordnung eines Datums zu einem Sektor auf einer Festplatte gar nicht notwendig. Es wird zumeist ausreichend sein, das betreffende Rechenzentrum und die Rechnergruppe und Speichereinheiten innerhalb des Rechenzentrums zu bestimmen.
Hinreichend genau für rechtliche Analyse
Auch die wolkigsten Cloud-Angebote sind technisch so konstruiert, dass der Cloud-Anbieter zumindest das Rechenzentrum, in dem konkrete Daten liegen, einfach anhand der typischerweise dokumentierten Architektur des Gesamtsystems bestimmen kann.
Ob diese Daten dann auch für Backup- oder Clustering-Zwecke in weitere, ggf. sogar in anderen Jurisdiktionen liegenden Rechenzentren kopiert werden, ist immer eine explizit gewählte Strategie des Cloud-Anbieters, so dass aus technischer Sicht eigentlich immer eine für eine rechtliche Bewertung ausreichend genaue Zuordnung von Daten und Speicherort möglich sein muss.
Wenn ein Cloud-Anbieter behauptet, diese Zuordnung und sein Backup-Konzept nicht verbindlich angegeben zu können, so stellt sich die Frage, ob der Cloud-Anbieter in diesem Fall die Funktionsweise seiner eigenen Systeme entweder nicht transparent machen möchte oder vielleicht überhaupt gar nicht versteht.