Was treibt die NSA mit unseren Daten? Ein Backup für vertane Anschlagsvereitelung oder schlichter Machthunger? – Prof. Leisenberg

Spätestens durch Edward Snowden ist klar: Der Satz „Alles unter Kontrolle“ hat in den letzten Monaten eine tiefere und unbehagliche Bedeutung für Privatleute und Unternehmen erlangt. Die schockierenden Erkenntnisse über die Datensammelwut der National Security Agency (NSA) führt folgenschwere Konsequenzen für die Privatsphäre und die Rechte jedes einzelnen Nutzers elektronischer Datenverbindungen mit sich. Sie will alles kontrollieren, alles über uns wissen und besitzt Mittel und Wege sich dieser Informationen zu bemächtigen. Durch unterschiedlichste Quellen wie Internetknotenpunkte, Glasfaserkabel, abgefangene Satellitenkommunikation sowie über Telefon- und Onlinedienste werden elektronische Verbindungsdaten und deren Inhalte systematisch erfasst. Hierbei werden beispielsweise Telefonate, Mails, Websites, soziale Netzwerke sowie weitere private Daten der Bevölkerung wie GPS-Standortinformationen, Reisedaten sowie auch Bankdaten gesammelt und gespeichert.

Laut einem Bericht der New York Times zufolge forciert die NSA für die Analyse ihrer Datenbestände die Kooperation mit Startups und Experten aus dem Silicon Valley. Der, erst geheime, Übertritt des Ex-Sicherheitschefs von Facebook Max Kelly zur NSA im Jahre 2010, also dem Mann der die persönlichen Informationen von Millionen Facebooknutzern gegen Angriffe von Außen schützen sollte, verdeutlicht die Infiltration der Social Networks durch den Geheimdienst. So hätten sich innerhalb der großen Social Networks wie Skype geheime Expertenteams gebildet, welche an einer bessere Zugänglichkeit und Auswertbarkeit der Kundendaten durch und für die NSA arbeiten würden. Skype arbeite so beispielweise an der Auslotung technischer und rechtlicher Probleme, um die Gespräche Ihrer Kunden für den Geheimdienst leichter verwertbar zu machen. Natürlich geschehe die Zusammenarbeit laut Aussagen dieser Unternehmen lediglich unter immensem Druck seitens des Geheimdienstes sowie um die Kontrolle über diese Vorgänge nicht vollends zu verlieren. Ethik, ein Fremdwort für die NSA?

Laut einem Bericht des FOCUS online vom 30.09.2013 finden pro Minute über 1,4 Millionen Gespräche über Skype statt, es werden mehr als 2,4 Millionen Mails versandt, über 280.000 Tweets verfasst, über 120.000 Fotos auf Onlineportale gestellt und mehr als 20 Millionen Bilder bei Flickr angesehen, über 1.8 Millionen mal auf Like gedrückt, über 41.000 Beitragskommentare erstellt, ca. 2 Millionen Suchanfragen bei Google gestellt und über 100 Std neues Videomaterial auf YouTube hochgeladen. Zudem liegt das Handelsvolumen bei eBay in nur einer Minute bei 105.000 Euro, während bei Amazon in der Zeit 93.000 Euro Warenumsätzen erzielt werden. Allein dadurch entsteht eine gewaltige Kommunikationsdatenflut, die von der NSA in Datenbanken erfasst und mit entsprechenden Programmen analysiert wird. Vorgegangen wird frei nach dem „Big Data Prinzip“. Das bedeutet, dass keine direkt gezielte Suche erfolgt, sondern erst einmal alle möglichen Daten gesammelt und erst kurz vor der Analyse gefiltert, sprich nach bestimmten Suchparametern durchsucht werden. Die Sammlung von Allem impliziert jedoch auch, dass sich viele qualitativ schlechte Informationen anhäufen, sich diese als Messfehler niederschlagen und das Ergebnis verfälschen können. Diese Fehldiagnosen können so Unschuldige ins Visier rücken oder Gefahren unerkannt lassen.

Quantität vor Qualität? Wie gelangt die NSA in dieser Masse an gesammelten Informationen nun zu aussagefähigen Analyseergebnissen? Ein Tool, welches die NSA zur Analyse bzw. Durchforsten der gesammelten Daten nutzt ist XKeyScore. Nach Snowdens Enthüllungen zufolge ermöglicht dieses Programm die Analyse digitaler Kommunikation nach harten Kriterien (also z.B. nach konkreten E-Mail-Adressen) sowie weichen Kriterien (z.B. Suchstrings) zu durchsuchen. So kann beispielweise auch extrahier werden von welchen IP-Adressen bestimmte Websites aufgerufen wurden oder der Nachrichtenverlauf eines Facebook-Nutzers durch einfache Eingabe des jeweiligen Benutzernamens in die Suchmaske eingesehen werden. Durch die Speicherung der Daten wird eine Analyse in Echtzeit sowie auch der Vergangenheit möglich. Durch diese Suchfunktion ist es also ein Leichtes festgelegte Personen zu überwachen. Doch wie gut funktioniert die Methode der Datenanalyse anhand weicher Faktoren? Lässt sich ein NSA-Mitarbeiter beispielweise alle Personen anzeigen, welche einen kritischen Suchbegriff verwandt haben ergibt sich höchstwahrscheinlich eine Gruppe von diversen Personen mit unterschiedlichsten Ambitionen. So könnte ein Journalist wohl öfter in derartig verdächtigen Clustern auftauchen.

Nach vielen Stimmen von fachkundigen Informatikern der Internet-Community ist die Antwort auf die oben gestellte Frage demnach: Gar nicht. So würde durch die blinde Datensammlung der NSA die Qualität der Analyse stark beeinträchtigt – Wer zu viele Daten sammelt, der wird „blind“ bzw. „viel“, hilft nicht viel. Das Ergebnis kann nur so gut sein, wie die Qualität der Informationen und Suchparameter. Eine zu große Datenmenge mit fehlerhaften oder sinnlosen Daten kann keine aussagekräftigen Ergebnisse liefern und gegebenenfalls die Analyse komplett verfälschen.

Zudem darf nicht vergessen werden, dass die Daten anhand von algorithmischen Verfahren durch Maschinen ausgewertet werden. Bezüglich statischen Faktoren wie GPS-Koordinaten oder Verbindungen in sozialen Netzwerken ist dies sicher leicht, jedoch wenn es um die inhaltliche Analyse von beispielsweise Posts oder E-mails geht, ist die Auswertung eine hoch komplexe und schwere Aufgabe – gerade in Anbetracht der Vielfältigkeit der Faktoren, auch in Bezug auf die Hintergründe und Persönlichkeiten ihrer Urheber. So kann es für eine Maschine schwer sein einen Text beispielsweise aufgrund spezieller Wortwahlen, menschlicher Fehler sowie auch Fehler durch beispielsweise digitale Übersetzungshilfen richtig zu deuten. Ein Beispiel, welches die Probleme bzgl. der Aussagefähigkeit der maschinellen Datenanalyse veranschaulicht, verdeutlicht Jens Berger auf nachdenkseiten.de. Er fragte bei Google in einem Selbsttest ab, welche Informationen die Suchmaschine seiner Person bzw. seinem Gerät zuordnet. Auch ich (weiblich, 23 Jahre) machte daraufhin diesen Selbsttest und war erstaunt über das überwiegend realitätsferne Ergebnis. Laut Google bin ich männlich, in einem Alter von 25-34 Jahren und bin ich unter anderem interessiert an Autos und Fahrzeugen, Lautsprechern, American Football, Abenteuerspielen und zudem Bollywood- und südasiatische Filme. Die ersten zwei Punkte sind durchaus zutreffend, allerdings habe ich mich über andere Themen, die in der Auswertung nicht aufzufinden sind, weit mehr online informiert. Auf welcher wirren Grundlage mir Google die anderen Punkte zuschreibt ist für mich schlicht nicht nachvollziehbar.

Ein weiteres Beispiel ist der Versuch von US. Wissenschaftlern mit Hilfe von Twitter die amerikanische Arbeitslosenrate vorherzusagen. Es wurde eine Reihe von Schlüsselbegriffen wie „jobs“, „unemployment“ oder „classified“ definiert und die Tweets und Posts aus sozialen Medien gezählt, in denen diese Verwendung fanden. Anschließend wurden Korrelationen zwischen der Häufigkeit der Keywordverwendung in Tweets pro Monat und der jeweiligen Arbeitslosenrate analysiert. Plötzlich war ein beachtlicher Anstieg der Keywordnutzung „jobs“ zu verzeichnen, welcher die Forscher mit Spannung auf die Arbeitslosenrate blicken lies. Die blieb jedoch ohne hierzu passende Auffälligkeiten. Der Grund hierfür war ernüchtern. Der Anstieg war schlicht und einfach auf ein Ereignis in dem Analysezeitraum zurückzuführen – den Tod von Steve Jobs.

Natürlich sind die Schwächen der Analysetools der NSA bekannt. So läuft bei der Intelligence Advanced Research Agency, dessen Wissen bereits in die aktuellen Sammel- und Analysetools des Geheimdienstes eingeflossen ist, eine Ausschreibung für die Entwicklung eines neuen Analysesystems, welche aus großen unzuverlässigen Datensätzen aussagefähige Ergebnisse ziehen kann. Vertraut die NSA also Ihren aktuellen Analyseergebnissen nicht?

Wenn es noch schwer ist, aus der Datenflut aussagefähige Analysen bzw. verlässliche Vorhersagen zu ziehen, warum sammelt die NSA dann blind alles was sie in die Finger bekommt? Im Netz macht sich die Theorie breit, dass das Datenfishing nicht der Vorhersage sondern in erster Linie vielmehr dem Rückblick in die Vergangenheit dient. So könnten bei einem erneuten Anschlag mit Hilfe zuvor gesicherten Kommunikationsdaten des Attentäters Drahtzieher extrahiert werden. Dieses Vorgehen impliziert allerdings auch, dass immer mehr Daten gesammelt und gespeichert werden müssen, wodurch die ethischen und rechtlichen Schranken der Datensammlung vollends durchbrochen würden. Eine andere Theorie ist schlicht die Wirtschaftsspionage, denn Wissen ist bekanntlich Macht.

Einen Weg sich dem allsehenden Auge zu entziehen, also vollends auf alle elektronischen Datenübertragungen zu verzichten ist heute keine Option mehr, bzw. im heutigen Alltag nicht möglich. Wo führt das hin? Ich war gewillt die Frage „Werden bald auch unsere Häuser und Straßen von Kameras und Abhörgeräten gespickt sein?“ zu schreiben, doch tragen wir diese Kamera, das potentielle Abhörgerät nicht schon nach dem Prinzip Always On ständig mit uns herum?