Die Grenzen von BigData
Im Herbst 1958 beschloss die Partei- und Staatsführung der DDR auf einer Chemiekonferenz besondere Anstrengungen auf dem Gebiet der Chemie und gab die Losung aus: „Chemie gibt Brot, Wohlstand und Schönheit.“ Die Chemie vermag sicher vieles, aber sicher keine Erfüllung von Floskeln. Die Zeiten ändern sich, offenbar jedoch nicht die Glücks-Verheißungen. Deshalb erscheint mir heute der Propheten-Rummel um BigData mit seinem massenhaften Erfassen und Auswerten von Daten ähnlich den Worthülsen von damals. Glaubt man den Kommentaren von Experten in Medien oder verschiedenen Statements auf Messen, wie kürzlich auf der Hannover Messe, so sind wir nicht weit von einem Wandel entfernt, der neben ungeahntem Wohlstand auch Glück und Zufriedenheit für alle mit sich bringen wird.
Die „Segnungen“ dieser Zukunft konnte der aufmerksame Beobachter beim letzten Facebook-Skandal erahnen. Mit den gesammelten Daten kann man alles machen, man kann uns alle Wünsche von den Augen – sprich Daten – ablesen, „Alexa“ oder Smart-Watches helfen uns, durch den Alltag zu kommen und ganz nebenbei lassen sich auch Wahlen beeinflussen. Demokratie wird ein Auslaufmodell, wenn wir die Datenkraken gewähren lassen. Aber solche kritischen Stimmen stören nur. Die Masse macht einfach weiter, als wäre nichts gewesen. Sie verschenkt einfach ihre Daten an die Datenmonopolisten und daran kann man gar nichts ändern, solange Sorglosigkeit oder Gleichgültigkeit dominieren.
Das ist eigentlich schon schlimm genug, aber mir geht es hier um einen besonderen Aspekt dieser neuen Technologie. Zweifelsfrei ist die Auswertung von Massendaten nicht nur ein neues, lukratives Geschäftsmodell, sondern auch eine bedeutsame Informationsquelle für Banken, Kranken- und Autoversicherungen oder andere Institute. Es wird Wissen generiert, das in diesen Daten steckt. Die Methode dieses Wissenserwerbs ist induktiv, d. h. Es wird vom Besonderen, also von den vorliegenden Daten durch Generalisierung auf das Allgemeine, eine „Regel“, möglicherweise sogar ein „Gesetz“ geschlossen. In allen experimentellen Wissenschaften, z. B. in der Marktforschung ist das nahezu die einzige Möglichkeit, verallgemeinertes Wissen zu erzeugen. Alle so gewonnenen Aussagen besitzen allerdings eine besondere Eigenschaft, sie sind mit einer Wahrscheinlichkeit verknüpft. Die Aussagen gelten also nur mit einem gewissen Vorbehalt, einer sogenannten Irrtumswahrscheinlichkeit. Mit steigenden Datenmengen kann man diese reduzieren, die ermittelten „Regeln“ bleiben aber unsicher. Amazon irrt sich möglicherweise, wenn es mir nach einer Bestellung weitere Bücher empfiehlt. Es gibt also auch Risiken, die mit derartigen Datenauswertungen verbunden sind und es hängt vom Sachverhalt ab, ob diese Fehlurteile Belustigung auslösen oder ggf. dramatische Konsequenzen nach sich ziehen, z. B. zur Verweigerung einer Kreditvergabe durch eine Bank, oder noch gravierender, zu Fehlentscheidungen beim Autonomen Fahren führen. Neuerdings gibt es auch Ansätze für automatisierte Personalentscheidungen. Die Personalabteilung wird entlastet, so heißt es. Ist Ihnen wirklich wohl dabei?
Die Modelle, die hier aus den Daten erzeugt werden, wollen wir „datengetriebene“ Modelle nennen. Ein einfaches Beispiel, das vor gut 15 Jahren von einem meiner Studenten behandelt wurde, soll dem Verständnis dienen und dabei auch die Methode verdeutlichen.
Stellen Sie sich vor, es ist das Volumen (V) einer sehr großen Anzahl zylindrischer Gefäße mit unterschiedlichem Radius (R) und unterschiedlicher Höhe (H) zu bestimmen. Gehen wir weiterhin davon aus, dass die Formel für das Zylindervolumen V= π•R²•H, also das „analytische Modell“ unbekannt ist. Was wird der Datenverarbeiter tun? Er wird ein sogenanntes datengetriebenes Modell aufbauen, indem er eine nicht zu kleine Menge an Gefäßen mit Wasser füllt und damit das Volumen kennt. Die Gefäßdaten R und H gibt er als Eingangsinformationen in ein sogenanntes „künstliches Neuronales Netz“ (eine der neuen Technologien der „Künstlichen Intelligenz“) und ordnet ihnen den korrekten Ausgang V zu. Mit Hilfe verschiedener Lernstrategien erlernt das Netz, dass zu konkreten Werten R und H das konkrete Volumen V gehört. Nach der Lernphase kann es künftig Prognosen aufstellen, d. h. wenn es künftig nur noch neue, bisher unbekannte Werte R und H erhält, kann es daraus das zu erwartende Volumen schätzen. Die Ergebnisse werden fehlerbehaftet sein, aber mit wachsender Menge an Testdaten immer besser werden. Was fällt Ihnen auf? Das Daten-Modell kommt ohne die berühmte Kreiszahl π aus. Was bedeutet das? Werden der deduktive Wissenserwerb, also die Forschungen zur Erkenntnis des Allgemeinen, hier der Formel für das Zylindervolumen, um daraus das Besondere, das spezielle Volumen zu bestimmen, überflüssig? Obige Formel wird ja überhaupt nicht mehr benötigt. Wir haben eine Kausalbeziehung in Daten entdeckt. Hurra werden einige rufen, weg mit der Mathematik. Der arme Archimedes, er hat sich ca. 300 Jahre v. Chr. umsonst bemüht, π zu definieren und erst recht die alten Ägypter, die schon dem Geheimnis dieser Zahl näher kommen wollten. Doch Vorsicht. Es hätte keine großen wissenschaftlichen Entdeckungen gegeben, von denen wir heute alle profitieren, wenn es nicht die deduktive Methode zum Erkenntnisgewinn geben würde und was würden wir, um beim Beispiel zu bleiben, ohne Kenntnis von π alles nicht wissen: Es gebe z. B. keine Maxwellschen Gleichungen (1873) und damit weder Radio, noch Fernsehen noch Handy, von Navigationssystemen ganz zu schweigen.
Die in der Natur und Gesellschaft verborgenen Geheimnisse können also nicht nur durch empirische, datengetriebene und damit statistische Modelle ermittelt werden, sondern benötigen gleichzeitig deduktiv orientierte Forschung, die analytisch berechenbare Zusammenhänge aufdeckt. Der neue Hype zu BigData darf uns also nicht blenden, wenn uns damit auch ein neues, mächtiges Werkzeug zur Verfügung steht. Viele Fragen der experimentellen Forschung können nun in der Hoffnung angegangen werden, in den riesigen Datenmengen unbekannte Kausalzusammenhänge zu finden oder erwartbare zu bestätigen. Der seinerzeitige Nachweis (2012) des subatomaren Higgs-Teilchens im CERN ist ein gutes Beispiel dafür. Wirklichen Fortschritt werden wir aber nur durch die vernünftige Balance zwischen beiden Methoden erwarten können. Ich muss einige unter Ihnen also enttäuschen, die klassische Mathematik wird durch BigData nicht überflüssig. Prof. Dr.-Ing. Viktor Otte