DATEN SAMMELN, UM MEHRWERTE ZU SCHAFFEN – ABER WIE? - TEIL 1
05.08.2019 // Björn Heinen
(c) metamorworks - Getty Images
Teil 1: Die Datenhaltung (was wird gespeichert?)
Teil 2: Die Datenqualität (wie wird es gespeichert?)
Teil 3: Das Datengerüst (wo wird es gespeichert?)
Ich würde diese Blog-Reihe gerne mit zwei Anekdoten aus meiner persönlichen Erfahrung beginnen. Die erste Anekdote stammt aus der Zeit, bevor ich bei INFORM gearbeitet habe. Mein vorheriger Arbeitgeber hat sich auf automatisierte Sprachanalyse mittels Machine Learning spezialisiert. Ein sehr spannendes Feld mit großem Wachstumspotenzial. Für einen großen Versicherer sollten wir seinerzeit E-Mails mit Schadensmeldungen auf sprachliche Anomalien hin untersuchen. Der Projektrahmen und -ablauf wurde ausgearbeitet, alle Datenschutzfragen geklärt und die entsprechenden Kapazitäten bei uns reserviert. Als der Datenträger mit den Mails bei uns eintraf, konnten wir mit dem Projekt beginnen - dachten wir. In Wirklichkeit haben wir auf dem Datenträger keine Textdateien oder E-Mails gefunden, sondern Bilder. Es handelte sich bei den Bildern um eingescannte Varianten der vorher ausgedruckten E-Mails. Eine Textanalyse war so selbstredend nicht möglich und nachdem kundenseitig wochenlang vergebens nach den digitalen Originalen gesucht wurde, wurde das Projekt letzten Endes abgebrochen.
Die zweite Anekdote stammt aus einem Projekt in der fertigenden Industrie. Hier ging es um die Analyse der Historie von Maschinendaten (Sensorwerte, Einstellungsparameter, etc.). Für alle Maschinen, so wurde uns versichert, werden die relevanten Parameter konstant aufgezeichnet. Während dies technisch gesehen korrekt war, sah die Realität jedoch ein bisschen zu pragmatisch aus. Anstatt die Daten von der dedizierten Schnittstelle der Maschine abzugreifen und in eine Datenbank zu schreiben, gab es ein Display, das alle wichtigen Systemparameter konstant anzeigt. Die Historisierung bestand konsequenterweise daraus, eine Kamera auf dieses Display zu richten und aufzeichnen zu lassen.
Die Herausforderungen richtiger Datenhaltung
Die Herausforderungen, die eine konsequente Digitalisierung – und damit Datenhaltung – mit sich bringt, werden von manchen Unternehmen besser gemeistert, von anderen weniger gut. Branchenspezifisch zeichnen sich oft Trends ab, als Faustregel gilt: Je stärker die jeweilige Branche von digitaler Technik abhängig ist, desto mehr Daten werden auch so vorgehalten, dass sie in einem ersten Schritt nutzbar sind. Leider heißt das nicht, dass in digitalen Branchen Daten so nutzbar sind, wie sie es sein sollten. Die Probleme verschieben sich oft nur auf eine andere Ebene (hierzu mehr im dritten Beitrag der Reihe). Nehmen wir zwei Branchen zum Beispiel, die einen guten Kontrast darstellen: Die Finanzbranche und die fertigende Branche (Maschinen- und Anlagenbauer, etc.).
Die Finanzbranche war eine der ersten Branchen, die den Mehrwert von digitaler Kommunikationstechnik erkannt und konsequent genutzt hat. Die Natur der Finanzbranche ist rein virtuell, dementsprechend wird traditionell absolut alles gespeichert, was dafür in Frage kommt. Betrachtet man im Gegensatz die fertigende Branche, so ist deren Natur beinahe das Gegenteil von virtuell. Eine Fertigung kann – in der Theorie – ohne jede Form von Digitalisierung funktionieren. Es kann von Hand gefräst, geschweißt und lackiert werden. Es kann auf dem Papier geplant werden, welcher Mitarbeiter heute auf welcher Maschine welchen Arbeitsgang macht. Der Vertrieb kann ebenso per Papier an die Fertigung kommunizieren, was als Nächstes produziert werden soll. Dass dieser Modus Operandi zu ineffizient ist, wissen viele Unternehmen selbstverständlich. Darum gibt es ERP-Systeme (Enterprise-Resource-Planning), APS-Systeme (Advanced Planning and Scheduling), teil- und vollautomatisierte Maschinen und vieles mehr. All das ändert aber nichts daran, dass die Digitalisierung meist nur so weit geht wie sie unvermeidbar ist oder keinen zusätzlichen Aufwand verursacht. Das gilt für die fertigende Branche genauso wie für jede andere auch. Wie sonst sind Sintfluten von Excel-Sheets erklärbar, in denen auf fehleranfälligste Weise alle möglichen Unternehmensprozesse mehr oder minder gut abgebildet werden – von der Absatzplanung bis hin zum Finanzcontrolling?
Der Unterschied zwischen einer vorhandenen und nicht vorhandenen Datenhaltung liegt aber eben nicht in der Frage, ob diese einen Mehrwert bietet (tut sie nämlich so gut wie immer). Er liegt darin, ob der Mehrwert operativer oder strategischer Natur ist. Konkret: ob der Mehrwert instantan ist oder nicht. Speichert eine Bank Kundendaten in einem zentralen System, auf das jede Filiale zugreifen kann, so kann ein Kunde in jeder Filiale auch sofort alle Leistungen der Bank in Anspruch nehmen – Betrug (beinahe) ausgeschlossen. Speichert ein Anlagenbauer hingegen Maschinendaten, so ändert sich erstmal wenig bis nichts. Eventuell sind direkt Business-Intelligence-Auswertungen und Dashboards verfügbar, aber Machine Learning mit den Maschinendaten wie z.B. Predictive Maintenance sind erst später realisierbar, wenn über einen gewissen Zeitraum eine belastbare Historie aufgezeichnet wurde. Außerdem ist das bloße Speichern der Daten sehr kostenarm, so lange die Datenmengen nicht ausufernd groß sind. Kosten und Aufwand entstehen erst, wenn es darum geht, die Datenqualität und -verfügbarkeit hoch zu halten (auch hierzu erfahren Sie mehr in weiteren Artikeln dieser Blogserie).
Haben Sie eine Datenstrategie?
Warum also werden wertvolle Daten oft nicht gespeichert? Es liegt nicht daran, dass die Frage, was gespeichert werden soll, zu komplex ist. Sie wird einfach nur nicht gestellt. Und damit kommen wir zum Kernthema: der Datenstrategie. Sie ist ein ausformulierter und zielorientierter Plan, der das Unternehmen in die Lage versetzt, Wissen aus Daten zu extrahieren. Die Datenstrategie beschreibt interne und externe Datenquellen, die Umgehensweise mit diesen Quellen und die Ressourcen, die hierfür aufgewendet werden sollen. Sie beschreibt Ziele, die mittels Datennutzung erreicht werden sollen, Restrukturierungen, die zur Zielerreichung vonnöten sind, und vieles mehr. Sie unterscheidet Unternehmen, die reaktiv mit Daten umgehen von solchen, die den Mehrwert von datengetriebenen Entscheidungen verstanden haben und ihn nutzen. Die Frage darf nicht mehr nur lauten: Welche Daten brauchen wir? Sie muss ebenso lauten: Welche Daten können wir in der Zukunft brauchen und wie kommen wir in den Zustand, sie wirklich verwerten zu können? Nur so sichert man langfristige Wettbewerbsfähigkeit. Wie am Beispiel erklärt, reicht es aber ebenso wenig, ein Datenhaltungssystem nur in Betrieb zu nehmen und es mit Daten zu versorgen, die Datenqualität und -verfügbarkeit müssen auch gegeben sein. Mehr dazu im nächsten Teil meiner Blog-Reihe.
ÜBER UNSERE EXPERT:INNEN
Björn Heinen
Lead Data Scientist
Björn Heinen arbeitet seit 2017 bei INFORM im Bereich Data Science. Als Lead Data Scientist beschäftigt er sich sowohl mit internen Projekten, bei denen bestehende INFORM-Produkte um Machine-Learning-Funktionalitäten erweitert werden, als auch mit externen Projekten, die er von der Ausarbeitung über die Implementierung bis zur Integration begleitet.