DATEN SAMMELN, UM MEHRWERTE ZU SCHAFFEN – ABER WIE? - TEIL 2
12.08.2019 // Björn Heinen
(c) Natali_Mis - Getty Images
Teil 1: Die Datenhaltung (was wird gespeichert?)
Im ersten Teil der Blog-Reihe bin ich darauf eingegangen, unter welchen Umständen welche Daten in Unternehmen gespeichert werden. Diese Faktoren haben aber natürlich nicht nur einen Einfluss darauf, was gespeichert wird, sondern auch wie es gespeichert wird. Traditionell werden keine Daten gespeichert und gepflegt, die keinen direkten Nutzen haben. Wenn etwas für einen gewissen Zweck gespeichert wird, dann eben nur genau für diesen. Hier ein Beispiel: Eines unserer Consulting-Projekte hat sich mit der Analyse von Sensordaten eines Kanalsystems beschäftigt. Diese Daten sollten auf Ausreißer hin untersucht werden, um festzustellen, ob Aktionsbedarf besteht, wenn beispielsweise plötzlich viel mehr oder stärker säurehaltiges Abwasser durch einen Kanal fließt als gewöhnlich. Die Daten wurden bereits seit Jahren gespeichert, da die Informationen für Audits und retrospektive Untersuchungen genutzt werden. Als wir jedoch mit der Entwicklung des Algorithmus zur Anomalieerkennung begonnen, fiel schnell auf, dass die Daten fehlerbehaftet waren. Regelmäßig gab es Abwassermengen von Millionen Litern pro Stunde oder Abwassertemperaturen wärmer als die Sonne. Es stellte sich heraus, dass die Datenzuverlässigkeit nur zu Zeiten von Audits gegeben war. Den Rest der Zeit wurden zwar alle Sensorwerte gespeichert, aber es wurde nicht geprüft, ob sie zum Beispiel jenseits des physikalisch Sinnvollen waren, da der instantane Mehrwert einfach nicht gegeben war.
Kriterien für eine hohe Datenqualität
Was sind also Kernkriterien für eine hohe Datenqualität? Neben vielen kleinen Faktoren sind es hauptsächlich folgende drei: Korrektheit, Vollständigkeit und Verarbeitbarkeit der Daten. Fangen wir mit der Verarbeitbarkeit an. Es ist nicht zielführend, alle Informationen in der gesamten Unternehmensgeschichte hunderprozentig korrekt zu speichern, wenn hierfür nur Word-Dokumente und hochkomplexe Excel-Sheets in einer kunterbunten Ordnerstruktur genutzt wurden, die der Ersteller zwei Monate später selbst nicht mehr versteht. Gleiches gilt für die Aufzeichnung von Maschinendaten per Kamera, wie im ersten Beitrag der Reihe beschrieben. Es gilt stattdessen Datenbanken, Data Warehouses, Data Lakes, ERPs, kurz datenführende Systeme, mit Bedacht zu wählen und füllen. Damit kommen wir zur Vollständigkeit und Korrektheit: Wird ein Wert nicht aufgezeichnet, kann er später auch nicht für Analysen und Vorhersagen genutzt werden. Das bedarf keiner großen Erklärung, muss nur frühzeitig bedacht werden. Haben wir den Wert nun, muss er auch zuverlässig sein. Finden wir also einen Wert für eine Abwassermenge im System, müssen wir uns sicher sein können, dass er der Realität entspricht. Hat ein Mitarbeiter eine bestimmte Dauer für einen Arbeitsgang rückgemeldet, muss diese Dauer zuverlässig sein und so weiter.
Hindernisse für eine hohe Datenqualität
Es geht also bei der Korrektheit von Daten weniger um die Frage, was Datenqualität ausmacht als um die Frage, welche Hindernisse sich ihr üblicherweise stellen. Platz eins in dieser Liste nimmt zweifelsfrei die manuelle Bearbeitung ein. Immer, wenn Daten manuell eingegeben werden, werden sie teilweise falsch eingegeben. Das ist weniger eine Faustregel als es ein Naturgesetz. Wo also eine manuelle Eingabe durch eine automatisierte oder wenigstens teilautomatisierte ersetzbar ist, sollte dies um beinahe jeden Preis getan werden. Für diejenigen, die sich hier nicht sicher sind: Jeder Arbeitsschritt, der Excel beinhaltet, ist ohne Zweifel manuell – unabhängig von der Anzahl genutzter Makros. Weitere Faktoren für Datenunreinheiten sind beispielsweise die Verkennung des Mehrwerts der Daten auch außerhalb des eigenen Tätigkeitsbereichs, abweichende Definitionen und Defekte.
Wenn in unserem Beispiel der Abwasseranlage der Sensor Schaden nimmt, dann gibt es für einen gewissen Zeitraum keine korrekten Werte - daran lässt sich nichts ändern. Es lohnt sich aber diesen Zeitraum auf ein Minimum zu reduzieren, indem beispielsweise ein Grenzwert-Monitoring genutzt wird, das auf Sinnhaftigkeit der Werte prüft, oder die Durchführung manueller Stichproben. Hinzu kommt ein Feld in der Datenbank, das invalide Einträge als solche kennzeichnet (wenn man z.B. herausfindet, dass der Sensor gestern kaputtgegangen ist, markiert man den entsprechenden Zeitraum als ungültig) und im Handumdrehen hat man eine korrekte Historie und verlässliche Live-Daten. In Sachen Datenqualität gilt es natürlich einen Trade-Off zu finden, der die Komplexität der korrekten Abbildung der Daten dem Aufwand dafür entgegenstellt. Kostet es jeden Mitarbeiter in der Fertigung jeden Tag 30 Minuten, perfekt zu dokumentieren, was im Laufe des Tages passiert ist, fördert man damit nur die Kreativität der Mitarbeiter diesen Eingabeprozess zu verkürzen – Präzision hin oder her. Um diesen Trade-Off zwischen Korrektheit, Vollständigkeit und Aufwand aber zuverlässig bestimmen zu können, braucht es die bereits erwähnte Datenstrategie, ansonsten ist die Kosten/Nutzen-Rechnung nicht möglich.
Die Datenstrategie ist das Fundament
Eine gute Datenstrategie stellt gewisse Fragen (Welche Daten werden möglicherweise in der Zukunft gebraucht? Welche Datenquellen gibt es? Wie werden die Daten gespeichert? Welche Maßnahmen zur Datenqualität gibt es? Welche Unternehmensbereiche arbeiten mit welchem Teil der Daten? Gibt es abweichende Definitionen/Abbildungen derselben Information?), ist aber hauptsächlich dazu da, künftig anfallende Fragen beantworten zu können. Soll ein neues System zur Betriebsdatenerfassung angeschafft werden? Sollen drei konkurrierende Systeme zur Erfassung von Kundeninformationen konsolidiert werden? Wie? Lohnt es sich, Mitarbeiter eine Datenbank mit Produkteigenschaften pflegen zu lassen?
Die Bestimmung und Festlegung einer Datenstrategie ist ein komplexer Prozess, der von Unternehmen zu Unternehmen unterschiedlich ist, eines aber gilt für alle: Es handelt sich dabei um Entscheidungen, die nicht einfach nur an die IT-Abteilung abgetreten werden können, sondern die auf höchster Ebene unter Berücksichtigung aller Stakeholder getroffen werden müssen. Ansonsten entstehen keine Anreize über Abteilungsgrenzen hinweg. Immerhin: Sie muss nicht in aller Vollständigkeit in einem einzelnen Schritt definiert werden. Eine iterative Entwicklung ist hinreichend und wesentlich einfacher realisierbar.
In den ersten beiden Teilen der Reihe sind wir auf die vollständige und korrekte Speicherung von Unternehmensdaten eingegangen. Es fehlt aber noch ein Baustein für die Nutzbarkeit der Daten: Die Datenverfügbarkeit. Darüber schreibe ich im nächsten und letzten Teil dieser Reihe.
ÜBER UNSERE EXPERT:INNEN
Björn Heinen
Lead Data Scientist
Björn Heinen arbeitet seit 2017 bei INFORM im Bereich Data Science. Als Lead Data Scientist beschäftigt er sich sowohl mit internen Projekten, bei denen bestehende INFORM-Produkte um Machine-Learning-Funktionalitäten erweitert werden, als auch mit externen Projekten, die er von der Ausarbeitung über die Implementierung bis zur Integration begleitet.