actionbrowser.com
Sie entkoppelt die Quellsysteme vom Datawarehouse. Die Integration erfolgt über zwei Schichten, die im Data Vault Stil nach Dan Linstedt modelliert werden: Der Raw Data Vault integriert die Rohdaten der Quellsysteme über gemeinsame Geschäftsschlüssel in den Hubs und verknüpft diese mit Links. Der beschreibende Geschäftskontext wird über quellsystemspezifische Satelliten historisiert. Alle verfügbaren Attribute der Quellsysteme werden so einem Geschäftsobjekt zugeordnet. Dadurch eignet sich Data Vault auch sehr gut für analytisches Master Data Management. Nur harte Geschäftsregeln wie Deduplizierung, Datentypkonversionen, Normalisierung und Denormalisierung sind im Raw Data Vault erlaubt. Der Business Vault konsolidiert die Quellsystemattribute in ein Fachbereichsmodell und implementiert die Geschäftsregeln des Fachbereichs. Geschäftsregeln ändern sich schnell. Durch die strikte Trennung der Rohdaten im Raw Data Vault von den Geschäftsregeln im Business Vault können diese Änderungen schnell umgesetzt werden.
Data Vault führt zur Entkopplung von inkrementellen Datenmodell- und ETL-Änderungen, sodass bestehende Systembestandteile nicht verändert werden müssen. ETL-Ladenetze weisen hohe Abhängigkeiten und schlechte Ladezeiten auf, obwohl die Systeme technisch nicht voll ausgelastet sind? Data Vault ermöglicht eine massive Parallelisierung der Ladeprozesse und sehr gute Skalierbarkeit. Tipp: Das Seminar ist Bestandteil der Data Management Professional Zertifizierung! Dr. Hüsemann, Bodo Dr. Bodo Hüsemann ist seit 2005 als Experte für Analytics Systeme für die Informationsfabrik GmbH in Münster tätig. Er studierte Wirtschaftsinformatik und promovierte an der Universität Münster. Seit 2009 ist er Partner der Informationsfabrik und berät Unternehmen bei der Konzeption und Umsetzung komplexer Data Warehouse und Big Data Lösungen. Darüber hinaus führt er als erfahrener Trainer BI-Schulungen und Praxisworkshops für Unternehmen sowie für die Universität Münster durch. Seminarziel In diesem Seminar lernen die Teilnehmer die wesentlichen Grundbausteine des Data-Vault-Modells und die Hauptargumente für den Einsatz kennen.
Hubs, Links und Satelliten Anders als bei den traditionellen Konzepten (dritte Normalform 3NF) ordnet Data Vault die zum Objekt gehörenden Daten bei der Modellierung drei Gattungen zu, die klar voneinander getrennt abgelegt werden: Hubs beschreiben das Kerngeschäft, zum Beispiel Verkauf, Kunde, Produkt (Core Business Concept). Im Zentrum der Hub-Tabelle steht die Vertrags- beziehungsweise Kundennummer (Business Key). Der Hub setzt sich aus dem Business Key, einer Reihe von ID-/Hash-Schlüsseln (im Data Warehouse erzeugt), dem Zeitstempel (Ladedatum) und der Datensatzquelle zusammen. Er beinhaltet keinerlei deskriptive Daten. Durch Links werden Beziehungen zwischen Business Keys erzeugt. Jeder Eintrag in einem Link modelliert n-m Beziehungen einer willkürlichen Nummer von Hubs. Das garantiert die Flexibilität des Data Vaults, wenn sich die Business Logik der Quellsysteme ändert, zum Beispiel bei der Anpassung der Kordialität von Beziehungen. Auch Links umfassen keine beschreibenden Daten, sondern die Sequenz-IDs der Hubs, auf die sie sich beziehen, einer im Data Warehouse generierten Sequenz-ID, Ladedatum und Datensatzquelle.
Neue Datenquellen führen zu rein additiven Änderungen. Es werden einfach Hubs, Links und Satelliten zum bestehenden Modell angehängt. Beispiel: Durch die Integration des Sales Quellsystems wird das Geschäftsobjekt Kunde erweitert. Hub_Kunde und seine Satelliten bilden eine logische Einheit und beschreiben das Geschäftsobjekt Kunde. Die Geschäftsregeln zur Datenintegration werden strikt getrennt im Business Vault implementiert. Die Links sind die Beziehungen und entkoppeln Kunde von den restlichen Geschäftsobjekten. Das macht das Datenmodell sehr flexibel. Abhängigkeitsketten im Ladeprozess werden aufgelöst und alle Quellen können gleichzeitig geladen werden. Data Vault Schichten Die Datenlandschaft eines Unternehmens mit mehreren Quellen ist komplex und umfangreich. Über mehrere Schichten wird aus den verfügbaren Daten wertvolle Information und Wissen erzeugt. Data Vault Schichtenarchitektur Auch die Architektur teilt das Datawarehouse (DWH) in mehrere Schichten mit klaren Zuständigkeiten: Die Stage enthält einen Abzug der Quelldaten.
Nur hier sind inhaltliche Veränderungen, auch weiche Geschäftsregeln genannt, erlaubt. Die Data Mart stellt das Fachbereichsmodell im Business Vault als leicht abfragbares Star Schema bzw. als Cube zur Verfügung. Die Datenmodellierung erfolgt hier meist dimensional im Stil von Ralph Kimball. Business Intelligence ( BI) & Analytics bezeichnet die Analysetools und Dashboards, die zur Auswertung und Anzeige der Informationen eingesetzt werden. Data Vault ist technologieunabhängig. Die Methode funktioniert mit relationalen und Big Data Technologien. Eine persistierte Stage bzw. ein Data Lake ist oft die Basis für die oberen DWH Layer. Das Featureset für Machine Learning und KI Algorithmen kann sowohl aus Rohdaten als auch aus Businessdaten erzeugt werden. Die Ergebnisse werden einfach als Satellit wieder zurückgeschrieben. Bei Streaming Anwendungen wird direkt in den Raw Vault geschrieben.