Mit Microsoft Fabric hat Microsoft Ende Mai auf seiner jährlichen Build-Konferenz eine neue, vereinheitlichte Plattform für Datenanalysen aller technischen Ebenen bereitgestellt. Microsoft Fabric integriert etwa Data Factory, Synapse sowie Power BI und unterstützt nach eigenen Angaben so sämtliche „rollenspezifischen Aufgaben im Analyseprozess, von Daten-Ingenieur*innen und Data-Warehousing-Professionals über Datenwissenschaftler*innen und -Analyst*innen bis hin zu Geschäftsanwender*innen“. In diesem Blogbeitrag nehmen wir dieses Versprechen unter die Lupe und erkunden die Potenziale sowie Limitierungen der Lösung.
Ein Blick auf die Preview-Version der neuen Microsoft-Lösung weckt Hoffnungen
Man könnte sagen: Nicht alles, was glänzt, ist Gold in der aktuellen Cloudlandschaft: Die vorherrschenden Cloud-Lösungen von Microsoft, AWS, Google usw. sind in der Regel mit hohem administrativem Aufwand verbunden und erfordern geschultes Personal. Dies stellt insbesondere in Zeiten des Fachpersonalmangels eine Hürde dar. Hier war zuletzt ein Negativ-Rekord zu verzeichnen: Rund 70.000 unbesetzte IT-Stellen gab es durchschnittlich im vergangenen Jahr.
Zudem stehen viele Unternehmen aktuell ohnehin vor zahlreichen wirtschaftlichen, gesellschaftlichen und ökologischen Umwälzungen – die durch fehlerhafte und aufwendige Lösungen im besten Fall nicht gelöst und im schlimmsten Fall sogar zusätzlich verschärft werden. Ein weiteres Problem sind unklare Verantwortlichkeiten sowie fehlende oder unzureichende Sicherheits- und Schutzkonzepte, die die Risiken für Unternehmen zusätzlich erhöhen. Gerade die üblichen Platform-as-a-Service- (PaaS) und Infrastructure-as-a-Service-Lösungen (IaaS) haben in der Vergangenheit immer wieder für Probleme gesorgt: Sie sind oftmals fehlerhaft konfiguriert und/oder veraltet, wie das Open Web Application Security Project (OWASP) in einem entsprechenden Risiko-Ranking vor Augen geführt hat. Das ist auch insofern ein Problem, als Cyber-Attacken immer mehr Unternehmen treffen.
Microsoft Fabric: Der Stoff aus dem die IT-Träume sind?
Der relativ neue Ansatz, den SaaS-Lösungen wie Microsoft Fabric (engl. Fabric = dt. Gewebe) verfolgen, könnte die oben genannten Herausforderungen signifikant reduzieren, vor allem in Verbindung mit weiteren Innovationen wie z.B. Microsoft OneLake, die das dezentrale Data-Mesh-Konzept verfolgt. Das Prinzip hinter Microsoft Fabric: Es werden Teile der Freiheiten herkömmlicher IaaS-/PaaS-Lösungen, zugunsten der geringeren Risiken einer SaaS-Lösung getauscht, die direkt von Microsoft betrieben und weiterentwickelt wird. Die Abbildung verdeutlicht, wo beim Shared-Responsibility-Model von Microsoft die Trennlinien der Freiheit verlaufen:
Das Shared-Responsibility-Model von Microsoft (Bild: Microsoft)
Was Microsoft Fabric den Herausforderungen entgegensetzt
Microsoft Fabric ist eine All-in-One-Lösung, die alle Daten und Analysetools innerhalb einer durchgängigen, einheitlichen Analyseplattform, zusammenbringt, angefangen bei der Datenverschiebung über Analyse- und Entwicklungskomponenten wie Data Science, Real-Time-Analytics sowie BI bis hin zur Visualisierung der Daten. Die wesentlichen Vorteile dieses ganzheitlichen Konzeptes liegen auf der Hand: Es vermindert Medienbrüche, erhöht über ein einheitliches PBI-Overlay die Benutzerfreundlichkeit und reduziert die Komplexität der einzelnen Azure-Produkte auf eine einzige integrierte E2E-Plattform.
Damit ist den Unternehmen sowohl eine einfachere, einheitliche Dokumentation und Nachverfolgung der Daten und Services möglich (Data Lineage/Data Governance) als auch eine auf die Services optimal abgestimmte Konfiguration durch Microsoft. Somit adressiert Microsoft nicht nur die technischen Herausforderungen, sondern ermöglicht zugleich eine domänenorientierte dezentrale Architektur. Dies führt unmittelbar zu einer deutlich effizienteren Weise der Datenverwaltung, der wir uns im Folgenden nochmal genauer widmen.
Übergreifender Zugang auf Data Products
Eines der Kernelemente von Microsoft Fabric sind Verknüpfungen, die die Bereitstellung von Daten erleichtern sollen. Hierbei soll es jeder Geschäftseinheit möglich sein, eigene Datenprodukte (also Datensätze, die bestimmte Qualitätskriterien erfüllen) zu erzeugen – und dass selbst ohne tiefgreifende IT-Kenntnisse. Dieser Ansatz wird auch als „Data Mesh“ bezeichnet. Er eröffnet Organisationen die Möglichkeit, eine unternehmensweite Datenökonomie zu erzeugen, in der einzelne Datenprodukte virtualisiert bereitstehen. Dadurch lassen sich über verschiedene Domänen hinweg verschiedene Data Owner adressieren. Hierbei verweisen die Verknüpfungen über Metadaten auf die eigentlichen Speicherorte und simulieren dem Nutzer das tatsächliche Vorhandensein der Daten. Das bedeutet, dass die Tabellen des Data Warehouses in einem Lakehouse bereitgestellt werden können, ohne dass die Daten verschoben oder dupliziert werden müssen. Somit lassen sich die Daten workspace- und domänenübergreifend konsolidieren, während die ursprünglichen Data Owner weiterhin für das Laden und Verwalten der Daten verantwortlich bleiben.
Herkunftsansicht per Data Lineage
Microsoft Fabric widmet sich auch einem Problem, das oftmals in umfangreicheren Analyseprojekten auftritt. Hier kann der Datenfluss schnell unübersichtlich werden, wenn das Projekt mehrere Datenquellen, Datenelemente und Abhängigkeiten umfasst. Dadurch werden Fragen in Bezug auf Kettenreaktionen bei Datenmanipulationen oder bei auftretenden Problemen in der Visualisierungsschicht schnell zur Herausforderung.
Um dabei die Personal-, Zeit- und Kostenaufwände möglichst zu reduzieren, bietet Microsoft Fabric eine Funktion zur Herkunftsansicht. Sie ermöglicht eine Visualisierung des Datenflusses aller innerhalb des Workspaces verbundenen Elemente sowie der dabei bestehenden Beziehungen zwischen den einzelnen Elementen. Zudem lassen sich auch Upstream-Verbindungen anzeigen, die sich außerhalb des Workspaces befinden. Voraussetzung: Damit ein Nutzer die entsprechende Visualisierung aufrufen und die Herkunft verfolgen kann, muss er zumindest als Mitwirkender eingetragen sein.
Kontrolle der Ownership
Auch hinsichtlich der Zugriffrechte verfolgt Microsoft Fabric ein eigenes Konzept. Hierbei werden Governance- und Compliance-Grenzen über Mandanten realisiert, die der Mandantenadministrator verwaltet. Er erstellt die Mandantenrichtlinien, die dann für alle Daten im OneLake – dem Data Lake von Microsoft - gelten. Somit können die Nutzer eigene Beiträge (Data Links) innerhalb der Organisation zum OneLake hinzufügen. Dabei verfügen die Arbeitsbereiche ebenfalls über Eigentümer, welche wiederum eine eigene Zugriffkontrolle nutzen, um der jeweiligen Zielgruppe entsprechende Rechte zu erteilen.
Ausblick: Kommt der Marktplatz für Datenprodukte?
Derzeit befindet sich Microsoft Fabric in der öffentlichen Vorschau (Beta), was von Microsoft auch innerhalb der Dokumentation deutlich kommuniziert wird. Das bedeutet, dass noch nicht alle Funktionalitäten in der aktuellen Version vorhanden sind und auch die dazugehörigen Dokumentationen längst nicht vollständig ausgearbeitet sind. Unser Fazit: Microsoft Fabric verfolgt einen guten Ansatz, der viele der anfangs genannten Herausforderungen adressiert. Allerdings wäre es wünschenswert, wenn beispielsweise weitere Funktionen in Bezug auf die Datenprodukte integriert würden, etwa die Bereitstellung über Data Marketplaces, wie wir sie bereits von anderen Datenplattformen wie Snowflake kennen. Wir bleiben gespannt…