Azure Synapse Analytics: Der unbegrenzte Analysedienst (Teil 2/4)

09.09.2021 | Dirk Müller

Nachdem wir uns in Teil 1 dieser Serie mit dem Thema Analytics Platform, den Chancen, Herausforderungen sowie den Funktionen und Vorteilen beschäftigt haben, geht es in Teil zwei um die konkrete Umsetzung auf Basis von Microsoft Azure Synapse Analytics.

Was ist Microsoft Azure Synapse Analytics?

Mit Azure Synapse Analytics bietet Microsoft einen skalierbaren Analysedienst an, der Datenintegration, Modern Data Warehousing und Big-Data-Analysen miteinander kombiniert. Azure Synapse vereint diese Aufgabenbereiche in einer einheitlichen Oberfläche zum Erfassen, Erkunden, Aufbereiten, Verwalten und Bereitstellen von Daten für Business Intelligence und Machine Learning.

 

Azure Synapse bringt dabei Technologien aus unterschiedlichen Bereichen zusammen: SQL für Data Warehousing, Spark für Big Data-Anwendungen, Pipelines für die Datenintegration und ETL/ELT. Azure Synapse Analytics beseitigt hierbei die Barrieren bei der gemeinsamen Verwendung von SQL und Spark. Beide Lösungen können nach je nach Anforderung und Kenntnisstand miteinander kombiniert werden.

 

Mit Synapse Studio stellt die Plattform eine zentrale Benutzeroberfläche für die Erstellung von Lösungen sowie für Administrationsaufgaben bereit. Anwender können innerhalb der Plattform auf die bekannten Funktionen und Möglichkeiten zugreifen, die aus Azure Data Factory bekannt sind, was die Erstellung umfangreicher ETL-Pipelines ermöglicht. Zusätzlich ist die Integration weiterer andere Azure-Dienste einfach möglich.

Azure Synapse Analytics (Architektur)
Abb: Azure Synapse Analytics (Architektur)

Anwendungsfälle von Azure Synapse Analytics

Azure Synapse Analytics ermöglicht flexible und leistungsfähige Datenabfragen, indem entweder serverlose oder dedizierte Ressourcen verwendet werden. Der dedizierter SQL-Pool (vormals SQL DW) bezieht sich dabei auf die Data Warehousing-Features, die in Azure Synapse Analytics zur Verfügung stehen.

 

Zudem lassen sich auch in Echtzeit Analysen von Streaming-Daten durchführen, zum Beispiel wenn diese direkt in ein DWH integriert werden. Zusätzlich steht hierfür die Spark-Engine zur Verfügung. Tabellen, die auf Dateien im Data Lake definiert sind, können direkt von Spark oder Hive genutzt werden. SQL und Spark lassen sich zur direkten Erkundung und Analyse von gespeicherten Parquet-, CSV-, TSV- und JSON-Dateien im Data Lake verwenden. Das Laden von Daten zwischen SQL- und Spark-Datenbanken erfolgt schnell und ist einfach skalierbar.

 

Azure Data Lake Storage Gen2 ist die Grundlage für das Erstellen von Enterprise Data Lakes und der Möglichkeit, riesige Datenmengen in Azure zu verwalten, abzufragen und anschließend zu analysieren. Das System wurde für die Verarbeitung mehrerer Petabytes an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert. Es ist zudem sehr kostengünstig, da es auf dem kostengünstigen Azure Blob Storage aufbaut, diesem aber einen hierarchischen Namespace hinzufügt, der die Leistung von Verzeichnisverwaltungsvorgängen deutlich verbessert.

 

Die Menge an sensiblen Daten, die durch Azure Synapse Analytics verwaltet und verarbeitet werden, wirft unmittelbar die Fragen nach der Organisation der Daten und deren Sicherheit auf. Microsoft hat in Azure Synapse Analytics wesentliche Datenschutzfunktionen integriert, sodass einzelne Spalten und Zeilen mit unterschiedlichen Sicherheitseinstellungen und Berechtigungen analysiert werden können. Ebenfalls sind eine dynamische Datenmaskierung und eine dauerhafte Verschlüsselung aller Daten möglich. Die Microsoft Analytics Platform erkennt in Kombination mit anderen Azure-Services mögliche Gefahren und kann Daten automatisch schützen. Zur Authentifizierung kann in Azure Synapse Analytics auf Azure Active Directory gesetzt werden.

 

Sind die Zugriffsmöglichkeiten auf Daten entsprechend eingerichtet und ist Sicherheit der Plattform geregelt, stehen die jeweiligen Daten den berechtigten Personen grundsätzlich zur Verfügung, um sie z.B. mittels Azure ML oder Power BI zu analysieren und wesentliche Erkenntnisse aus den Daten abzuleiten. Voraussetzung hierfür ist, dass die Anwender eine Übersicht erhalten, welche Daten zur Verfügung stehen. An dieser Stelle leistet die Integration von Azure Synapse Analytics mit Azure Purview einen wertvollen Beitrag.

 

Azure Purview ist ein Dienst für eine einheitliche Data Governance, der bei der Verwaltung von Daten unterstützt und es ermöglicht, eine ganzheitliche, aktuelle Übersicht über die Datenlandschaft mithilfe von automatischer Datenermittlung zu erstellen. Die gefundenen Daten werden im Hinblick auf Ihrer Vertraulichkeit klassifiziert und mit ausführlichen Informationen zur Datenherkunft angereichert. Datennutzer werden so bei der Suche nach wertvollen, vertrauenswürdigen Daten unterstützt.

 

Azure Synapse Analytics erfüllt damit die Anforderungen, die an eine moderne Analytics Platform gestellt werden (siehe auch pmOne Referenzarchitektur) und zeichnet sich als eine skalierbare und anpassbare Plattform aus, die moderne Analyse-Methoden unterstützt. Daten werden für Anwender, insbesondere in Kombination mit Azure Purview, leicht zugänglich und qualitativ hochwertig bereitgestellt, ohne dass Anforderungen an die Datensicherheit vernachlässigt werden.

 

Da es sich um eine vollständig integrierte Lösung handelt, werden auch mittel- bis langfristig hochwertige und verlässliche Erkenntnisse aus Analysen ermöglicht, um Mehrwerte für das Business zu generieren.

Einführung einer Analytics Platform mit Azure Synapse Analytics

Azure Synapse Analytics (Adoption)
Abb.: Microsoft Cloud Adoption Framework for Azure

 

Im nächsten Teil unserer Reihe werfen wir einen Blick auf eine mögliche Architektur einer IoT-Plattform.


Kontaktieren Sie uns gerne für weitere Informationen und ein erstes, unverbindliches Gespräch!

Microsoft Azure Workshop: Analytics

Moderne Data-Warehouse-Lösungen in der Cloud

Ihr Ansprechpartner

Dirk Müller
Sales Manager
pmOne AG
Im Mediapark 6A
50670 Köln
+49 151 29223919