StatsBomb Fußball Datenanalyse — Teil 2/3 » pmOne

StatsBomb Fußball Datenanalyse — Teil 2/3

Dieser Bericht ist der zweite Beitrag einer Serie von drei Beiträgen, in denen wir eine Analyse von Fußballdaten vorstellen. In dieser Serie analysieren wir die von StatsBomb bereitgestellten Daten, die Methoden sind jedoch leicht auf andere Datensätze übertragbar.
on on on

Dieser Artikel ist der zweite Beitrag einer Serie von drei Artikeln, in denen wir eine Analyse von Fußballdaten vorstellen. In dieser Serie analysieren wir die von Stats Bomb zur Verfügung gestellten Daten, aber die Methoden lassen sich leicht auf andere Datensätze übertragen. Diese Arbeit ist das Ergebnis des Praktikums von Joseph Horgan bei pmOne, einem Daten- und KI-Unternehmen mit Sitz in Deutschland. Sie wurde von Sascha Henzgen, Pascal Schulz und Stefan Balke mitverfasst.

In dem ersten Beitrag, der hier verlinkt ist, führen wir den Leser in das Thema Sportanalytik mit einem Fussball Analyse Tool ein und geben einen ersten Einblick in die Daten und erklären die zugrunde liegende Struktur. In diesem zweiten Beitrag werden wir einen unternehmenstauglichen Bericht in Power BI erstellen und die Analyse in diesem interaktiven Tool erweitern. Im dritten Beitrag stellen wir ein erstes "Scoring"-Modell vor, d.h. wie wahrscheinlich es ist, dass die aktuellen Spielerpositionen zu einem Tor führen. Beginnen wir ohne Umschweife mit dem zweiten Beitrag:

Zuvor haben wir uns mit dem Prozess der Datenauswertung beschäftigt und anschließend einige detaillierte Visualisierungen erstellt. Diese Visualisierungen gaben zwar einen guten Einblick in die Spiele und die beteiligten Spieler, sind aber für Personen ohne Programmierkenntnisse nicht leicht zu pflegen oder zu ändern. Ein Hauptziel eines jeden Projekts, das darauf abzielt, datengestützte Entscheidungsfindung in einer neuen Branche einzuführen, sollte darin bestehen, die Ergebnisse einer Analyse durch ein entsprechendes Tool für Personen ohne technischen Hintergrund leicht verständlich und überschaubar zu machen und deshalb müssen wir ein alternatives Medium finden, mit dem wir unsere Analyse darstellen können. Um dies zu erreichen, werden wir uns an Microsoft Power BI wenden.

Microsoft Power BI ist eine Business-Intelligence-Plattform, die ihren Nutzern die Tools zur Verfügung stellt, mit denen sie auf einfache Weise Daten erfassen und umwandeln, Datenmodelle erstellen und Berichte entwickeln können, um ihre Daten zu aggregieren, zu filtern und zu visualisieren. Wir übernehmen die Rolle eines Power BI-Entwicklers, der einen Bericht erstellen soll, um den Trainern und dem Management unserer Fußball-Vereine relevante KPIs und Visualisierungen zur Verfügung zu stellen, die sie bei ihrer datengestützten Entscheidungsfindung unterstützen.

Ein mächtiges Werkzeug im Arsenal eines jeden Power BI-Entwicklers ist die Integration der Programmiersprache Python in Power BI. Diese Integration ermöglicht es uns, Python zum Importieren, Transformieren und Visualisieren von Daten innerhalb eines Power BI-Berichts zu verwenden. In unserem Fall können wir damit Visualisierungen aus dem Datenscreening-Prozess in einen Bericht übertragen. Sie erinnern sich vielleicht an den ersten Beitrag, in dem wir die mpl-Fußballbibliothek verwendet haben, um ein Fußballfeld in unseren Datenvisualisierungen zu erstellen. Die natürliche Folgefrage lautet: "Unterstützt Power BI dieses Paket?". Die Antwort lautet wie so oft im Bereich der Analytik: "Ja... aber auch nein.". Wenn wir Power BI in unsere lokale Python-Umgebung einbinden, ist es in der Lage, Python-Visualisierungen unter Verwendung der mpl-Fußballbibliothek auszugeben. Wir möchten diesen Bericht jedoch mit Blick auf die Skalierbarkeit erstellen. Daher sollte der Bericht idealerweise in einer Cloud-Umgebung erstellt werden, wo er mit einer ständig aktualisierten Datenquelle verbunden werden kann (wir haben keine, aber wir können träumen). Wenn wir unseren Bericht über den Power BI-App-Dienst in der Cloud veröffentlichen, verlieren wir den Zugriff auf die mpl-Fußballbibliothek in unserer lokalen Python-Umgebung. Die Situation ist ein bisschen wie eine Falle 22! Glücklicherweise unterstützt Power BI einige Bibliotheken in der Cloud, einen Artikel zu diesem Thema finden Sie hier. Für uns sind Pandas, NumPy und Matplotlib unterstützte Bibliotheken. Die Lösung, die uns jetzt zur Verfügung steht, ist die Erstellung eines eigenen Pitches unter Verwendung der Matplotlib-Bibliothek. Dies ist technisch nicht schwierig und es gibt bereits viele Tutorials zu diesem Thema.

Mithilfe dieser Tools haben wir einen Power BI-Bericht erstellt, der in zwei Hauptabschnitte unterteilt ist. Der erste Teil befasst sich mit der Bewertung der Vereinsleistung als Ganzes, wobei Leistungsindikatoren wie das Verhältnis von Sieg und Niederlage in den aufgezeichneten Spielzeiten, die Bewertung von Spielzügen und der Einfluss verschiedener Manager auf den Verein untersucht werden. Die zweite Hälfte befasst sich mit der Leistung einzelner Spieler in bestimmten Aspekten ihres Spiels, vom Schießen und Toreschießen bis hin zum Passen und Zweikämpfen.

Im nächsten Teil dieses Beitrags werden wir einen kurzen Überblick über den Inhalt der einzelnen Seiten des Berichts geben. Am Ende dieses Beitrags finden Sie einen Link zu einer Webversion des Berichts, die Sie sich ansehen und mit der Sie interagieren können.

Bericht: Auswertung auf Vereinsebene

Club-Gewinn-Verlust-Analyse

Bei der Analyse auf Vereinsebene ist der Anteil der Spiele, die ein Verein in jeder Saison gewinnt und verliert, die vielleicht wichtigste "Big Picture"-Kennzahl. Wir können dies genauer betrachten, indem wir die Auswirkungen von Heim- und Auswärtsspielen auf diese Siege und Niederlagen untersuchen. Wenn wir nur binäre Daten wie die Gewinn- und Verlustquote eines Vereins betrachten, gehen uns viele Informationen über die Leistung des Vereins verloren. Nehmen wir zum Beispiel zwei Vereine, A und B. Angenommen, in einer Begegnung besiegt Verein A Verein B mit 1:0. Verein A verbringt dann die spielfreie Zeit damit, die gesammelten Daten als Grundlage für sein Training und seine taktischen Entscheidungen zu nutzen. Wenn die beiden Vereine in der nächsten Saison wieder aufeinandertreffen, gewinnt Verein A mit einem klaren 4:0-Sieg. Wenn wir die Leistung eines Vereins langfristig nur anhand seiner Siege und Niederlagen bewerten, verlieren wir den Überblick. In diesem Beispiel könnten wir keine Verbesserung von Verein A feststellen, sondern nur, dass er Verein B in beiden Begegnungen geschlagen hat. Vor diesem Hintergrund können wir die Siege/Niederlagen eines Vereins pro Saison weiter aufschlüsseln und die durchschnittlich erzielten Tore und die durchschnittlich kassierten Tore pro Spiel in jeder Saison betrachten, um zu sehen, in welchen Spielzeiten unser Verein am besten abgeschnitten hat. Der Screenshot unten zeigt die Leistung des La-Liga-Vereins Barcelona. Hier können wir auf einen Blick erkennen, dass der Verein die meisten Spiele gewinnt und damit zur Elite gehört. Anhand des Liniendiagramms durch das Fußball Analyse Tool in der Mitte der Seite können wir auch sehen, in welcher Saison sie am besten abgeschnitten haben, hier zwischen 2006 und 2016. Interessanterweise können wir auch den Beginn ihres Abstiegs um 2016 herum erkennen, mit einem Rückgang der durchschnittlich erzielten Tore pro Spiel und einem Anstieg der durchschnittlichen Anzahl der Gegentore. Anhand der Anzahl der Gegentore, die ein Verein bei Heim- und Auswärtsspielen kassiert, lässt sich schließlich erkennen, welche Mannschaften die größte Gefahr für die Verteidigung eines Vereins darstellen. Am Beispiel Barcelonas können wir sehen, dass Real Madrid und Real Betis die größte Gefahr für Barcelona darstellen.

Soccer 23

Analyse der Vereinsmanager

Die nächste Seite des Berichts befasst sich mit dem Einfluss des Managers auf die Leistung eines Vereins. Hier können wir anhand von KPIs wie dem Sieg-Niederlage-Verhältnis des Vereins, den durchschnittlich erzielten und kassierten Toren pro Spiel sowie den erwarteten Toren pro Spiel Erkenntnisse gewinnen, die für die Bewertung der Leistung einer Mannschaft unter einem Manager entscheidend sind. Wir können nun untersuchen, wie bestimmte Spieler unter einem Manager abgeschnitten haben, indem wir ein gestapeltes Balkendiagramm der Spieler-KPIs erstellen und verfolgen, wie sich diese beim Filtern durch verschiedene Manager verändern. In den beiden Screenshots unten sehen wir zunächst eine Manageranalyse für alle Manager oder den "durchschnittlichen Barcelona-Manager" und dann die Analyse für Josep "Pep" Guardiola. Wenn wir Peps KPIs mit dem Durchschnitt vergleichen, können wir sehen, dass er seinen Status als einer der erfolgreichsten Manager Barcelonas verdient hat.

SB 2 2
SB 2 3

Analyse der Spielfiguren eines Vereins

Auf den nächsten drei Seiten des Berichts werden drei Spielfiguren eines Vereins mit dem Fußball Analyse Tool analysiert: Ecken, Freistöße und Einwürfe (später in der Spieleranalyse werden wir uns auf Elfmeter konzentrieren, die aufregendste Spielfigur).

Eckball-Analyse

Auf der Seite Eckenanalyse können wir die von einem Verein ausgeführten offensiven Ecken analysieren. Durch die Anzeige einiger KPIs können wir uns schnell einen umfassenden Überblick darüber verschaffen, wie effektiv ein Verein bei der Erzielung von Toren oder der Schaffung von Schussmöglichkeiten aus seinen Ecken ist. Die Visualisierungen im Bericht zeigen das Ergebnis jeder Ecke, welche Spieler die Ecken ausgeführt haben, wie hoch der Anteil der erfolgreichen Pässe war und schließlich eine Aufschlüsselung der Arten von Ecken (Boden, niedrig oder hoch). Im folgenden Screenshot sehen wir die offensiven Eckbälle des FC Barcelona in der La-Liga-Saison 2018/2019. Auf einen Blick können wir mehrere Erkenntnisse gewinnen: Barcelona hat genauso häufig kurze wie lange Ecken gespielt. Die langen Eckbälle waren weitaus seltener erfolgreich als die kurzen Pässe. Die Mehrzahl der Eckstöße wird von drei Spielern ausgeführt. Und schließlich, und das ist für die Bewertung von Barcelonas Eckbällen am wichtigsten, hat Barcelona aus fast zweihundert Eckbällen nur zwölf Schussmöglichkeiten und nur ein Tor erzielt. Keine gute Statistik für einen Verein!

Freistoß-Analyse

Die Seite Freistoß-Analyse lehnt sich eng an das Layout der Seite Eckball-Analyse an und unterteilt Freistöße in zwei Kategorien: Schüsse und Pässe. Wir können dann die Ergebnisse dieser beiden Ereigniskategorien analysieren und ihre Position sowie die Anzahl der Freistöße pro Spieler visualisieren. Das folgende Beispiel zeigt die Freistöße des FC Barcelona in der Saison 2017/2018. Hier können wir sehen, warum Barcelona oder genauer gesagt Messi ein so gefürchteter Freistoßspezialist ist. Von sechsundfünfzig geschossenen Freistößen hat Barcelona sechs Tore erzielt. Eine weitaus bessere Erfolgsstatistik als ihre Eckbälle!

Einwurf-Analyse

Auf der letzten Berichtsseite über Einwürfe werden die Einwurfergebnisse eines Vereins detailliert dargestellt. Hier sehen wir eine Aufschlüsselung der Einwurfergebnisse eines Vereins, den Anfangs- und Endpunkt jedes Ereignisses und eine Baumstruktur mit den Spielern, die am häufigsten Einwürfe machen.

Club xG-Analyse

Die letzte Seite im Teil "Vereinsanalyse" des Berichts befasst sich mit den erwarteten Toren (xG) eines Vereins. Der Wert der erwarteten Tore für einen Schuss gibt die Wahrscheinlichkeit an, dass der Schuss zu einem Tor führen wird. Im nächsten und letzten Blog-Beitrag werden wir diesen Wert im Detail erforschen und schließlich unser eigenes xG-Modell erstellen, aber für diesen Bericht können wir die von StatsBomb im Ereignisdatenrahmen bereitgestellten Werte verwenden. Die KPIs im Bericht zeigen die Gesamtzahl der Schüsse eines Vereins, den durchschnittlichen xG-Wert dieser Schüsse, die Gesamtzahl der erzielten Tore und den durchschnittlichen xG-Wert der erfolgreichen Schüsse. Durch die Gegenüberstellung des durchschnittlichen xG-Wertes der Schüsse und des durchschnittlichen xG-Wertes der Tore können die Trainer erkennen, wo die wertvollsten Schussgelegenheiten liegen und wann ein Spieler besser den Ball spielen sollte, anstatt zu schießen, in der Hoffnung, eine weitere Schussgelegenheit mit einem höheren xG-Wert zu erhalten. Die Spielfeldvisualisierung unten links stellt die erfolglosen und erfolgreichen Schüsse mit den Punktalphas dar, die dem xG des Schusses entsprechen (ein niedriges xG bedeutet eine "schlechtere" Schussmöglichkeit und somit einen transparenteren Diagrammpunkt und ein höheres xG umgekehrt einen weniger transparenten Diagrammpunkt), so dass Trainer auf einen Blick den Wert verschiedener Schussereignisse erkennen können. Die letzten beiden Visualisierungen zeigen, welcher Spieler die meisten xG aus seinen Schussereignissen generiert, und die durchschnittlichen xG der Spiele in den vergangenen Spielzeiten, um zu sehen, ob ein Verein seine Schussqualität verbessert. Betrachten wir das folgende Beispiel, Barcelonas Saison 2019-2010. Wir sehen, dass sie das xG-Modell übertroffen haben, indem sie siebzig Tore aus einem kumulativen xG-Wert von einundsechzig geschossen haben, was für ein Eliteteam verständlich ist. Es überrascht nicht, dass Messi Barcelonas xG-Generation über die Ergebnisse des Fußball Analyse Tools dominiert.

 

Sb 2 4
SB 2 5
SB 2 6
SB 2 7

Bericht: Analyse auf Spielerebene

In der zweiten Hälfte des Berichts konzentrieren wir uns auf die Bewertung der einzelnen Spieler eines Vereins anhand ihrer Leistung bei mehreren häufigen/wichtigen Ereignistypen in einem Spiel

 

Spielerschüsse und Spielertore

Die ersten beiden Seiten im zweiten Abschnitt des Berichts sind die Seiten "Spielerschüsse" und "Spielertore". Sie geben einen detaillierten Einblick in die offensiven KPIs eines Spielers, visualisieren auf dem Spielfeld, wo die erfolgreichen und erfolglosen Schüsse stattfanden, die Entfernung der Schüsse zum Tor und schlüsseln die Ergebnisse dieser Schüsse auf. Im folgenden Beispiel können wir die Schussleistung von Messi in der La Liga-Saison 2019/2020 verfolgen. Sehen Sie die Orte, von denen aus er geschossen hat, und untersuchen Sie einige seiner KPIs wie seine durchschnittlichen Schüsse und durchschnittlichen Tore pro Spiel, sehen Sie, dass er eine fünfzehnprozentige Schussumwandlungsrate hat (Prozentsatz der Schüsse, die zu Toren führen) und eine Aufschlüsselung der Ereignisse, die zu seinen Toren führen. Messi erzielte vierundzwanzig Prozent seiner Tore aus Freistößen, was sich gut mit den Erkenntnissen deckt, die wir zuvor auf der Seite "Set Piece Analysis" des Clubs gewonnen haben.

SB 2 8
SB 2 9

Spieler-Strafstöße

Die Seite Spieler-Elfmeter konzentriert sich auf offensive Elfmeter, die von einem Spieler ausgeführt werden. Da es nur den Torwart zu schlagen gilt, der Ball ruht und keine Verteidiger Druck ausüben können, hat ein Elfmeter natürlich einen hohen xG-Wert und ist somit eine wichtige Torchance in jedem Spiel. Die KPIs auf der Seite zeigen die Anzahl der von einem Spieler verschossenen Elfmeter und ihre Erfolgsquote. Das Streudiagramm veranschaulicht die Endposition des Schusses. In der Punktwolke sind die beiden vertikalen Torpfosten auf der x-Achse bei 36 und 44 und die Querlatte, die die beiden auf einer Höhe von 2,67 verbindet. Das Ergebnis ist eine Karte, die zeigt, wo ein Spieler am ehesten schießen wird! Unbezahlbare Informationen für jeden Torhüter. Im folgenden Beispiel sehen wir, dass Messi am liebsten auf die rechte Seite des Tores schießt und häufiger nach unten als nach oben. Wir können auch die Geschwindigkeit des Elfmeters analysieren und filtern: Ist die Wahrscheinlichkeit eines Treffers größer, wenn der Elfmeter hart, aber ungenau oder langsam und präzise geschossen wird?

SB 2 10

Spieler-Passspiel

Auf der Seite Spielerpässe können wir die Passgewohnheiten und Ergebnisse eines Spielers analysieren. Wir können KPIs wie die Erfolgsquote der Pässe eines Spielers, die durchschnittliche Anzahl der Pässe pro Spiel und offensivere Pass-KPIs wie die Anzahl der Schüsse und Tore, die aus Spielerpässen resultieren, verfolgen. Mit der Seaborn-Bibliothek können wir eine Heatmap erstellen, die die Bereiche auf dem Spielfeld anzeigt, die ein Spieler passiert. Die beiden Balkendiagramme zeigen die erfolgreichsten Spieler eines Vereins in Bezug auf die durch ihre Pässe erzeugten Schussmöglichkeiten und die Aufteilung der Pässe eines Spielers in tiefe und hohe Pässe.

Bild 2 11

Spieler Tackling und Fouls

Die Seiten Tacklings und Fouls analysieren die Verteidigungseigenschaften eines Spielers. Auf der Seite Spieler-Tacklings können wir nicht nur die Tacklings eines Spielers sehen, sondern auch die Druckereignisse eines Spielers, d.h. die Zeiten, in denen ein Spieler Druck auf einen gegnerischen Spieler ausübt, der in Ballbesitz ist. Wir können die Orte auf dem Spielfeld, an denen ein Spieler Tacklings durchführt, sowie eine Aufschlüsselung des Tackling-Ergebnisses visualisieren und uns ansehen, wer in der Vergangenheit der aktivste Tackler eines Vereins war. Im folgenden Beispiel sehen wir, dass Sergio Busquets mit einer Erfolgsquote von über 75 % der aktivste Tackler des FC Barcelona war.

Ein Blick auf die Seite mit den Spielerfouls gibt nicht nur Aufschluss über die von einem Spieler begangenen Fouls, sondern auch über die von einem Spieler gewonnenen Fouls. Es mag zwar besonders sportlich sein, die von einem Spieler begangenen Fouls zu untersuchen, doch ist dies derzeit ein unbestreitbar wichtiger Aspekt des Spiels. Vor allem auf offensiven Positionen. Ein Elfmeter hat ein xG von 0,76, Barcelonas durchschnittlicher Schuss hatte in der Saison 2019/20 ein xG von nur 0,14. Daher werden die Vereine natürlich versuchen, ihre Chancen auf die höheren xG-Werte bei Schüssen, d. h. bei Elfmetern, zu maximieren.

SB 2 13
Sb 2 14

Schlussfolgerung

Der Zugang zu einer detaillierten offenen Datenquelle und dem BI-Berichtstool Microsoft Power BI als Fußball Analyse Tool hat die Erstellung eines detaillierten Fußballanalyseberichts ermöglicht. Dieser kann hoffentlich einem Trainerstab, der Daten und Analysen besser nutzen möchte, detaillierte Einblicke geben und dient zumindest als Konzeptnachweis. Derzeit gibt es sowohl die Daten als auch die Analysewerkzeuge, mit denen datengestützte Entscheidungen im Fußball getroffen werden können, und sie sind in dem in dieser Blogserie beschriebenen Umfang kostenlos verfügbar.

Im nächsten Beitrag werden wir zwei Anwendungen des maschinellen Lernens für die Fußballdaten diskutieren. Das erste ist ein Klassifizierungsmodell, um unsere eigenen xG-Werte zu erstellen, und das zweite ein Clustering-Modell, um zu sehen, wie ein unüberwachtes, aber auch unvoreingenommenes Modell die Spieler in unserem Datensatz auf der Grundlage einer Reihe von technischen Merkmalen segmentieren kann.

Wir hoffen, dass Ihnen diese Reise in die Fußballanalyse mit Power BI gefallen hat und freuen uns auf den nächsten Beitrag!

Hier finden Sie einen Link zu einer Webkopie des Berichts. Probieren Sie es einfach aus und sehen Sie, welche Erkenntnisse Sie gewinnen können!

Pfeil Rechts
3
3
3

Sascha Henzgen

Data Scientist

Sascha Henzgen

Data Scientist

Sascha Henzgen

Data Scientist

Technologien
Power BI
Lösungen
Data Science & KI
Modern BI

Neueste Beiträge

*“ zeigt erforderliche Felder an

Die mit *-markierten Felder sind Pflichtfelder
Dieses Feld dient zur Validierung und sollte nicht verändert werden.
Menü